論文の概要: Unbiased Sentence Encoder For Large-Scale Multi-lingual Search Engines
- arxiv url: http://arxiv.org/abs/2106.07719v1
- Date: Mon, 1 Mar 2021 07:19:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-09 14:17:12.845484
- Title: Unbiased Sentence Encoder For Large-Scale Multi-lingual Search Engines
- Title(参考訳): 大規模多言語検索エンジンのための不偏文エンコーダ
- Authors: Mahdi Hajiaghayi, Monir Hajiaghayi, Mark Bolin
- Abstract要約: 本稿では,クエリおよび文書エンコーダとして検索エンジンで使用可能な多言語文エンコーダを提案する。
この埋め込みにより、クエリとドキュメント間のセマンティックな類似性スコアが可能になり、ドキュメントのランク付けと関連性において重要な機能となる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present a multi-lingual sentence encoder that can be used
in search engines as a query and document encoder. This embedding enables a
semantic similarity score between queries and documents that can be an
important feature in document ranking and relevancy. To train such a customized
sentence encoder, it is beneficial to leverage users search data in the form of
query-document clicked pairs however, we must avoid relying too much on search
click data as it is biased and does not cover many unseen cases. The search
data is heavily skewed towards short queries and for long queries is small and
often noisy. The goal is to design a universal multi-lingual encoder that works
for all cases and covers both short and long queries. We select a number of
public NLI datasets in different languages and translation data and together
with user search data we train a language model using a multi-task approach. A
challenge is that these datasets are not homogeneous in terms of content, size
and the balance ratio. While the public NLI datasets are usually two-sentence
based with the same portion of positive and negative pairs, the user search
data can contain multi-sentence documents and only positive pairs. We show how
multi-task training enables us to leverage all these datasets and exploit
knowledge sharing across these tasks.
- Abstract(参考訳): 本稿では,クエリおよび文書エンコーダとして検索エンジンで使用可能な多言語文エンコーダを提案する。
この埋め込みにより、クエリとドキュメント間のセマンティックな類似性スコアが可能になり、ドキュメントのランク付けと関連性において重要な機能となる。
このようなカスタマイズされた文エンコーダをトレーニングするには、ユーザがクエリドキュメントクリックしたペアの形式でデータを検索するメリットがありますが、偏りがあるため、検索クリックデータに依存しすぎないようにしなくてはなりません。
検索データは短いクエリに対して大きく歪められており、長いクエリは小さく、しばしばうるさい。
目標は、すべてのケースで動作し、短いクエリと長いクエリの両方をカバーする、普遍的な多言語エンコーダを設計することだ。
我々は、異なる言語と翻訳データにおける多くの公開NLIデータセットを選択し、ユーザ検索データとともに、マルチタスクアプローチを用いて言語モデルを訓練する。
課題は、これらのデータセットがコンテンツ、サイズ、バランス比の点で均質ではないことである。
公開NLIデータセットは通常、正と負のペアの同じ部分に基づいて2文であるのに対し、ユーザ検索データは多文文書と正のペアのみを含むことができる。
マルチタスクトレーニングによって、これらのデータセットをすべて活用し、これらのタスク間の知識共有を活用できることを示す。
関連論文リスト
- QueryBuilder: Human-in-the-Loop Query Development for Information Retrieval [12.543590253664492]
我々は、$textitQueryBuilder$という、インタラクティブな新しいシステムを提示します。
初心者の英語を話すユーザは、少量の労力でクエリを作成できる。
ユーザの情報要求に応じた言語間情報検索クエリを迅速に開発する。
論文 参考訳(メタデータ) (2024-09-07T00:46:58Z) - Query-oriented Data Augmentation for Session Search [71.84678750612754]
本稿では,検索ログの強化とモデリングの強化を目的としたクエリ指向データ拡張を提案する。
検索コンテキストの最も重要な部分を変更することで補足的なトレーニングペアを生成する。
我々は、現在のクエリを変更するためのいくつかの戦略を開発し、その結果、様々な難易度で新しいトレーニングデータを得る。
論文 参考訳(メタデータ) (2024-07-04T08:08:33Z) - Leveraging Large Language Models for Multimodal Search [0.6249768559720121]
本稿では,Fashion200Kデータセット上での新たなパフォーマンスマイルストーンを実現する,新しいマルチモーダル検索モデルを提案する。
また,Large Language Models (LLM) を統合した新たな検索インタフェースを提案する。
論文 参考訳(メタデータ) (2024-04-24T10:30:42Z) - Improving Topic Relevance Model by Mix-structured Summarization and LLM-based Data Augmentation [16.170841777591345]
Dianpingのようなほとんどのソーシャル検索シナリオでは、検索関連性のモデリングは常に2つの課題に直面している。
まず、クエリベースの要約と、クエリなしで文書の要約をトピック関連モデルの入力として取り上げる。
そこで我々は,大規模言語モデル(LLM)の言語理解と生成能力を利用して,既存のトレーニングデータにおけるクエリやドキュメントからのクエリを書き換え,生成する。
論文 参考訳(メタデータ) (2024-04-03T10:05:47Z) - Cross-lingual Contextualized Phrase Retrieval [63.80154430930898]
そこで本研究では,言語間関係の単語検索を多義的に行うタスクの定式化を提案する。
我々は、コントラスト学習を用いて、言語間コンテクスト対応句検索(CCPR)を訓練する。
フレーズ検索タスクでは、CCPRはベースラインをかなり上回り、少なくとも13ポイント高いトップ1の精度を達成する。
論文 参考訳(メタデータ) (2024-03-25T14:46:51Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - XRICL: Cross-lingual Retrieval-Augmented In-Context Learning for
Cross-lingual Text-to-SQL Semantic Parsing [70.40401197026925]
大規模言語モデルを用いたインコンテキスト学習は、最近セマンティック解析タスクの驚くべき結果を示している。
この研究は、あるクエリに対して関連する英語の例を検索する学習を行うXRICLフレームワークを導入している。
また、大規模言語モデルの翻訳プロセスを容易にするために、対象言語に対するグローバルな翻訳例も含んでいる。
論文 参考訳(メタデータ) (2022-10-25T01:33:49Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - Text Summarization with Latent Queries [60.468323530248945]
本稿では,LaQSumについて紹介する。LaQSumは,既存の問合せ形式と抽象的な要約のための文書から遅延クエリを学習する,最初の統一テキスト要約システムである。
本システムでは, 潜伏クエリモデルと条件付き言語モデルとを協調的に最適化し, ユーザがテスト時に任意のタイプのクエリをプラグイン・アンド・プレイできるようにする。
本システムでは,クエリタイプ,文書設定,ターゲットドメインの異なる要約ベンチマークにおいて,強力な比較システムの性能を強く向上させる。
論文 参考訳(メタデータ) (2021-05-31T21:14:58Z) - Acoustic span embeddings for multilingual query-by-example search [20.141444548841047]
低リソースまたはゼロリソース設定では、QbE検索は動的時間ワープ(DTW)に基づくアプローチで対処されることが多い。
近年の研究では、音響単語埋め込み(AWE)に基づく手法は、性能と探索速度の両方を改善することが判明している。
我々は、AWEトレーニングを単語のスパンに一般化し、音響スパン埋め込み(ASE)を生成し、複数の未知言語における任意の長さのクエリへのAWEの適用について検討する。
論文 参考訳(メタデータ) (2020-11-24T00:28:22Z) - Cross-Lingual Document Retrieval with Smooth Learning [31.638708227607214]
言語間文書検索は、クエリの言語が文書の言語と異なる情報検索タスクである。
本稿では,異なる文書言語を用いた言語間検索の性能向上を実現するための,新しいエンドツーエンドロバストフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-02T03:17:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。