論文の概要: Curriculum Sampling for Dense Retrieval with Document Expansion
- arxiv url: http://arxiv.org/abs/2212.09114v1
- Date: Sun, 18 Dec 2022 15:57:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 16:19:12.875422
- Title: Curriculum Sampling for Dense Retrieval with Document Expansion
- Title(参考訳): 文書拡張による高密度検索のためのカリキュラムサンプリング
- Authors: Xingwei He, Yeyun Gong, A-Long Jin, Hang Zhang, Anlei Dong, Jian Jiao,
Siu Ming Yiu, Nan Duan
- Abstract要約: 二重エンコーダは高密度検索のためのデファクトアーキテクチャとなっている。
最近の作業では、ドキュメントのクエリインフォームド表現が期待されている。
本稿では,学習時の疑似クエリにもとづくカリキュラムサンプリング戦略を提案する。
- 参考スコア(独自算出の注目度): 46.784171961089406
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The dual-encoder has become the de facto architecture for dense retrieval.
Typically, it computes the latent representations of the query and document
independently, thus failing to fully capture the interactions between the query
and document. To alleviate this, recent work expects to get query-informed
representations of documents. During training, it expands the document with a
real query, while replacing the real query with a generated pseudo query at
inference. This discrepancy between training and inference makes the dense
retrieval model pay more attention to the query information but ignore the
document when computing the document representation. As a result, it even
performs worse than the vanilla dense retrieval model, since its performance
depends heavily on the relevance between the generated queries and the real
query. In this paper, we propose a curriculum sampling strategy, which also
resorts to the pseudo query at training and gradually increases the relevance
of the generated query to the real query. In this way, the retrieval model can
learn to extend its attention from the document only to both the document and
query, hence getting high-quality query-informed document representations.
Experimental results on several passage retrieval datasets show that our
approach outperforms the previous dense retrieval methods1.
- Abstract(参考訳): デュアルエンコーダは高密度検索のためのデファクトアーキテクチャとなっている。
通常、クエリとドキュメントの潜在表現を独立して計算し、クエリとドキュメント間のインタラクションを完全にキャプチャすることができない。
これを軽減するため、最近の作業では、ドキュメントのクエリインフォームド表現が期待されている。
トレーニング中は、ドキュメントを実際のクエリに拡張し、実際のクエリを推論時に生成された擬似クエリに置き換える。
このトレーニングと推論の相違により、密度の高い検索モデルはクエリ情報に注意を向けるが、文書表現を計算する際に文書を無視する。
結果として、生成されたクエリと実際のクエリの関連性に大きく依存するため、バニラ密集型検索モデルよりもパフォーマンスが悪くなります。
本稿では,学習時に擬似クエリを利用するカリキュラムサンプリング戦略を提案し,生成したクエリの実際のクエリとの関連性を徐々に高めている。
このようにして、検索モデルは、ドキュメントからドキュメントとクエリの両方にのみ注意を向けることを学び、高品質なクエリインフォームドドキュメント表現を得ることができる。
いくつかの経路探索データセットの実験結果から,提案手法は従来の高密度検索手法よりも優れていることがわかった。
関連論文リスト
- BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval [54.54576644403115]
多くの複雑な実世界のクエリは、関連する文書を特定するために詳細な推論を必要とする。
BRIGHTは、関係する文書を検索するために、集中的推論を必要とする最初のテキスト検索ベンチマークである。
私たちのデータセットは、経済学、心理学、数学、コーディングなど、さまざまな領域にまたがる1,384の現実世界のクエリで構成されています。
論文 参考訳(メタデータ) (2024-07-16T17:58:27Z) - Query-oriented Data Augmentation for Session Search [71.84678750612754]
本稿では,検索ログの強化とモデリングの強化を目的としたクエリ指向データ拡張を提案する。
検索コンテキストの最も重要な部分を変更することで補足的なトレーニングペアを生成する。
我々は、現在のクエリを変更するためのいくつかの戦略を開発し、その結果、様々な難易度で新しいトレーニングデータを得る。
論文 参考訳(メタデータ) (2024-07-04T08:08:33Z) - ExcluIR: Exclusionary Neural Information Retrieval [74.08276741093317]
本稿では,排他的検索のためのリソースセットであるExcluIRを提案する。
評価ベンチマークには3,452の高品質な排他的クエリが含まれている。
トレーニングセットには70,293の排他的クエリが含まれており、それぞれに正のドキュメントと負のドキュメントがペアリングされている。
論文 参考訳(メタデータ) (2024-04-26T09:43:40Z) - Improving Topic Relevance Model by Mix-structured Summarization and LLM-based Data Augmentation [16.170841777591345]
Dianpingのようなほとんどのソーシャル検索シナリオでは、検索関連性のモデリングは常に2つの課題に直面している。
まず、クエリベースの要約と、クエリなしで文書の要約をトピック関連モデルの入力として取り上げる。
そこで我々は,大規模言語モデル(LLM)の言語理解と生成能力を利用して,既存のトレーニングデータにおけるクエリやドキュメントからのクエリを書き換え,生成する。
論文 参考訳(メタデータ) (2024-04-03T10:05:47Z) - Learning Diverse Document Representations with Deep Query Interactions
for Dense Retrieval [79.37614949970013]
そこで本研究では,問合せの深い文書表現を学習する高密度検索モデルを提案する。
本モデルでは,各文書に生成した擬似クエリをエンコードして,クエリインフォームド・マルチビュー文書表現を得る。
論文 参考訳(メタデータ) (2022-08-08T16:00:55Z) - Augmenting Document Representations for Dense Retrieval with
Interpolation and Perturbation [49.940525611640346]
ドキュメント拡張(Document Augmentation for dense Retrieval)フレームワークは、ドキュメントの表現をDense Augmentationとperturbationsで強化する。
2つのベンチマークデータセットによる検索タスクにおけるDARの性能評価を行い、ラベル付き文書とラベルなし文書の密集検索において、提案したDARが関連するベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-03-15T09:07:38Z) - CODER: An efficient framework for improving retrieval through
COntextualized Document Embedding Reranking [11.635294568328625]
本稿では,最小計算コストで広範囲の検索モデルの性能を向上させるためのフレームワークを提案する。
ベース密度検索法により抽出された事前計算された文書表現を利用する。
実行時に第一段階のメソッドの上に無視可能な計算オーバーヘッドを発生させ、最先端の高密度検索手法と簡単に組み合わせられるようにする。
論文 参考訳(メタデータ) (2021-12-16T10:25:26Z) - Improving Query Representations for Dense Retrieval with Pseudo
Relevance Feedback [29.719150565643965]
本稿では,疑似関連性フィードバック(PRF)を用いて高密度検索のためのクエリ表現を改善する新しいクエリエンコーダであるANCE-PRFを提案する。
ANCE-PRF は BERT エンコーダを使用し、検索モデルである ANCE からクエリとトップ検索されたドキュメントを消費し、関連ラベルから直接クエリの埋め込みを生成する。
PRFエンコーダは、学習された注意機構でノイズを無視しながら、PRF文書から関連および補完的な情報を効果的にキャプチャする。
論文 参考訳(メタデータ) (2021-08-30T18:10:26Z) - Improving Document Representations by Generating Pseudo Query Embeddings
for Dense Retrieval [11.465218502487959]
反復的なクラスタリングプロセスにより,各文書のクエリを模倣する手法を設計する。
また、2段階のスコア計算手順でマッチング関数を最適化する。
いくつかの人気ランキングとQAデータセットに関する実験結果から、私たちのモデルが最先端の結果を達成できることが示された。
論文 参考訳(メタデータ) (2021-05-08T05:28:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。