論文の概要: CAPSTONE: Curriculum Sampling for Dense Retrieval with Document
Expansion
- arxiv url: http://arxiv.org/abs/2212.09114v2
- Date: Sun, 29 Oct 2023 09:32:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 23:26:47.103492
- Title: CAPSTONE: Curriculum Sampling for Dense Retrieval with Document
Expansion
- Title(参考訳): CAPSTONE:ドキュメント拡張による高密度検索のためのカリキュラムサンプリング
- Authors: Xingwei He, Yeyun Gong, A-Long Jin, Hang Zhang, Anlei Dong, Jian Jiao,
Siu Ming Yiu, Nan Duan
- Abstract要約: 本稿では,学習中に擬似クエリを利用して,生成したクエリと実際のクエリとの関係を徐々に向上させるカリキュラムサンプリング戦略を提案する。
ドメイン内およびドメイン外両方のデータセットに対する実験結果から,本手法が従来の高密度検索モデルより優れていることが示された。
- 参考スコア(独自算出の注目度): 68.19934563919192
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The dual-encoder has become the de facto architecture for dense retrieval.
Typically, it computes the latent representations of the query and document
independently, thus failing to fully capture the interactions between the query
and document. To alleviate this, recent research has focused on obtaining
query-informed document representations. During training, it expands the
document with a real query, but during inference, it replaces the real query
with a generated one. This inconsistency between training and inference causes
the dense retrieval model to prioritize query information while disregarding
the document when computing the document representation. Consequently, it
performs even worse than the vanilla dense retrieval model because its
performance heavily relies on the relevance between the generated queries and
the real query.In this paper, we propose a curriculum sampling strategy that
utilizes pseudo queries during training and progressively enhances the
relevance between the generated query and the real query. By doing so, the
retrieval model learns to extend its attention from the document alone to both
the document and query, resulting in high-quality query-informed document
representations. Experimental results on both in-domain and out-of-domain
datasets demonstrate that our approach outperforms previous dense retrieval
models.
- Abstract(参考訳): デュアルエンコーダは高密度検索のためのデファクトアーキテクチャとなっている。
通常、クエリとドキュメントの潜在表現を独立して計算し、クエリとドキュメント間のインタラクションを完全にキャプチャすることができない。
これを緩和するために、近年の研究は、クエリインフォームドドキュメント表現の獲得に焦点を当てている。
トレーニング中は、ドキュメントを実際のクエリで拡張するが、推論時には、実際のクエリを生成されたクエリに置き換える。
このトレーニングと推論の矛盾は、ドキュメント表現を計算する際に文書を無視しながら、高密度検索モデルにクエリ情報を優先させる。
そこで本稿では,学習中に擬似クエリを活用し,生成したクエリと実際のクエリの関連性を徐々に向上させるカリキュラムサンプリング戦略を提案する。
これにより、検索モデルはドキュメントのみからドキュメントとクエリの両方に注意を向けることを学び、高品質なクエリインフォームド文書表現を実現する。
in-domain と out-of-domain の両方のデータセットにおける実験結果から,従来の高密度検索モデルに勝ることを示す。
関連論文リスト
- DREQ: Document Re-Ranking Using Entity-based Query Understanding [6.675805308519988]
DREQはエンティティ指向の高密度ドキュメント再ランクモデルである。
ドキュメント表現内のクエリ関連エンティティを強調しながら、関連性の低いエンティティを同時に減らします。
DREQは、最先端のニューラル・非ニューラル・リグレード法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-01-11T14:27:12Z) - MILL: Mutual Verification with Large Language Models for Zero-Shot Query
Expansion [41.21789597997263]
本稿では,クエリ拡張のための新たなLarge Language Model (LLM) に基づく相互検証フレームワークを提案する。
具体的には、まず、LLMに符号化された文脈知識を効果的に活用できるクエリクエリー文書生成パイプラインを設計する。
次に、生成した文書と検索した文書の相互検証手法を用いて、検索した文書を、生成した文書の外部コンテキスト知識でフィルタリングし、生成した文書を、検索した文書のコーパス固有の知識でフィルタリングする。
論文 参考訳(メタデータ) (2023-10-29T16:04:10Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [64.5769639710927]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - Query2doc: Query Expansion with Large Language Models [69.9707552694766]
提案手法はまず,大言語モデル (LLM) をプロンプトすることで擬似文書を生成する。
query2docは、アドホックIRデータセットでBM25のパフォーマンスを3%から15%向上させる。
また,本手法は,ドメイン内およびドメイン外の両方において,最先端の高密度検索に有効である。
論文 参考訳(メタデータ) (2023-03-14T07:27:30Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z) - Learning Diverse Document Representations with Deep Query Interactions
for Dense Retrieval [79.37614949970013]
そこで本研究では,問合せの深い文書表現を学習する高密度検索モデルを提案する。
本モデルでは,各文書に生成した擬似クエリをエンコードして,クエリインフォームド・マルチビュー文書表現を得る。
論文 参考訳(メタデータ) (2022-08-08T16:00:55Z) - Augmenting Document Representations for Dense Retrieval with
Interpolation and Perturbation [49.940525611640346]
ドキュメント拡張(Document Augmentation for dense Retrieval)フレームワークは、ドキュメントの表現をDense Augmentationとperturbationsで強化する。
2つのベンチマークデータセットによる検索タスクにおけるDARの性能評価を行い、ラベル付き文書とラベルなし文書の密集検索において、提案したDARが関連するベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-03-15T09:07:38Z) - CODER: An efficient framework for improving retrieval through
COntextualized Document Embedding Reranking [11.635294568328625]
本稿では,最小計算コストで広範囲の検索モデルの性能を向上させるためのフレームワークを提案する。
ベース密度検索法により抽出された事前計算された文書表現を利用する。
実行時に第一段階のメソッドの上に無視可能な計算オーバーヘッドを発生させ、最先端の高密度検索手法と簡単に組み合わせられるようにする。
論文 参考訳(メタデータ) (2021-12-16T10:25:26Z) - Improving Query Representations for Dense Retrieval with Pseudo
Relevance Feedback [29.719150565643965]
本稿では,疑似関連性フィードバック(PRF)を用いて高密度検索のためのクエリ表現を改善する新しいクエリエンコーダであるANCE-PRFを提案する。
ANCE-PRF は BERT エンコーダを使用し、検索モデルである ANCE からクエリとトップ検索されたドキュメントを消費し、関連ラベルから直接クエリの埋め込みを生成する。
PRFエンコーダは、学習された注意機構でノイズを無視しながら、PRF文書から関連および補完的な情報を効果的にキャプチャする。
論文 参考訳(メタデータ) (2021-08-30T18:10:26Z) - Improving Document Representations by Generating Pseudo Query Embeddings
for Dense Retrieval [11.465218502487959]
反復的なクラスタリングプロセスにより,各文書のクエリを模倣する手法を設計する。
また、2段階のスコア計算手順でマッチング関数を最適化する。
いくつかの人気ランキングとQAデータセットに関する実験結果から、私たちのモデルが最先端の結果を達成できることが示された。
論文 参考訳(メタデータ) (2021-05-08T05:28:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。