論文の概要: Unsupervised Dense Retrieval Deserves Better Positive Pairs: Scalable
Augmentation with Query Extraction and Generation
- arxiv url: http://arxiv.org/abs/2212.08841v1
- Date: Sat, 17 Dec 2022 10:43:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 17:59:48.845824
- Title: Unsupervised Dense Retrieval Deserves Better Positive Pairs: Scalable
Augmentation with Query Extraction and Generation
- Title(参考訳): unsupervised dense retrievalはより良いポジティブペアに値する - クエリ抽出と生成によるスケーラブルな拡張
- Authors: Rui Meng, Ye Liu, Semih Yavuz, Divyansh Agarwal, Lifu Tu, Ning Yu,
Jianguo Zhang, Meghana Bhat, Yingbo Zhou
- Abstract要約: 擬似クエリ文書ペアを作成する方法,名前付きクエリ抽出(QExt)と転送クエリ生成(TQGen)の2つのカテゴリについて検討する。
QExt は文書構造によって擬似クエリを抽出し、また、TQGen は他の NLP タスクのために訓練された生成モデルを利用する。
実験により、個々の拡張法で訓練された高密度レトリバーは、複数の強いベースラインと相容れない性能を発揮することが示された。
- 参考スコア(独自算出の注目度): 27.391814046104646
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Dense retrievers have made significant strides in obtaining state-of-the-art
results on text retrieval and open-domain question answering (ODQA). Yet most
of these achievements were made possible with the help of large annotated
datasets, unsupervised learning for dense retrieval models remains an open
problem. In this work, we explore two categories of methods for creating pseudo
query-document pairs, named query extraction (QExt) and transferred query
generation (TQGen), to augment the retriever training in an annotation-free and
scalable manner. Specifically, QExt extracts pseudo queries by document
structures or selecting salient random spans, and TQGen utilizes generation
models trained for other NLP tasks (e.g., summarization) to produce pseudo
queries. Extensive experiments show that dense retrievers trained with
individual augmentation methods can perform comparably well with multiple
strong baselines, and combining them leads to further improvements, achieving
state-of-the-art performance of unsupervised dense retrieval on both BEIR and
ODQA datasets.
- Abstract(参考訳): デンス検索はテキスト検索とオープンドメイン質問応答(ODQA)における最先端の結果を得るために大きな進歩を遂げてきた。
しかし、これらの成果の大部分は、大きな注釈付きデータセットの助けを借りて実現可能であり、密集した検索モデルの教師なし学習は未解決の問題のままである。
本研究では,擬似クエリ文書ペアを作成する方法,名前付きクエリ抽出(QExt)と転送クエリ生成(TQGen)の2つのカテゴリを探索し,アノテーションのないスケーラブルな方法で検索者のトレーニングを強化する。
具体的には、QExtは文書構造によって擬似クエリを抽出し、また、TQGenは他のNLPタスク(例えば、要約)のために訓練された生成モデルを使用して擬似クエリを生成する。
大規模実験により、個々の拡張法で訓練された高密度検索器は、複数の強いベースラインと互換性があり、それらの組み合わせによりさらなる改善が得られ、BEIRとODQAの両方のデータセット上で、教師なしの高密度検索の最先端性能を達成する。
関連論文リスト
- Learning More Effective Representations for Dense Retrieval through Deliberate Thinking Before Search [65.53881294642451]
ディリベレート思考に基づくDense Retriever (DEBATER)
DEBATERは、ステップバイステップの思考プロセスを通じて、より効果的な文書表現を学習できるようにすることにより、最近の密集型検索機能を強化している。
実験の結果,DEBATERはいくつかのベンチマークで既存手法よりも優れていた。
論文 参考訳(メタデータ) (2025-02-18T15:56:34Z) - Reinforced Information Retrieval [35.0424269986952]
textbfReinforced-IRは、事前学習した検索器とジェネレータを併用して正確なクロスドメイン検索を行う新しい手法である。
Reinforced-IRの重要なイノベーションは textbfSelf-Boosting フレームワークである。
我々の実験では、Reinforced-IRは既存のドメイン適応手法を大きなマージンで上回り、広範囲のアプリケーションシナリオで検索品質が大幅に向上した。
論文 参考訳(メタデータ) (2025-02-17T08:52:39Z) - Chain-of-Retrieval Augmented Generation [72.06205327186069]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - Unsupervised Query Routing for Retrieval Augmented Generation [64.47987041500966]
本稿では,検索強化応答の質を評価するために,"upper-bound"応答を構成する新しい教師なし手法を提案する。
この評価により、与えられたクエリに対して最も適切な検索エンジンを決定することができる。
手動のアノテーションをなくすことで、大規模なユーザクエリを自動的に処理し、トレーニングデータを作成することができる。
論文 参考訳(メタデータ) (2025-01-14T02:27:06Z) - MBA-RAG: a Bandit Approach for Adaptive Retrieval-Augmented Generation through Question Complexity [30.346398341996476]
本稿では,クエリの複雑性に基づいて最適な検索戦略を動的に選択する強化学習ベースのフレームワークを提案する。
提案手法は,検索コストを低減しつつ,複数のシングルホップおよびマルチホップデータセット上でのアート結果の新たな状態を実現する。
論文 参考訳(メタデータ) (2024-12-02T14:55:02Z) - Corrective Retrieval Augmented Generation [36.04062963574603]
Retrieval-augmented Generation (RAG) は、検索された文書の関連性に大きく依存しており、検索が失敗した場合のモデルがどのように振る舞うかについての懸念を提起する。
生成の堅牢性を改善するために,CRAG(Corrective Retrieval Augmented Generation)を提案する。
CRAGはプラグアンドプレイであり、様々なRAGベースのアプローチとシームレスに結合できる。
論文 参考訳(メタデータ) (2024-01-29T04:36:39Z) - Noisy Self-Training with Synthetic Queries for Dense Retrieval [49.49928764695172]
合成クエリと組み合わせた,ノイズの多い自己学習フレームワークを提案する。
実験結果から,本手法は既存手法よりも一貫した改善が得られた。
我々の手法はデータ効率が良く、競争のベースラインより優れています。
論文 参考訳(メタデータ) (2023-11-27T06:19:50Z) - DORE: Document Ordered Relation Extraction based on Generative Framework [56.537386636819626]
本稿では,既存のDocREモデルの根本原因について検討する。
本稿では,モデルが学習しやすく,決定論的な関係行列から記号列と順序列を生成することを提案する。
4つのデータセットに対する実験結果から,提案手法は生成型DocREモデルの性能を向上させることができることが示された。
論文 参考訳(メタデータ) (2022-10-28T11:18:10Z) - GQE-PRF: Generative Query Expansion with Pseudo-Relevance Feedback [8.142861977776256]
PRFに基づくクエリ拡張にテキスト生成モデルを効果的に統合する新しい手法を提案する。
提案手法では,初期クエリと擬似関連フィードバックの両方を条件としたニューラルテキスト生成モデルを用いて,拡張クエリ項を生成する。
2つのベンチマークデータセットを用いて,情報検索タスクに対するアプローチの有効性を評価する。
論文 参考訳(メタデータ) (2021-08-13T01:09:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。