論文の概要: AugTriever: Unsupervised Dense Retrieval and Domain Adaptation by Scalable Data Augmentation
- arxiv url: http://arxiv.org/abs/2212.08841v4
- Date: Wed, 30 Oct 2024 02:36:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 20:43:58.646416
- Title: AugTriever: Unsupervised Dense Retrieval and Domain Adaptation by Scalable Data Augmentation
- Title(参考訳): AugTriever: 拡張データ拡張による教師なしDense RetrievalとDomain Adaptation
- Authors: Rui Meng, Ye Liu, Semih Yavuz, Divyansh Agarwal, Lifu Tu, Ning Yu, Jianguo Zhang, Meghana Bhat, Yingbo Zhou,
- Abstract要約: 擬似クエリドキュメントペアを作成することにより,アノテーションフリーでスケーラブルなトレーニングを可能にする2つのアプローチを提案する。
クエリ抽出方法は、元のドキュメントから有能なスパンを選択して擬似クエリを生成する。
転送クエリ生成方法は、要約などの他のNLPタスクのために訓練された生成モデルを使用して、擬似クエリを生成する。
- 参考スコア(独自算出の注目度): 44.93777271276723
- License:
- Abstract: Dense retrievers have made significant strides in text retrieval and open-domain question answering. However, most of these achievements have relied heavily on extensive human-annotated supervision. In this study, we aim to develop unsupervised methods for improving dense retrieval models. We propose two approaches that enable annotation-free and scalable training by creating pseudo querydocument pairs: query extraction and transferred query generation. The query extraction method involves selecting salient spans from the original document to generate pseudo queries. On the other hand, the transferred query generation method utilizes generation models trained for other NLP tasks, such as summarization, to produce pseudo queries. Through extensive experimentation, we demonstrate that models trained using these augmentation methods can achieve comparable, if not better, performance than multiple strong dense baselines. Moreover, combining these strategies leads to further improvements, resulting in superior performance of unsupervised dense retrieval, unsupervised domain adaptation and supervised finetuning, benchmarked on both BEIR and ODQA datasets. Code and datasets are publicly available at https://github.com/salesforce/AugTriever.
- Abstract(参考訳): デンス検索はテキスト検索とオープンドメイン質問応答において大きな進歩を遂げている。
しかし、これらの成果のほとんどは、広範囲にわたる人手による監督に大きく依存している。
本研究では,高密度検索モデルを改善するための教師なし手法を開発することを目的とする。
本稿では,クエリ抽出と転送クエリ生成という,擬似クエリドキュメントペアを作成することによって,アノテーションのないスケーラブルなトレーニングを可能にする2つのアプローチを提案する。
クエリ抽出方法は、元のドキュメントから有能なスパンを選択して擬似クエリを生成する。
一方、転送クエリ生成手法では、要約などの他のNLPタスクのために訓練された生成モデルを用いて擬似クエリを生成する。
大規模な実験を通じて,これらの拡張手法を用いて訓練したモデルが,複数の高密度ベースラインよりも高い性能を達成できることを実証した。
さらに、これらの戦略を組み合わせることでさらに改善され、BEIRデータセットとODQAデータセットの両方でベンチマークされた、教師なし密集検索、教師なしドメイン適応、教師付き微調整のパフォーマンスが向上する。
コードとデータセットはhttps://github.com/salesforce/AugTriever.comで公開されている。
関連論文リスト
- Learning More Effective Representations for Dense Retrieval through Deliberate Thinking Before Search [65.53881294642451]
ディリベレート思考に基づくDense Retriever (DEBATER)
DEBATERは、ステップバイステップの思考プロセスを通じて、より効果的な文書表現を学習できるようにすることにより、最近の密集型検索機能を強化している。
実験の結果,DEBATERはいくつかのベンチマークで既存手法よりも優れていた。
論文 参考訳(メタデータ) (2025-02-18T15:56:34Z) - Reinforced Information Retrieval [35.0424269986952]
textbfReinforced-IRは、事前学習した検索器とジェネレータを併用して正確なクロスドメイン検索を行う新しい手法である。
Reinforced-IRの重要なイノベーションは textbfSelf-Boosting フレームワークである。
我々の実験では、Reinforced-IRは既存のドメイン適応手法を大きなマージンで上回り、広範囲のアプリケーションシナリオで検索品質が大幅に向上した。
論文 参考訳(メタデータ) (2025-02-17T08:52:39Z) - Chain-of-Retrieval Augmented Generation [72.06205327186069]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - Unsupervised Query Routing for Retrieval Augmented Generation [64.47987041500966]
本稿では,検索強化応答の質を評価するために,"upper-bound"応答を構成する新しい教師なし手法を提案する。
この評価により、与えられたクエリに対して最も適切な検索エンジンを決定することができる。
手動のアノテーションをなくすことで、大規模なユーザクエリを自動的に処理し、トレーニングデータを作成することができる。
論文 参考訳(メタデータ) (2025-01-14T02:27:06Z) - MBA-RAG: a Bandit Approach for Adaptive Retrieval-Augmented Generation through Question Complexity [30.346398341996476]
本稿では,クエリの複雑性に基づいて最適な検索戦略を動的に選択する強化学習ベースのフレームワークを提案する。
提案手法は,検索コストを低減しつつ,複数のシングルホップおよびマルチホップデータセット上でのアート結果の新たな状態を実現する。
論文 参考訳(メタデータ) (2024-12-02T14:55:02Z) - Corrective Retrieval Augmented Generation [36.04062963574603]
Retrieval-augmented Generation (RAG) は、検索された文書の関連性に大きく依存しており、検索が失敗した場合のモデルがどのように振る舞うかについての懸念を提起する。
生成の堅牢性を改善するために,CRAG(Corrective Retrieval Augmented Generation)を提案する。
CRAGはプラグアンドプレイであり、様々なRAGベースのアプローチとシームレスに結合できる。
論文 参考訳(メタデータ) (2024-01-29T04:36:39Z) - Noisy Self-Training with Synthetic Queries for Dense Retrieval [49.49928764695172]
合成クエリと組み合わせた,ノイズの多い自己学習フレームワークを提案する。
実験結果から,本手法は既存手法よりも一貫した改善が得られた。
我々の手法はデータ効率が良く、競争のベースラインより優れています。
論文 参考訳(メタデータ) (2023-11-27T06:19:50Z) - DORE: Document Ordered Relation Extraction based on Generative Framework [56.537386636819626]
本稿では,既存のDocREモデルの根本原因について検討する。
本稿では,モデルが学習しやすく,決定論的な関係行列から記号列と順序列を生成することを提案する。
4つのデータセットに対する実験結果から,提案手法は生成型DocREモデルの性能を向上させることができることが示された。
論文 参考訳(メタデータ) (2022-10-28T11:18:10Z) - GQE-PRF: Generative Query Expansion with Pseudo-Relevance Feedback [8.142861977776256]
PRFに基づくクエリ拡張にテキスト生成モデルを効果的に統合する新しい手法を提案する。
提案手法では,初期クエリと擬似関連フィードバックの両方を条件としたニューラルテキスト生成モデルを用いて,拡張クエリ項を生成する。
2つのベンチマークデータセットを用いて,情報検索タスクに対するアプローチの有効性を評価する。
論文 参考訳(メタデータ) (2021-08-13T01:09:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。