論文の概要: Unsupervised Dense Retrieval Deserves Better Positive Pairs: Scalable
Augmentation with Query Extraction and Generation
- arxiv url: http://arxiv.org/abs/2212.08841v1
- Date: Sat, 17 Dec 2022 10:43:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 17:59:48.845824
- Title: Unsupervised Dense Retrieval Deserves Better Positive Pairs: Scalable
Augmentation with Query Extraction and Generation
- Title(参考訳): unsupervised dense retrievalはより良いポジティブペアに値する - クエリ抽出と生成によるスケーラブルな拡張
- Authors: Rui Meng, Ye Liu, Semih Yavuz, Divyansh Agarwal, Lifu Tu, Ning Yu,
Jianguo Zhang, Meghana Bhat, Yingbo Zhou
- Abstract要約: 擬似クエリ文書ペアを作成する方法,名前付きクエリ抽出(QExt)と転送クエリ生成(TQGen)の2つのカテゴリについて検討する。
QExt は文書構造によって擬似クエリを抽出し、また、TQGen は他の NLP タスクのために訓練された生成モデルを利用する。
実験により、個々の拡張法で訓練された高密度レトリバーは、複数の強いベースラインと相容れない性能を発揮することが示された。
- 参考スコア(独自算出の注目度): 27.391814046104646
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Dense retrievers have made significant strides in obtaining state-of-the-art
results on text retrieval and open-domain question answering (ODQA). Yet most
of these achievements were made possible with the help of large annotated
datasets, unsupervised learning for dense retrieval models remains an open
problem. In this work, we explore two categories of methods for creating pseudo
query-document pairs, named query extraction (QExt) and transferred query
generation (TQGen), to augment the retriever training in an annotation-free and
scalable manner. Specifically, QExt extracts pseudo queries by document
structures or selecting salient random spans, and TQGen utilizes generation
models trained for other NLP tasks (e.g., summarization) to produce pseudo
queries. Extensive experiments show that dense retrievers trained with
individual augmentation methods can perform comparably well with multiple
strong baselines, and combining them leads to further improvements, achieving
state-of-the-art performance of unsupervised dense retrieval on both BEIR and
ODQA datasets.
- Abstract(参考訳): デンス検索はテキスト検索とオープンドメイン質問応答(ODQA)における最先端の結果を得るために大きな進歩を遂げてきた。
しかし、これらの成果の大部分は、大きな注釈付きデータセットの助けを借りて実現可能であり、密集した検索モデルの教師なし学習は未解決の問題のままである。
本研究では,擬似クエリ文書ペアを作成する方法,名前付きクエリ抽出(QExt)と転送クエリ生成(TQGen)の2つのカテゴリを探索し,アノテーションのないスケーラブルな方法で検索者のトレーニングを強化する。
具体的には、QExtは文書構造によって擬似クエリを抽出し、また、TQGenは他のNLPタスク(例えば、要約)のために訓練された生成モデルを使用して擬似クエリを生成する。
大規模実験により、個々の拡張法で訓練された高密度検索器は、複数の強いベースラインと互換性があり、それらの組み合わせによりさらなる改善が得られ、BEIRとODQAの両方のデータセット上で、教師なしの高密度検索の最先端性能を達成する。
関連論文リスト
- Corrective Retrieval Augmented Generation [39.371798735872865]
Retrieval-augmented Generation (RAG) は、検索された文書の関連性に大きく依存しており、検索が失敗した場合のモデルがどのように振る舞うかについての懸念を提起する。
生成の堅牢性を改善するために,CRAG(Corrective Retrieval Augmented Generation)を提案する。
CRAGはプラグアンドプレイであり、様々なRAGベースのアプローチとシームレスに結合できる。
論文 参考訳(メタデータ) (2024-01-29T04:36:39Z) - Query2doc: Query Expansion with Large Language Models [69.9707552694766]
提案手法はまず,大言語モデル (LLM) をプロンプトすることで擬似文書を生成する。
query2docは、アドホックIRデータセットでBM25のパフォーマンスを3%から15%向上させる。
また,本手法は,ドメイン内およびドメイン外の両方において,最先端の高密度検索に有効である。
論文 参考訳(メタデータ) (2023-03-14T07:27:30Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z) - Questions Are All You Need to Train a Dense Passage Retriever [123.13872383489172]
ARTは、ラベル付きトレーニングデータを必要としない高密度検索モデルをトレーニングするための、新しいコーパスレベルのオートエンコーディングアプローチである。
そこで,(1) 入力質問を用いて証拠文書の集合を検索し,(2) 文書を用いて元の質問を再構築する確率を計算する。
論文 参考訳(メタデータ) (2022-06-21T18:16:31Z) - Learning to Retrieve Passages without Supervision [58.31911597824848]
オープンドメイン質問応答(ODQA)のためのダンスレトリバーは,問合せペアの大規模データセットをトレーニングすることで,優れた性能を発揮することが示されている。
そこで本研究では,自己教師型で高密度検索が学べるかどうかを考察し,アノテーションを使わずに効果的に適用する。
論文 参考訳(メタデータ) (2021-12-14T19:18:08Z) - Weakly Supervised Pre-Training for Multi-Hop Retriever [23.79574380039197]
本研究では,人的努力を伴わない,弱教師付きマルチホップレトリバーの事前学習手法を提案する。
提案手法は,1)複雑な質問のベクトル表現を生成するための事前学習タスク,2)厳密なエンコーダに基づく事前学習モデル構造として,質問とサブクエストのネスト構造を生成するスケーラブルなデータ生成手法を含む。
論文 参考訳(メタデータ) (2021-06-18T08:06:02Z) - End-to-End Training of Multi-Document Reader and Retriever for
Open-Domain Question Answering [36.80395759543162]
本稿では,検索拡張されたオープンドメイン質問応答システムに対するエンドツーエンドの差別化学習手法を提案する。
我々は,検索決定を関連文書の集合よりも遅延変数としてモデル化する。
提案手法は,一致点の精度を2~3%向上させる。
論文 参考訳(メタデータ) (2021-06-09T19:25:37Z) - Generation-Augmented Retrieval for Open-domain Question Answering [134.27768711201202]
GAR(Generation-Augmented Retrieval)は、オープンドメインの質問に答える機能である。
クエリーに対して多様なコンテキストを生成することは、結果の融合が常により良い検索精度をもたらすので有益であることを示す。
GARは、抽出読取装置を備えた場合、抽出QA設定の下で、自然質問およびトリビアQAデータセットの最先端性能を達成する。
論文 参考訳(メタデータ) (2020-09-17T23:08:01Z) - Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks [133.93803565077337]
検索強化生成モデルは、事前訓練されたパラメトリックメモリと非パラメトリックメモリを組み合わせて言語生成を行う。
我々は、RAGモデルが、最先端パラメトリックのみのセク2セックベースラインよりも、より具体的で、多様で、現実的な言語を生成することを示す。
論文 参考訳(メタデータ) (2020-05-22T21:34:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。