論文の概要: GAR-meets-RAG Paradigm for Zero-Shot Information Retrieval
- arxiv url: http://arxiv.org/abs/2310.20158v1
- Date: Tue, 31 Oct 2023 03:52:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 16:32:55.918640
- Title: GAR-meets-RAG Paradigm for Zero-Shot Information Retrieval
- Title(参考訳): ゼロショット情報検索のためのGAR-meets-RAGパラダイム
- Authors: Daman Arora, Anush Kini, Sayak Ray Chowdhury, Nagarajan Natarajan,
Gaurav Sinha, Amit Sharma
- Abstract要約: 本稿では,既存のパラダイムの課題を克服する新しいGAR-meets-RAG再帰の定式化を提案する。
鍵となる設計原則は、リライト・検索段階がシステムのリコールを改善し、最終段階が精度を向上させることである。
我々の手法はBEIRベンチマークで新たな最先端性を確立し、8つのデータセットのうち6つでRecall@100とnDCG@10の指標で過去の最高の結果を上回った。
- 参考スコア(独自算出の注目度): 16.369071865207808
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given a query and a document corpus, the information retrieval (IR) task is
to output a ranked list of relevant documents. Combining large language models
(LLMs) with embedding-based retrieval models, recent work shows promising
results on the zero-shot retrieval problem, i.e., no access to labeled data
from the target domain. Two such popular paradigms are generation-augmented
retrieval or GAR (generate additional context for the query and then retrieve),
and retrieval-augmented generation or RAG (retrieve relevant documents as
context and then generate answers). The success of these paradigms hinges on
(i) high-recall retrieval models, which are difficult to obtain in the
zero-shot setting, and (ii) high-precision (re-)ranking models which typically
need a good initialization. In this work, we propose a novel GAR-meets-RAG
recurrence formulation that overcomes the challenges of existing paradigms. Our
method iteratively improves retrieval (via GAR) and rewrite (via RAG) stages in
the zero-shot setting. A key design principle is that the rewrite-retrieval
stages improve the recall of the system and a final re-ranking stage improves
the precision. We conduct extensive experiments on zero-shot passage retrieval
benchmarks, BEIR and TREC-DL. Our method establishes a new state-of-the-art in
the BEIR benchmark, outperforming previous best results in Recall@100 and
nDCG@10 metrics on 6 out of 8 datasets, with up to 17% relative gains over the
previous best.
- Abstract(参考訳): クエリとドキュメントコーパスが与えられた場合、情報検索(IR)タスクは、関連するドキュメントのランキングリストを出力する。
大規模言語モデル(llms)と埋め込み型検索モデルを組み合わせた最近の研究は,ゼロショット検索問題,すなわち対象領域からラベル付きデータにアクセスできないという有望な結果を示している。
一般的な2つのパラダイムは、geneation-augmented retrievalまたはgar(クエリの追加コンテキストを生成して取得する)と、research-augmented generationまたはrag(関連するドキュメントをコンテキストとして参照し、回答を生成する)である。
これらのパラダイムの成功が生み出すもの
(i)ゼロショット設定では入手が難しいハイリコール検索モデル、
(ii) 優れた初期化を必要とする高精度(re-)のモデル。
本稿では,既存のパラダイムの課題を克服する新しいGAR-meets-RAG再帰の定式化を提案する。
我々の手法は、ゼロショット設定における検索(GAR)と書き直し(RAG)を反復的に改善する。
重要な設計原則は、リライト・検索段階がシステムのリコールを改善し、最終段階が精度を向上させることである。
ゼロショットパス検索ベンチマークであるBEIRとTREC-DLについて広範な実験を行った。
提案手法はbeirベンチマークにおいて,8つのデータセットのうち6つにおいて,re recall@100 と ndcg@10 の過去の成績を上回り,最大17%の相対的な向上率を示した。
関連論文リスト
- Ask Optimal Questions: Aligning Large Language Models with Retriever's
Preference in Conversational Search [25.16282868262589]
RetPOは、ターゲット検索システムの好みに合わせて検索クエリを再構成するための言語モデル(LM)を最適化するように設計されている。
我々は、12Kの会話で410K以上のクエリを書き換えるRetrievers' Feedbackと呼ばれる大規模なデータセットを構築した。
このモデルにより,最近の2つの対話型検索ベンチマークにおいて,最先端の性能が得られた。
論文 参考訳(メタデータ) (2024-02-19T04:41:31Z) - Distillation Enhanced Generative Retrieval [96.69326099136289]
生成的検索はテキスト検索において有望な新しいパラダイムであり、関連する通路の識別子文字列を検索対象として生成する。
本研究は, 蒸留による生成的検索をさらに促進するための有効な方向を特定し, DGR という名称の実行可能なフレームワークを提案する。
本研究では,4つの公開データセットに対して実験を行い,DGRが生成的検索手法の最先端性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-16T15:48:24Z) - Corrective Retrieval Augmented Generation [39.371798735872865]
Retrieval-augmented Generation (RAG) は、検索された文書の関連性に大きく依存しており、検索が失敗した場合のモデルがどのように振る舞うかについての懸念を提起する。
生成の堅牢性を改善するために,CRAG(Corrective Retrieval Augmented Generation)を提案する。
CRAGはプラグアンドプレイであり、様々なRAGベースのアプローチとシームレスに結合できる。
論文 参考訳(メタデータ) (2024-01-29T04:36:39Z) - Learning to Rank in Generative Retrieval [62.91492903161522]
生成的検索は、検索対象として関連する通路の識別子文字列を生成することを目的としている。
我々はLTRGRと呼ばれる生成検索のための学習 torankフレームワークを提案する。
このフレームワークは、現在の生成的検索システムを強化するために、追加の学習からランクまでのトレーニングフェーズのみを必要とする。
論文 参考訳(メタデータ) (2023-06-27T05:48:14Z) - Referral Augmentation for Zero-Shot Information Retrieval [30.811093210831018]
Referral-Augmented Retrieval (RAR)は、ドキュメントインデックスと参照をリンクするシンプルなテクニックである。
RARはスパースとディープレトリバーの両方で動作し、生成テキスト拡張技術より優れている。
マルチリフレラルアグリゲーションのための様々な手法を解析し、再学習せずに最新の情報検索を可能にすることを示す。
論文 参考訳(メタデータ) (2023-05-24T12:28:35Z) - How Does Generative Retrieval Scale to Millions of Passages? [68.98628807288972]
各種コーパス尺度における生成的検索手法の実証的研究を行った。
我々は8.8Mパスのコーパスで数百万のパスに生成検索をスケールし、モデルサイズを最大11Bパラメータまで評価する。
生成的検索は、小さなコーパス上の最先端のデュアルエンコーダと競合するが、数百万のパスへのスケーリングは依然として重要で未解決の課題である。
論文 参考訳(メタデータ) (2023-05-19T17:33:38Z) - Zero-Shot Listwise Document Reranking with a Large Language Model [58.64141622176841]
本稿では,タスク固有の学習データを用いることなく,言語モデル(LRL)を用いたリスワイズ・リランカを提案する。
3つのTRECウェブサーチデータセットの実験により、LRLは第1段検索結果の再ランク付け時にゼロショットポイントワイズ法より優れるだけでなく、最終段再ランカとしても機能することが示された。
論文 参考訳(メタデータ) (2023-05-03T14:45:34Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - Improving Passage Retrieval with Zero-Shot Question Generation [109.11542468380331]
オープンな質問応答における経路検索を改善するための,シンプルで効果的な再ランク付け手法を提案する。
再ランカは、学習済み言語モデルを用いて、検索されたパスに条件付けられた入力質問の確率を算出するゼロショット質問生成モデルを用いて、検索されたパスを再スコアする。
論文 参考訳(メタデータ) (2022-04-15T14:51:41Z) - SPLADE v2: Sparse Lexical and Expansion Model for Information Retrieval [11.38022203865326]
SPLADEモデルは、最先端の高密度かつスパースなアプローチに関して、高度にスパースな表現と競争結果を提供する。
我々は、プール機構を変更し、文書拡張のみに基づいてモデルをベンチマークし、蒸留で訓練されたモデルを導入する。
全体として、SPLADEはTREC DL 2019のNDCG@10で9ドル以上のゲインで大幅に改善され、BEIRベンチマークで最先端の結果が得られた。
論文 参考訳(メタデータ) (2021-09-21T10:43:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。