論文の概要: Exploring the Practicality of Generative Retrieval on Dynamic Corpora
- arxiv url: http://arxiv.org/abs/2305.18952v4
- Date: Thu, 03 Oct 2024 15:08:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-04 23:28:29.298091
- Title: Exploring the Practicality of Generative Retrieval on Dynamic Corpora
- Title(参考訳): 動的コーパスにおける生成検索の実用性を探る
- Authors: Chaeeun Kim, Soyoung Yoon, Hyunji Lee, Joel Jang, Sohee Yang, Minjoon Seo,
- Abstract要約: 本稿では,自己回帰型言語モデルをIR問題に適用する生成検索(GR)に焦点を当てる。
我々はまた、IRシステムの実環境展開において重要な要素である計算効率とメモリ効率を広範囲に評価する。
本稿では,動的環境における実用的な赤外線システムにおけるGRの可能性について述べる。
- 参考スコア(独自算出の注目度): 41.223804434693875
- License:
- Abstract: Benchmarking the performance of information retrieval (IR) is mostly conducted with a fixed set of documents (static corpora). However, in realistic scenarios, this is rarely the case and the documents to be retrieved are constantly updated and added. In this paper, we focus on Generative Retrievals (GR), which apply autoregressive language models to IR problems, and explore their adaptability and robustness in dynamic scenarios. We also conduct an extensive evaluation of computational and memory efficiency, crucial factors for real-world deployment of IR systems handling vast and ever-changing document collections. Our results on the StreamingQA benchmark demonstrate that GR is more adaptable to evolving knowledge (4 -- 11%), robust in learning knowledge with temporal information, and efficient in terms of inference FLOPs (x 2), indexing time (x 6), and storage footprint (x 4) compared to Dual Encoders (DE), which are commonly used in retrieval systems. Our paper highlights the potential of GR for future use in practical IR systems within dynamic environments.
- Abstract(参考訳): 情報検索(IR)の性能のベンチマークは、主に固定された文書(静的コーパス)を用いて行われる。
しかし、現実的なシナリオでは、このようなケースはめったになく、取得するドキュメントは絶えず更新され、追加されます。
本稿では,自己回帰型言語モデルをIR問題に適用する生成検索(GR)に注目し,動的シナリオにおける適応性と堅牢性について検討する。
我々はまた、広範かつ絶え間なく変化する文書コレクションを扱うIRシステムの実環境展開における重要な要素である、計算とメモリ効率の広範な評価を行う。
StreamingQAベンチマークの結果、GRは進化的知識(4~11%)に適応し、時間的情報による学習知識が堅牢で、推論FLOPs(x2)、インデックス化時間(x6)、ストレージフットプリント(x4)の点で、検索システムで一般的に使用されるデュアルエンコーダ(DE)と比較して効率的であることが示されている。
本稿では,動的環境における実用的な赤外線システムにおけるGRの可能性について述べる。
関連論文リスト
- BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval [54.54576644403115]
多くの複雑な実世界のクエリは、関連する文書を特定するために詳細な推論を必要とする。
BRIGHTは、関係する文書を検索するために、集中的推論を必要とする最初のテキスト検索ベンチマークである。
brightbenchmarkは、さまざまなドメインから収集された1,398の現実世界のクエリから構築されている。
論文 参考訳(メタデータ) (2024-07-16T17:58:27Z) - CoIR: A Comprehensive Benchmark for Code Information Retrieval Models [56.691926887209895]
textbfInformation textbfRetrieval Benchmark(textbfInformation textbfRetrieval Benchmark)は,コード検索機能の評価に特化して設計された,堅牢で包括的なベンチマークである。
名前は、Textbftenを巧みにキュレートしたコードデータセットから成り、textbfs7の異なるドメインにまたがる、textbfeight特有の検索タスクにまたがる。
我々は9つの広く使われている検索モデルを名前を用いて評価し、最先端のシステムであってもコード検索タスクの実行に重大な困難を見出した。
論文 参考訳(メタデータ) (2024-07-03T07:58:20Z) - Unified Active Retrieval for Retrieval Augmented Generation [69.63003043712696]
Retrieval-Augmented Generation (RAG)では、検索は必ずしも役に立たない。
既存のアクティブ検索手法は2つの課題に直面している。
彼らは通常、様々な種類の命令を扱うのに苦労する単一の基準に頼っている。
それらは特殊で高度に区別された手順に依存しており、それらを組み合わせることでRAGシステムはより複雑になる。
論文 参考訳(メタデータ) (2024-06-18T12:09:02Z) - DR-RAG: Applying Dynamic Document Relevance to Retrieval-Augmented Generation for Question-Answering [4.364937306005719]
RAGは最近、質問応答(QA)のような知識集約的なタスクにおいて、LLM(Large Language Models)のパフォーマンスを実証した。
重要な文書とクエリの間には関連性が低いものの,文書の一部とクエリを組み合わせることで,残りの文書を検索できることがわかった。
文書検索のリコールと回答の精度を向上させるために,DR-RAG(Dynamic-Relevant Retrieval-Augmented Generation)と呼ばれる2段階検索フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-11T15:15:33Z) - Evaluating Retrieval Quality in Retrieval-Augmented Generation [21.115495457454365]
従来のエンドツーエンド評価手法は計算コストが高い。
本稿では,検索リストの各文書をRAGシステム内の大規模言語モデルで個別に利用するeRAGを提案する。
eRAGは、ランタイムを改善し、エンドツーエンド評価の最大50倍のGPUメモリを消費する、大きな計算上のアドバンテージを提供する。
論文 参考訳(メタデータ) (2024-04-21T21:22:28Z) - CorpusLM: Towards a Unified Language Model on Corpus for Knowledge-Intensive Tasks [20.390672895839757]
Retrieval-augmented Generation (RAG) は、事実精度を高めるための一般的なソリューションとして登場した。
従来の検索モジュールは、大きなドキュメントインデックスと生成タスクとの切り離しに依存していることが多い。
生成検索,クローズドブック生成,RAGを統合した統一言語モデルである textbfCorpusLM を提案する。
論文 参考訳(メタデータ) (2024-02-02T06:44:22Z) - Building Interpretable and Reliable Open Information Retriever for New
Domains Overnight [67.03842581848299]
情報検索は、オープンドメイン質問応答(QA)など、多くのダウンストリームタスクにとって重要な要素である。
本稿では、エンティティ/イベントリンクモデルとクエリ分解モデルを用いて、クエリの異なる情報単位により正確にフォーカスする情報検索パイプラインを提案する。
より解釈可能で信頼性が高いが,提案したパイプラインは,5つのIRおよびQAベンチマークにおける通過カバレッジと記述精度を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-09T07:47:17Z) - Incorporating Relevance Feedback for Information-Seeking Retrieval using
Few-Shot Document Re-Ranking [56.80065604034095]
我々は,クエリとユーザが関連すると考えるドキュメントとの類似性に基づいて,文書を再参照するkNNアプローチを提案する。
異なる統合戦略を評価するため、既存の4つの情報検索データセットを関連フィードバックシナリオに変換する。
論文 参考訳(メタデータ) (2022-10-19T16:19:37Z) - Beyond [CLS] through Ranking by Generation [22.27275853263564]
我々は情報検索のための生成フレームワークを再考する。
我々の生成的アプローチは、解答選択タスクに対する最先端のセマンティック類似性に基づく識別モデルと同じくらい有効であることを示す。
論文 参考訳(メタデータ) (2020-10-06T22:56:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。