論文の概要: Continually Updating Generative Retrieval on Dynamic Corpora
- arxiv url: http://arxiv.org/abs/2305.18952v2
- Date: Fri, 15 Sep 2023 20:22:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 23:39:06.916488
- Title: Continually Updating Generative Retrieval on Dynamic Corpora
- Title(参考訳): 動的コーパスの連続的更新
- Authors: Soyoung Yoon, Chaeeun Kim, Hyunji Lee, Joel Jang, Sohee Yang, Minjoon
Seo
- Abstract要約: 我々は,検索を静的アーカイブとしてではなく,動的知識基盤として,現実の環境との整合性を高めている。
本稿では、StreamingQAベンチマークを用いて、二重エンコーダの包括的評価と生成検索を行う。
結果,Dynamic Generative Retrieval (DynamicGR) は予期せぬ結果を示した。
- 参考スコア(独自算出の注目度): 43.68139539401105
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The majority of prior work on information retrieval (IR) assumes that the
corpus is static, whereas in the real world, the documents are continually
updated. In this paper, we incorporate often overlooked dynamic nature of
knowledge into the retrieval systems. Our work treats retrieval not as static
archives but as dynamic knowledge bases better aligned with real-world
environments. We conduct a comprehensive evaluation of dual encoders and
generative retrieval, utilizing the StreamingQA benchmark designed for the
temporal knowledge updates. Our initial results show that while generative
retrieval outperforms dual encoders in static settings, the opposite is true in
dynamic settings. Surprisingly, however, when we utilize a parameter-efficient
pre-training method to enhance adaptability of generative retrieval to new
corpora, our resulting model, Dynamic Generative Retrieval (DynamicGR),
exhibits unexpected findings. It (1) efficiently compresses new knowledge in
their internal index, attaining a remarkable storage capacity due to its fully
parametric architecture and (2) outperforms dual encoders not only in static
settings but in dynamic scenarios with a 5% margin in hit@5, requiring 4 times
less training time.
- Abstract(参考訳): 情報検索(IR)に関する先行研究の大半は、コーパスが静的であると仮定しているが、実際の世界では、文書は継続的に更新される。
本稿では,しばしば見過ごされる知識の動的な性質を検索システムに組み込む。
我々の研究は、検索を静的アーカイブとしてではなく、動的知識ベースとして現実世界の環境に適合させるものとして扱う。
我々は,時系列知識更新用に設計されたstreamingqaベンチマークを用いて,デュアルエンコーダと生成的検索の包括的評価を行う。
生成的検索は静的な環境ではデュアルエンコーダよりも優れているが,動的設定では逆である。
しかし,新しいコーパスに対する生成検索の適応性を高めるためにパラメータ効率のよい事前学習法を用いると,得られたモデルであるDynamic Generative Retrieval (DynamicGR) が予期せぬ結果を示した。
1) 内部インデックスにおける新しい知識を効率よく圧縮し、完全にパラメトリックなアーキテクチャのために顕著なストレージ容量を実現し、(2) 静的な設定だけでなく、5%のマージンを持つ動的シナリオでも2つのエンコーダを上回り、4倍のトレーニング時間を必要とする。
関連論文リスト
- Developing Retrieval Augmented Generation (RAG) based LLM Systems from PDFs: An Experience Report [3.4632900249241874]
本稿では,PDF文書を主データ源とする検索拡張生成システム(RAG)の開発経験報告について述べる。
RAGアーキテクチャは、Large Language Models (LLM) の生成能力と情報検索の精度を組み合わせたものである。
この研究の実際的な意味は、様々な分野における生成AIシステムの信頼性を高めることである。
論文 参考訳(メタデータ) (2024-10-21T12:21:49Z) - Retriever-and-Memory: Towards Adaptive Note-Enhanced Retrieval-Augmented Generation [72.70046559930555]
本稿では,複雑なQAタスクに対する適応ノート拡張RAG(Adaptive Note-Enhanced RAG)と呼ばれる汎用RAGアプローチを提案する。
具体的には、Adaptive-Noteは、知識の成長に関する包括的な視点を導入し、ノート形式で新しい情報を反復的に収集する。
さらに,適切な知識探索を促進するために,適応的な音符ベースの停止探索戦略を用いて,「何を検索し,いつ停止するか」を判断する。
論文 参考訳(メタデータ) (2024-10-11T14:03:29Z) - LightRAG: Simple and Fast Retrieval-Augmented Generation [12.86888202297654]
Retrieval-Augmented Generation (RAG) システムは、外部知識ソースを統合することで、大規模言語モデル(LLM)を強化する。
既存のRAGシステムには、フラットなデータ表現への依存やコンテキスト認識の欠如など、大きな制限がある。
テキストインデックスと検索プロセスにグラフ構造を組み込んだLightRAGを提案する。
論文 参考訳(メタデータ) (2024-10-08T08:00:12Z) - From Matching to Generation: A Survey on Generative Information Retrieval [21.56093567336119]
生成情報検索(GenIR)は新たなパラダイムとして登場し,近年注目を集めている。
本稿では,GenIRの最新研究動向を体系的にレビューすることを目的とする。
論文 参考訳(メタデータ) (2024-04-23T09:05:37Z) - CorpusLM: Towards a Unified Language Model on Corpus for Knowledge-Intensive Tasks [20.390672895839757]
Retrieval-augmented Generation (RAG) は、事実精度を高めるための一般的なソリューションとして登場した。
従来の検索モジュールは、大きなドキュメントインデックスと生成タスクとの切り離しに依存していることが多い。
生成検索,クローズドブック生成,RAGを統合した統一言語モデルである textbfCorpusLM を提案する。
論文 参考訳(メタデータ) (2024-02-02T06:44:22Z) - Analysis of the Memorization and Generalization Capabilities of AI
Agents: Are Continual Learners Robust? [91.682459306359]
連続学習(CL)では、AIエージェントが動的環境下で非定常データストリームから学習する。
本稿では,過去の知識を維持しつつ,動的環境への堅牢な一般化を実現するための新しいCLフレームワークを提案する。
提案フレームワークの一般化と記憶性能を理論的に解析した。
論文 参考訳(メタデータ) (2023-09-18T21:00:01Z) - Building Interpretable and Reliable Open Information Retriever for New
Domains Overnight [67.03842581848299]
情報検索は、オープンドメイン質問応答(QA)など、多くのダウンストリームタスクにとって重要な要素である。
本稿では、エンティティ/イベントリンクモデルとクエリ分解モデルを用いて、クエリの異なる情報単位により正確にフォーカスする情報検索パイプラインを提案する。
より解釈可能で信頼性が高いが,提案したパイプラインは,5つのIRおよびQAベンチマークにおける通過カバレッジと記述精度を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-09T07:47:17Z) - Synergistic Interplay between Search and Large Language Models for
Information Retrieval [141.18083677333848]
InteRにより、RMはLLM生成した知識コレクションを使用してクエリの知識を拡張することができる。
InteRは、最先端手法と比較して総合的に優れたゼロショット検索性能を実現する。
論文 参考訳(メタデータ) (2023-05-12T11:58:15Z) - Incorporating Relevance Feedback for Information-Seeking Retrieval using
Few-Shot Document Re-Ranking [56.80065604034095]
我々は,クエリとユーザが関連すると考えるドキュメントとの類似性に基づいて,文書を再参照するkNNアプローチを提案する。
異なる統合戦略を評価するため、既存の4つの情報検索データセットを関連フィードバックシナリオに変換する。
論文 参考訳(メタデータ) (2022-10-19T16:19:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。