論文の概要: Continually Updating Generative Retrieval on Dynamic Corpora
- arxiv url: http://arxiv.org/abs/2305.18952v1
- Date: Sat, 27 May 2023 16:05:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 16:40:28.015355
- Title: Continually Updating Generative Retrieval on Dynamic Corpora
- Title(参考訳): 動的コーパスの連続的更新
- Authors: Soyoung Yoon, Chaeeun Kim, Hyunji Lee, Joel Jang, Minjoon Seo
- Abstract要約: 本稿では,検索手法の一般化可能性の定量化を目的としたSTREAMINGIRという新しいベンチマークを提案する。
本研究では,バイエンコーダの詳細な比較評価を行い,性能の点で生成的検索を行う。
本研究は, 実用的な動的環境における生成的検索の新たな可能性を明らかにするものである。
- 参考スコア(独自算出の注目度): 15.318178023067558
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative retrieval has recently been gaining a lot of attention from the
research community for its simplicity, high performance, and the ability to
fully leverage the power of deep autoregressive models. However, prior work on
generative retrieval has mostly investigated on static benchmarks, while
realistic retrieval applications often involve dynamic environments where
knowledge is temporal and accumulated over time. In this paper, we introduce a
new benchmark called STREAMINGIR, dedicated to quantifying the generalizability
of retrieval methods to dynamically changing corpora derived from StreamingQA,
that simulates realistic retrieval use cases. On this benchmark, we conduct an
in-depth comparative evaluation of bi-encoder and generative retrieval in terms
of performance as well as efficiency under varying degree of supervision. Our
results suggest that generative retrieval shows (1) detrimental performance
when only supervised data is used for fine-tuning, (2) superior performance
over bi-encoders when only unsupervised data is available, and (3) lower
performance to bi-encoders when both unsupervised and supervised data is used
due to catastrophic forgetting; nevertheless, we show that parameter-efficient
measures can effectively mitigate the issue and result in competitive
performance and efficiency with respect to the bi-encoder baseline. Our results
open up a new potential for generative retrieval in practical dynamic
environments. Our work will be open-sourced.
- Abstract(参考訳): 生成的検索は、その単純さ、ハイパフォーマンス、そして深い自己回帰モデルのパワーを十分に活用できる能力について、研究コミュニティから多くの注目を集めている。
しかしながら、生成的検索に関する以前の研究は静的ベンチマークで主に研究されてきたが、現実的な検索アプリケーションは時間とともに知識が蓄積される動的環境を伴うことが多い。
本稿では,ストリームQAから派生したコーパスを動的に変化させる検索手法の一般化可能性の定量化を目的としたSTREAMINGIRという新しいベンチマークを提案する。
本ベンチマークでは,bi-encoderとgenerative retrievalの比較評価を行った。
Our results suggest that generative retrieval shows (1) detrimental performance when only supervised data is used for fine-tuning, (2) superior performance over bi-encoders when only unsupervised data is available, and (3) lower performance to bi-encoders when both unsupervised and supervised data is used due to catastrophic forgetting; nevertheless, we show that parameter-efficient measures can effectively mitigate the issue and result in competitive performance and efficiency with respect to the bi-encoder baseline.
本研究は,実用的な動的環境における生成的検索の新たな可能性を開く。
私たちの仕事はオープンソース化されます。
関連論文リスト
- Evaluating Retrieval Quality in Retrieval-Augmented Generation [21.115495457454365]
従来のエンドツーエンド評価手法は計算コストが高い。
本稿では,検索リストの各文書をRAGシステム内の大規模言語モデルで個別に利用するeRAGを提案する。
eRAGは、ランタイムを改善し、エンドツーエンド評価の最大50倍のGPUメモリを消費する、大きな計算上のアドバンテージを提供する。
論文 参考訳(メタデータ) (2024-04-21T21:22:28Z) - Repoformer: Selective Retrieval for Repository-Level Code Completion [30.706277772743615]
検索強化生成(RAG)の最近の進歩は、リポジトリレベルのコード補完の新たな時代が始まった。
本稿では,不要な場合の検索を回避できる選択的なRAGフレームワークを提案する。
我々のフレームワークは、異なる世代モデル、検索者、プログラミング言語を効果的に扱えることを示す。
論文 参考訳(メタデータ) (2024-03-15T06:59:43Z) - CorpusLM: Towards a Unified Language Model on Corpus for Knowledge-Intensive Tasks [20.390672895839757]
Retrieval-augmented Generation (RAG) は、事実精度を高めるための一般的なソリューションとして登場した。
従来の検索モジュールは、大きなドキュメントインデックスと生成タスクとの切り離しに依存していることが多い。
生成検索,クローズドブック生成,RAGを統合した統一言語モデルである textbfCorpusLM を提案する。
論文 参考訳(メタデータ) (2024-02-02T06:44:22Z) - EASRec: Elastic Architecture Search for Efficient Long-term Sequential
Recommender Systems [82.76483989905961]
現在のSRS(Sequential Recommender Systems)は、計算とリソースの非効率に悩まされている。
我々は、効率的な長期シーケンスレコメンダシステム(EASRec)のための弾性アーキテクチャー探索を開発する。
EASRecは、入力データバッチから履歴情報を活用するデータ認識ゲートを導入し、レコメンデーションネットワークの性能を改善する。
論文 参考訳(メタデータ) (2024-02-01T07:22:52Z) - CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented
Generation of Large Language Models [55.47070014913373]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。
本稿では,大規模かつ包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
論文 参考訳(メタデータ) (2024-01-30T14:25:32Z) - Building Interpretable and Reliable Open Information Retriever for New
Domains Overnight [67.03842581848299]
情報検索は、オープンドメイン質問応答(QA)など、多くのダウンストリームタスクにとって重要な要素である。
本稿では、エンティティ/イベントリンクモデルとクエリ分解モデルを用いて、クエリの異なる情報単位により正確にフォーカスする情報検索パイプラインを提案する。
より解釈可能で信頼性が高いが,提案したパイプラインは,5つのIRおよびQAベンチマークにおける通過カバレッジと記述精度を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-09T07:47:17Z) - Incorporating Relevance Feedback for Information-Seeking Retrieval using
Few-Shot Document Re-Ranking [56.80065604034095]
我々は,クエリとユーザが関連すると考えるドキュメントとの類似性に基づいて,文書を再参照するkNNアプローチを提案する。
異なる統合戦略を評価するため、既存の4つの情報検索データセットを関連フィードバックシナリオに変換する。
論文 参考訳(メタデータ) (2022-10-19T16:19:37Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - Beyond [CLS] through Ranking by Generation [22.27275853263564]
我々は情報検索のための生成フレームワークを再考する。
我々の生成的アプローチは、解答選択タスクに対する最先端のセマンティック類似性に基づく識別モデルと同じくらい有効であることを示す。
論文 参考訳(メタデータ) (2020-10-06T22:56:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。