論文の概要: Exploring the Practicality of Generative Retrieval on Dynamic Corpora
- arxiv url: http://arxiv.org/abs/2305.18952v3
- Date: Thu, 16 Nov 2023 11:51:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 22:48:02.634618
- Title: Exploring the Practicality of Generative Retrieval on Dynamic Corpora
- Title(参考訳): 動的コーパスにおける生成検索の実用性を探る
- Authors: Soyoung Yoon, Chaeeun Kim, Hyunji Lee, Joel Jang, Sohee Yang, Minjoon
Seo
- Abstract要約: 我々は、検索するコーパスが更新される動的なシナリオにおいて、Duals(DE)とGenerative Retrievals(GR)を比較した。
GRは知識の進化に適応し、時間的情報によるデータ処理に堅牢である。
本稿では,実用赤外線システムにおけるGRの今後の活用の可能性について述べる。
- 参考スコア(独自算出の注目度): 43.68139539401105
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Benchmarking the performance of information retrieval (IR) methods are mostly
conducted with a fixed set of documents (static corpora); in realistic
scenarios, this is rarely the case and the document to be retrieved are
constantly updated and added. In this paper, we focus on conducting a
comprehensive comparison between two categories of contemporary retrieval
systems, Dual Encoders (DE) and Generative Retrievals (GR), in a dynamic
scenario where the corpora to be retrieved is updated. We also conduct an
extensive evaluation of computational and memory efficiency, crucial factors
for IR systems for real-world deployment. Our results demonstrate that GR is
more adaptable to evolving knowledge (+13-18% on the StreamingQA Benchmark),
robust in handling data with temporal information (x 10 times), and efficient
in terms of memory (x 4 times), indexing time (x 6 times), and inference flops
(x 10 times). Our paper highlights GR's potential for future use in practical
IR systems.
- Abstract(参考訳): 情報検索(IR)手法のパフォーマンスのベンチマークは、主に固定された文書(静的コーパス)を用いて行われるが、現実的なシナリオでは、これはまれであり、取得すべき文書は定期的に更新および追加される。
本稿では,検索対象のコーパスを更新する動的シナリオにおいて,現代検索システムの2つのカテゴリ,デュアルエンコーダ(DE)と生成検索(GR)を包括的に比較することに焦点を当てる。
また、実世界展開においてIRシステムにとって重要な要素である計算効率とメモリ効率を広範囲に評価する。
以上の結果から,GRは進化的知識(StreamingQAベンチマークでは+13-18%)に適応し,時間的情報(x10倍),メモリ(x4倍),インデックス時間(x6倍),推論フロップ(x10倍)の処理に堅牢であることが示された。
本稿では,実用赤外線システムにおけるGRの可能性について述べる。
関連論文リスト
- Towards a Unified Language Model for Knowledge-Intensive Tasks Utilizing
External Corpus [22.27534528275182]
各種知識集約型タスクに外部コーパスを利用する統一言語モデルを提案する。
提案手法は, 2種類のバックボーンモデルを用いて, KILTベンチマークを用いて評価した。
実験の結果,検索および下流の知識集約タスクにおいて,モデルの性能が優れていることが示された。
論文 参考訳(メタデータ) (2024-02-02T06:44:22Z) - EASRec: Elastic Architecture Search for Efficient Long-term Sequential
Recommender Systems [82.76483989905961]
現在のSRS(Sequential Recommender Systems)は、計算とリソースの非効率に悩まされている。
我々は、効率的な長期シーケンスレコメンダシステム(EASRec)のための弾性アーキテクチャー探索を開発する。
EASRecは、入力データバッチから履歴情報を活用するデータ認識ゲートを導入し、レコメンデーションネットワークの性能を改善する。
論文 参考訳(メタデータ) (2024-02-01T07:22:52Z) - CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented
Generation of Large Language Models [55.47070014913373]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。
本稿では,大規模かつ包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
論文 参考訳(メタデータ) (2024-01-30T14:25:32Z) - Building Interpretable and Reliable Open Information Retriever for New
Domains Overnight [67.03842581848299]
情報検索は、オープンドメイン質問応答(QA)など、多くのダウンストリームタスクにとって重要な要素である。
本稿では、エンティティ/イベントリンクモデルとクエリ分解モデルを用いて、クエリの異なる情報単位により正確にフォーカスする情報検索パイプラインを提案する。
より解釈可能で信頼性が高いが,提案したパイプラインは,5つのIRおよびQAベンチマークにおける通過カバレッジと記述精度を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-09T07:47:17Z) - Incorporating Relevance Feedback for Information-Seeking Retrieval using
Few-Shot Document Re-Ranking [56.80065604034095]
我々は,クエリとユーザが関連すると考えるドキュメントとの類似性に基づいて,文書を再参照するkNNアプローチを提案する。
異なる統合戦略を評価するため、既存の4つの情報検索データセットを関連フィードバックシナリオに変換する。
論文 参考訳(メタデータ) (2022-10-19T16:19:37Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - SPLADE v2: Sparse Lexical and Expansion Model for Information Retrieval [11.38022203865326]
SPLADEモデルは、最先端の高密度かつスパースなアプローチに関して、高度にスパースな表現と競争結果を提供する。
我々は、プール機構を変更し、文書拡張のみに基づいてモデルをベンチマークし、蒸留で訓練されたモデルを導入する。
全体として、SPLADEはTREC DL 2019のNDCG@10で9ドル以上のゲインで大幅に改善され、BEIRベンチマークで最先端の結果が得られた。
論文 参考訳(メタデータ) (2021-09-21T10:43:42Z) - LiDAR-based Recurrent 3D Semantic Segmentation with Temporal Memory
Alignment [0.0]
本稿では,単一範囲の画像フレームを入力とする再帰セグメンテーションアーキテクチャ(RNN)を提案する。
私たちがテンポラルメモリアライメントと呼ぶアライメント戦略は、エゴモーションを使用して、フィーチャースペース内の連続フレーム間のメモリをテンポラリアライメントします。
2つの大規模データセットに対する提案手法の利点を実証し,いくつかの最先端手法と比較する。
論文 参考訳(メタデータ) (2021-03-03T09:01:45Z) - Beyond [CLS] through Ranking by Generation [22.27275853263564]
我々は情報検索のための生成フレームワークを再考する。
我々の生成的アプローチは、解答選択タスクに対する最先端のセマンティック類似性に基づく識別モデルと同じくらい有効であることを示す。
論文 参考訳(メタデータ) (2020-10-06T22:56:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。