論文の概要: Generative Retrieval Overcomes Limitations of Dense Retrieval but Struggles with Identifier Ambiguity
- arxiv url: http://arxiv.org/abs/2604.05764v2
- Date: Wed, 08 Apr 2026 14:38:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 14:06:05.10839
- Title: Generative Retrieval Overcomes Limitations of Dense Retrieval but Struggles with Identifier Ambiguity
- Title(参考訳): 生成的検索は難解検索の限界を超過するが、識別器の曖昧さを伴うゆるぎを伴う
- Authors: Adrian Bracher, Svitlana Vakulenko,
- Abstract要約: 生成検索は、言語モデルを用いてクエリ文書の関連性を直接予測することで、高密度検索に代わるアプローチとして登場した。
簡単な合成データセットを用いた生成的検索手法の長所と短所を示す。
- 参考スコア(独自算出の注目度): 1.7556600627464054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While dense retrieval models, which embed queries and documents into a shared low-dimensional space, have gained widespread popularity, they were shown to exhibit important theoretical limitations and considerably lag behind traditional sparse retrieval models in certain settings. Generative retrieval has emerged as an alternative approach to dense retrieval by using a language model to predict query-document relevance directly. In this paper, we demonstrate strengths and weaknesses of generative retrieval approaches using a simple synthetic dataset, called LIMIT, that was previously introduced to empirically demonstrate the theoretical limitations of embedding-based retrieval but was not used to evaluate generative retrieval. We close this research gap and show that generative retrieval achieves the best performance on this dataset without any additional training required (0.92 and 0.99 R@2 for SEAL and MINDER, respectively), compared to dense approaches (< 0.03 Recall@2) and BM25 (0.86 R@2). However, we then proceed to extend the original LIMIT dataset by adding simple hard negative samples and observe the performance degrading for all the models including the generative retrieval models (0.51 R@2) as well as BM25 (0.21 R@2). Error analysis identifies a failure in the decoding mechanism, caused by the inability to produce identifiers that are unique to relevant documents. Future generative retrieval must address these issues, either by designing identifiers that are more suitable to the decoding process or by adapting decoding and scoring algorithms to preserve relevance signals.
- Abstract(参考訳): クエリやドキュメントを共有低次元空間に埋め込んだ高密度検索モデルは広く普及しているが,従来のスパース検索モデルにはかなり遅れがあることが判明した。
生成検索は、言語モデルを用いてクエリ文書の関連性を直接予測することで、高密度検索に代わるアプローチとして登場した。
本稿では, 組込み型検索の理論的限界を実証的に実証するために導入されたLIMITと呼ばれる単純な合成データセットを用いて, 生成的検索手法の長所と短所を実証するが, 生成的検索には使用されなかった。
本研究のギャップを埋めて, 生成的検索が追加トレーニング(SEALとMINDERそれぞれ0.92と0.99R@2)を必要とせず, BM25 (0.86R@2) と高密度アプローチ(0.03Recall@2)と比較して, このデータセット上で最高の性能を達成することを示す。
しかし, 生成検索モデル0.51 R@2) やBM25 (0.21 R@2) を含む全てのモデルの性能劣化を観測し, 単純強陰性サンプルを追加することで, 元のLIMITデータセットを拡張していく。
誤り解析は、関連する文書に固有の識別子を生成できないことに起因する復号機構の失敗を識別する。
将来の生成検索では、復号処理に適した識別子を設計するか、復号およびスコアリングアルゴリズムを適用して関連信号を保存するか、これらの問題に対処する必要がある。
関連論文リスト
- DiffuGR: Generative Document Retrieval with Diffusion Language Models [80.78126312115087]
本稿ではDiffuGRと呼ばれる拡散言語モデルを用いた生成文書検索を提案する。
推論のために、DiffuGRはDocIDトークンを並列に生成し、制御可能な多数のデノナイジングステップを通じてそれを洗練しようと試みている。
従来の左から右への自動回帰デコーディングとは対照的に、DiffuGRはより信頼性の高いDocIDトークンを生成するための新しいメカニズムを提供する。
論文 参考訳(メタデータ) (2025-11-11T12:00:09Z) - Constrained Auto-Regressive Decoding Constrains Generative Retrieval [71.71161220261655]
ジェネレーティブ検索は、従来の検索インデックスデータ構造を1つの大規模ニューラルネットワークに置き換えようとしている。
本稿では,制約とビームサーチという2つの本質的な視点から,制約付き自己回帰生成の固有の制約について検討する。
論文 参考訳(メタデータ) (2025-04-14T06:54:49Z) - Unifying Generative and Dense Retrieval for Sequential Recommendation [37.402860622707244]
逐次密度検索と生成検索の強みを組み合わせたハイブリッドモデルであるLIGERを提案する。
LIGERは、シーケンシャルな高密度検索を生成検索に統合し、性能差を緩和し、コールドスタートアイテムレコメンデーションを強化する。
このハイブリッドアプローチは、これらのアプローチ間のトレードオフに関する洞察を与え、小規模ベンチマークにおけるレコメンデーションシステムの効率と効率性の向上を示す。
論文 参考訳(メタデータ) (2024-11-27T23:36:59Z) - CART: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
クロスモーダル検索は、異なるモーダルデータの相互作用を通じて、クエリと意味的に関連するインスタンスを検索することを目的としている。
従来のソリューションでは、クエリと候補の間のスコアを明示的に計算するために、シングルトウワーまたはデュアルトウワーのフレームワークを使用している。
粗大なセマンティックモデリングに基づく生成的クロスモーダル検索フレームワーク(CART)を提案する。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z) - Corrective Retrieval Augmented Generation [36.04062963574603]
Retrieval-augmented Generation (RAG) は、検索された文書の関連性に大きく依存しており、検索が失敗した場合のモデルがどのように振る舞うかについての懸念を提起する。
生成の堅牢性を改善するために,CRAG(Corrective Retrieval Augmented Generation)を提案する。
CRAGはプラグアンドプレイであり、様々なRAGベースのアプローチとシームレスに結合できる。
論文 参考訳(メタデータ) (2024-01-29T04:36:39Z) - Lexically-Accelerated Dense Retrieval [29.327878974130055]
LADR (Lexically-Accelerated Dense Retrieval) は, 既存の高密度検索モデルの効率を向上する, 簡便な手法である。
LADRは、標準ベンチマークでの徹底的な検索と同等の精度とリコールの両方を一貫して達成する。
論文 参考訳(メタデータ) (2023-07-31T15:44:26Z) - How Does Generative Retrieval Scale to Millions of Passages? [68.98628807288972]
各種コーパス尺度における生成的検索手法の実証的研究を行った。
我々は8.8Mパスのコーパスで数百万のパスに生成検索をスケールし、モデルサイズを最大11Bパラメータまで評価する。
生成的検索は、小さなコーパス上の最先端のデュアルエンコーダと競合するが、数百万のパスへのスケーリングは依然として重要で未解決の課題である。
論文 参考訳(メタデータ) (2023-05-19T17:33:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。