論文の概要: Retrieval from Within: An Intrinsic Capability of Attention-Based Models
- arxiv url: http://arxiv.org/abs/2605.05806v2
- Date: Fri, 08 May 2026 05:21:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 16:31:23.026371
- Title: Retrieval from Within: An Intrinsic Capability of Attention-Based Models
- Title(参考訳): 内部からの検索:注意に基づくモデルの本質的能力
- Authors: Elad Hoffer, Yochai Blau, Edan Kinderman, Ron Banner, Daniel Soudry, Boris Ginsburg,
- Abstract要約: InTRA(Intrinsic Retrieval via Attention)は、デコーダのアテンションクエリが事前に符号化されたエビデンスチャンクをスコアし、生成のコンテキストとして直接再利用するフレームワークである。
質問応答ベンチマークでは、INTRAはエビデンスリコールとエンドツーエンドの回答品質の両方で、強力なエンジニアリングされた検索パイプラインを上回ります。
- 参考スコア(独自算出の注目度): 45.52264380766645
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-augmented generation (RAG) typically treats retrieval and generation as separate systems. We ask whether an attention-based encoder-decoder can instead retrieve directly from its own internal representations. We introduce INTRA (INTrinsic Retrieval via Attention), a framework where decoder attention queries score pre-encoded evidence chunks that are then directly reused as context for generation. By construction, INTRA unifies retrieval and generation, eliminating the retriever-generator mismatch typical of RAG pipelines. This design also amortizes context encoding by reusing precomputed encoder states across queries. On question-answering benchmarks, INTRA outperforms strong engineered retrieval pipelines on both evidence recall and end-to-end answer quality. Our results demonstrate that attention-based models already possess a retrieval mechanism that can be elicited, rather than added as an external module.
- Abstract(参考訳): Retrieval-augmented Generation (RAG) は通常、検索と生成を別システムとして扱う。
注意に基づくエンコーダデコーダが直接内部表現から取得できるかどうかを問う。
InTRA(Intrinsic Retrieval via Attention)は、デコーダのアテンションクエリが事前に符号化されたエビデンスチャンクをスコアし、生成のコンテキストとして直接再利用するフレームワークである。
構築により、INTRAは検索と生成を統一し、RAGパイプラインの典型的なレトリバー・ジェネレータミスマッチを除去する。
この設計は、クエリ間で事前計算されたエンコーダステートを再利用することで、コンテキストエンコーディングを再生する。
質問応答ベンチマークでは、INTRAはエビデンスリコールとエンドツーエンドの回答品質の両方で、強力なエンジニアリングされた検索パイプラインを上回ります。
この結果から,アテンションベースモデルには,外部モジュールとして付加されるのではなく,抽出可能な検索機構がすでに備わっていることが示唆された。
関連論文リスト
- Latent Abstraction for Retrieval-Augmented Generation [4.6096940605642915]
既存のシステムは各ホップで自然言語クエリを生成することに依存している。
我々は,単一のLLMが符号化,検索,生成を同時に行う統一的なフレームワークである textbfLAnR (Latent Abstraction for RAG) を提案する。
論文 参考訳(メタデータ) (2026-04-20T06:26:13Z) - Beyond Relevance: On the Relationship Between Retrieval and RAG Information Coverage [89.58253972744531]
Retrieval-augmented Generation (RAG) システムは、文書検索と生成モデルを組み合わせて、レポート生成のような複雑な情報を求める課題に対処する。
我々は,上流の検索指標が,最終生成応答の情報カバレッジの信頼性の高い早期指標として機能するかどうかを検討する。
本研究は,トピックとシステムレベルの両方で生成した応答におけるカバレッジベース検索指標とナゲットカバレッジとの間に強い相関関係を示した。
論文 参考訳(メタデータ) (2026-03-09T18:20:20Z) - Test-time Corpus Feedback: From Retrieval to RAG [21.517949407443453]
Retrieval-Augmented Generation (RAG) は知識集約型NLPタスクの標準フレームワークとして登場した。
ほとんどのRAGパイプラインは、検索と推論を独立したコンポーネントとして扱い、ドキュメントを一度取り出し、さらに相互作用することなく回答を生成する。
情報検索(IR)とNLPのコミュニティにおける最近の研究は、フィードバックを取り入れた適応的検索とランキング手法を導入して、このギャップを埋め始めている。
論文 参考訳(メタデータ) (2025-08-21T10:57:38Z) - Parallel Key-Value Cache Fusion for Position Invariant RAG [55.9809686190244]
大規模言語モデル(LLM)は、コンテキスト内の関連する情報の位置に敏感である。
入力コンテキスト順序に関係なく,デコーダのみのモデルに対して一貫した出力を生成するフレームワークを導入する。
論文 参考訳(メタデータ) (2025-01-13T17:50:30Z) - Corrective Retrieval Augmented Generation [36.04062963574603]
Retrieval-augmented Generation (RAG) は、検索された文書の関連性に大きく依存しており、検索が失敗した場合のモデルがどのように振る舞うかについての懸念を提起する。
生成の堅牢性を改善するために,CRAG(Corrective Retrieval Augmented Generation)を提案する。
CRAGはプラグアンドプレイであり、様々なRAGベースのアプローチとシームレスに結合できる。
論文 参考訳(メタデータ) (2024-01-29T04:36:39Z) - Generation-Augmented Retrieval for Open-domain Question Answering [134.27768711201202]
GAR(Generation-Augmented Retrieval)は、オープンドメインの質問に答える機能である。
クエリーに対して多様なコンテキストを生成することは、結果の融合が常により良い検索精度をもたらすので有益であることを示す。
GARは、抽出読取装置を備えた場合、抽出QA設定の下で、自然質問およびトリビアQAデータセットの最先端性能を達成する。
論文 参考訳(メタデータ) (2020-09-17T23:08:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。