論文の概要: AttentionRetriever: Attention Layers are Secretly Long Document Retrievers
- arxiv url: http://arxiv.org/abs/2602.12278v1
- Date: Thu, 12 Feb 2026 18:59:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:26.001028
- Title: AttentionRetriever: Attention Layers are Secretly Long Document Retrievers
- Title(参考訳): AttentionRetriever: Attention Layersは秘密裏に長いドキュメントレトリバー
- Authors: David Jiahao Fu, Lam Thanh Do, Jiayu Li, Kevin Chen-Chuan Chang,
- Abstract要約: Retrieval augmented generation(RAG)は、Large Language Models(LLM)が長いドキュメントを含むタスクを処理するのを助けるために広く採用されている。
既存の検索モデルは、長い文書検索のために設計されておらず、コンテキスト認識、因果依存、検索の範囲など、いくつかの重要な課題に対処できない。
我々は、注意機構とエンティティベースの検索を活用して、長期文書のためのコンテキスト認識埋め込みを構築する新しい長期文書検索モデルであるAttentionRetrieverを提案する。
- 参考スコア(独自算出の注目度): 19.24683110020638
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Retrieval augmented generation (RAG) has been widely adopted to help Large Language Models (LLMs) to process tasks involving long documents. However, existing retrieval models are not designed for long document retrieval and fail to address several key challenges of long document retrieval, including context-awareness, causal dependence, and scope of retrieval. In this paper, we proposed AttentionRetriever, a novel long document retrieval model that leverages attention mechanism and entity-based retrieval to build context-aware embeddings for long document and determine the scope of retrieval. With extensive experiments, we found AttentionRetriever is able to outperform existing retrieval models on long document retrieval datasets by a large margin while remaining as efficient as dense retrieval models.
- Abstract(参考訳): Retrieval augmented generation(RAG)は、Large Language Models(LLM)が長いドキュメントを含むタスクを処理するのを助けるために広く採用されている。
しかし、既存の検索モデルは、長い文書検索のために設計されておらず、コンテキスト認識、因果依存、検索の範囲など、長い文書検索におけるいくつかの重要な課題に対処できない。
本稿では,アテンション機構とエンティティベース検索を利用した新しい長文検索モデルであるAttentionRetrieverを提案する。
大規模な実験により、AttentionRetrieverは、長い文書検索データセット上の既存の検索モデルを、高密度検索モデルと同じくらい効率よく、大きなマージンで上回ることができることがわかった。
関連論文リスト
- Query Decomposition for RAG: Balancing Exploration-Exploitation [83.79639293409802]
RAGシステムは複雑なユーザ要求に対処し、それらをサブクエリに分解し、それぞれに関連する可能性のあるドキュメントを取得し、それを集約して回答を生成する。
クエリの分解とドキュメントの検索をエクスプロレーション探索設定で定式化し、一度に1つのドキュメントを検索すると、与えられたサブクエリの有用性についての信念が構築される。
我々の主な発見は、ランク情報と人的判断を用いた文書関連性の推定により、文書レベルの精度が35%向上し、α-nDCGが15%向上し、長文生成の下流タスクの性能が向上するということである。
論文 参考訳(メタデータ) (2025-10-21T13:37:11Z) - Learning Refined Document Representations for Dense Retrieval via Deliberate Thinking [58.69615583599489]
Deliberate Thinking based Retriever (Debater) は、段階的な思考プロセスを導入することで文書表現を強化する新しいアプローチである。
Debaterは、いくつかのベンチマークで既存のメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2025-02-18T15:56:34Z) - Continual Learning for Generative Retrieval over Dynamic Corpora [115.79012933205756]
生成検索(GR)はパラメトリックモデルに基づいて関連文書の識別子(ドシデクス)を直接予測する。
クエリに応答する能力を保ちながら、新しいドキュメントをインクリメンタルにインデックスする能力は、GRモデルを適用する上で不可欠である。
我々は,CLEVERモデルのための新しい連続学習モデルを提案し,GRのための連続学習に2つの大きな貢献をした。
論文 参考訳(メタデータ) (2023-08-29T01:46:06Z) - Fine-Grained Distillation for Long Document Retrieval [86.39802110609062]
ロングドキュメント検索は、大規模コレクションからクエリ関連ドキュメントを取得することを目的としている。
知識蒸留は、異質だが強力なクロスエンコーダを模倣することによって、レトリバーを改善するために事実上のものである。
本稿では, 長期文書検索のための新たな学習フレームワークFGDを提案する。
論文 参考訳(メタデータ) (2022-12-20T17:00:36Z) - Augmenting Document Representations for Dense Retrieval with
Interpolation and Perturbation [49.940525611640346]
ドキュメント拡張(Document Augmentation for dense Retrieval)フレームワークは、ドキュメントの表現をDense Augmentationとperturbationsで強化する。
2つのベンチマークデータセットによる検索タスクにおけるDARの性能評価を行い、ラベル付き文書とラベルなし文書の密集検索において、提案したDARが関連するベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-03-15T09:07:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。