Fugu-MT 論文翻訳(概要): AttentionRAG: Attention-Guided Context Pruning in Retrieval-Augmented Generation

論文の概要: AttentionRAG: Attention-Guided Context Pruning in Retrieval-Augmented Generation

arxiv url: http://arxiv.org/abs/2503.10720v1
Date: Thu, 13 Mar 2025 08:22:28 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-17 22:04:28.990049
Title: AttentionRAG: Attention-Guided Context Pruning in Retrieval-Augmented Generation
Title（参考訳）: AttentionRAG:Retrieval-Augmented Generationにおける注意誘導コンテキストプルーニング
Authors: Yixiong Fang, Tianran Sun, Yuling Shi, Xiaodong Gu,
Abstract要約: 本稿では,RAGシステムに対する注意誘導型コンテキストプルーニング手法であるAttentionRAGを提案する。 AttentionRAGの中核となる考え方は、RAGクエリを次世代の予測パラダイムに再構成する、注意集中メカニズムにある。 LongBenchとBabilongベンチマークの実験では、AttentionRAGは最大6.3$times$コンテキスト圧縮を達成し、LLMLinguaのメソッドはキーメトリックで約10%上回っている。
参考スコア（独自算出の注目度）: 3.735352744532723
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While RAG demonstrates remarkable capabilities in LLM applications, its effectiveness is hindered by the ever-increasing length of retrieved contexts, which introduces information redundancy and substantial computational overhead. Existing context pruning methods, such as LLMLingua, lack contextual awareness and offer limited flexibility in controlling compression rates, often resulting in either insufficient pruning or excessive information loss. In this paper, we propose AttentionRAG, an attention-guided context pruning method for RAG systems. The core idea of AttentionRAG lies in its attention focus mechanism, which reformulates RAG queries into a next-token prediction paradigm. This mechanism isolates the query's semantic focus to a single token, enabling precise and efficient attention calculation between queries and retrieved contexts. Extensive experiments on LongBench and Babilong benchmarks show that AttentionRAG achieves up to 6.3$\times$ context compression while outperforming LLMLingua methods by around 10\% in key metrics.
Abstract（参考訳）: RAGはLLMアプリケーションにおいて顕著な機能を示すが、その有効性は、情報冗長性や計算オーバーヘッドの大幅な増大によって妨げられる。 LLMLinguaのような既存のコンテクストプルーニング手法では、文脈認識が欠如し、圧縮速度の制御に柔軟性が制限されているため、多くの場合、プルーニングの不十分さや過剰な情報損失が生じる。本稿では,RAGシステムに対する注意誘導型コンテキストプルーニング手法であるAttentionRAGを提案する。 AttentionRAGの中核となる考え方は、RAGクエリを次世代の予測パラダイムに再構成する、注意集中メカニズムにある。このメカニズムは、クエリのセマンティックフォーカスを単一のトークンに分離し、クエリと検索されたコンテキスト間の正確かつ効率的な注意計算を可能にする。 LongBench と Babilong ベンチマークの大規模な実験により、AttentionRAG は最大6.3$\times$コンテキスト圧縮を達成し、LLMLingua のメソッドではキーメトリックの約10倍の性能を達成している。

関連論文リスト

BEE-RAG: Balanced Entropy Engineering for Retrieval-Augmented Generation [77.10390725623125]
本稿では,RAGシステムの適応性を改善するために,バランスの取れたエントロピーエンジニアリングRAG(BEE-RAG)フレームワークを提案する。 BEE-RAGは、注意感度をコンテキスト長から分離し、安定したエントロピーレベルを確保する。これに基づいて,マルチインパタンス推定のためのゼロショット推論戦略とパラメータ効率適応微調整機構を導入する。
論文参考訳（メタデータ） (2025-08-07T07:37:25Z)
PrismRAG: Boosting RAG Factuality with Distractor Resilience and Strategized Reasoning [57.89188317734747]
PrismRAGはこのモデルを、イントラクタを意識したQAペアで訓練し、金の証拠と微妙なイントラクタパスを混合する。 LLMを計画し、合理化し、人間工学的な指示に頼らずに合成する推論中心の習慣を取り入れている。
論文参考訳（メタデータ） (2025-07-25T00:15:31Z)
AlignRAG: Leveraging Critique Learning for Evidence-Sensitive Retrieval-Augmented Reasoning [61.28113271728859]
RAGは知識ベースで大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。標準的なRAGパイプラインは、モデル推論が取得した証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。本研究では,RAGをRetrieval-Augmented Reasoningと解釈し,中心的だが未探索な問題であるtextitReasoning Misalignmentを同定する。
論文参考訳（メタデータ） (2025-04-21T04:56:47Z)
Hallucination Detection in LLMs via Topological Divergence on Attention Graphs [64.74977204942199]
幻覚(Halucination)、すなわち、事実的に誤ったコンテンツを生成することは、大きな言語モデルにとって重要な課題である。本稿では,TOHA (Topology-based HAllucination detector) をRAG設定に導入する。
論文参考訳（メタデータ） (2025-04-14T10:06:27Z)
CausalRAG: Integrating Causal Graphs into Retrieval-Augmented Generation [11.265999775635823]
CausalRAGは因果グラフを検索プロセスに組み込む新しいフレームワークである。因果関係の構築と追跡により、CausalRAGは文脈連続性を保ち、検索精度を向上させる。本研究は,因果推論における接地探索が,知識集約型タスクに有望なアプローチをもたらすことを示唆している。
論文参考訳（メタデータ） (2025-03-25T17:43:08Z)
DeepRAG: Thinking to Retrieval Step by Step for Large Language Models [92.87532210660456]
我々はマルコフ決定過程(MDP)として検索強化推論をモデル化するDeepRAGを提案する。クエリを反復的に分解することで、DeepRAGは外部知識を取得するか、あるいは各ステップでパラメトリック推論に依存するかを動的に決定する。実験の結果、DeepRAGは解答精度を21.99%向上させ、検索強化推論の最適化の有効性を示した。
論文参考訳（メタデータ） (2025-02-03T08:22:45Z)
Chain-of-Retrieval Augmented Generation [72.06205327186069]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文参考訳（メタデータ） (2025-01-24T09:12:52Z)
Don't Do RAG: When Cache-Augmented Generation is All You Need for Knowledge Tasks [11.053340674721005]
検索拡張世代(RAG)は,外部知識ソースを統合することで言語モデルを強化する強力なアプローチとして注目されている。本稿では、リアルタイム検索をバイパスする代替パラダイムであるキャッシュ拡張生成(CAG)を提案する。
論文参考訳（メタデータ） (2024-12-20T06:58:32Z)
Context Awareness Gate For Retrieval Augmented Generation [2.749898166276854]
Retrieval Augmented Generation (RAG) は、大規模言語モデル(LLM)の限界を軽減し、ドメイン固有の質問に答える手段として広く採用されている。これまでの研究は主に、取得したデータチャンクの精度と品質を改善し、生成パイプライン全体のパフォーマンスを向上させることに重点を置いてきた。オープンドメイン質問応答における無関係情報検索の効果について検討し,LLM出力の品質に対する顕著な有害な影響を明らかにする。
論文参考訳（メタデータ） (2024-11-25T06:48:38Z)
PEAR: Position-Embedding-Agnostic Attention Re-weighting Enhances Retrieval-Augmented Generation with Zero Inference Overhead [24.611413814466978]
検索拡張生成(RAG)により強化された大言語モデル(LLM)は、Web検索のための新しいパラダイムを導入した。既存のコンテキスト認識を強化する方法は、しばしば非効率であり、推論中に時間やメモリオーバーヘッドが発生する。そこで我々は,LLMの文脈認識をゼロ推論オーバーヘッドで向上する位置埋め込み非依存再重み付け(PEAR)を提案する。
論文参考訳（メタデータ） (2024-09-29T15:40:54Z)
Speculative RAG: Enhancing Retrieval Augmented Generation through Drafting [68.90949377014742]
Speculative RAG(投機的RAG)は、より大規模なジェネラリストLMを利用して、より小さな蒸留専門のLMによって並列に生成された複数のRAGドラフトを効率よく検証するフレームワークである。提案手法は,より小さな専門家のLMにドラフト作成を委譲することでRAGを加速し,より大きなジェネラリストのLMがドラフトに1回の検証パスを実行する。 PubHealthの従来のRAGシステムと比較して、レイテンシを50.83%削減しながら、最大12.97%の精度向上を実現している。
論文参考訳（メタデータ） (2024-07-11T06:50:19Z)
Compressing Long Context for Enhancing RAG with AMR-based Concept Distillation [17.156915103545728]
大規模言語モデル(LLM)は情報取得に大きく貢献している。 Retrieval Augmented Generation (RAG)は、外部の非パラメトリック知識を取り入れることで、この制限に対処する。本稿では,抽象表現(AMR)に基づく概念蒸留アルゴリズムを用いた新しい概念ベースRAGフレームワークを提案する。
論文参考訳（メタデータ） (2024-05-06T00:18:43Z)
Fortify the Shortest Stave in Attention: Enhancing Context Awareness of Large Language Models for Effective Tool Use [74.72150542395487]
大規模言語モデル(LLM)の注意配分における固有波形パターンは、高い文脈認識を必要とするタスクにおいて、その性能に大きな影響を及ぼす。この問題に対処するため,Attention Buckets という新しい推論手法を提案する。
論文参考訳（メタデータ） (2023-12-07T17:24:51Z)
Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文参考訳（メタデータ） (2023-10-17T18:18:32Z)
Generation-Augmented Retrieval for Open-domain Question Answering [134.27768711201202]
GAR(Generation-Augmented Retrieval)は、オープンドメインの質問に答える機能である。クエリーに対して多様なコンテキストを生成することは、結果の融合が常により良い検索精度をもたらすので有益であることを示す。 GARは、抽出読取装置を備えた場合、抽出QA設定の下で、自然質問およびトリビアQAデータセットの最先端性能を達成する。
論文参考訳（メタデータ） (2020-09-17T23:08:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。