論文の概要: AttnComp: Attention-Guided Adaptive Context Compression for Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2509.17486v1
- Date: Mon, 22 Sep 2025 08:18:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.289073
- Title: AttnComp: Attention-Guided Adaptive Context Compression for Retrieval-Augmented Generation
- Title(参考訳): AttnComp:Retrieval-Augmentedジェネレーションのためのアテンションガイド付き適応コンテキスト圧縮
- Authors: Lvzhou Luo, Yixuan Cao, Ping Luo,
- Abstract要約: 我々は適応的で効率的でコンテキスト対応の圧縮フレームワークであるAttnCompを紹介した。
AttnCompは最小限の文書を保持するためにトップP圧縮アルゴリズムを使用している。
圧縮に加えて、AttnCompは、検索したコンテンツの全体的な関連性を評価することで、応答の信頼性を推定する。
- 参考スコア(独自算出の注目度): 27.480791258325066
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-augmented generation improves the factual accuracy of Large Language Models (LLMs) by incorporating external context, but often suffers from irrelevant retrieved content that hinders effectiveness. Context compression addresses this issue by filtering out irrelevant information from context before LLM generation. However, existing methods struggle to adaptively adjust compression rates for different context, maintain low latency and integrate information across multiple documents. To overcome these limitations, We introduce AttnComp, an adaptive, efficient and context-aware compression framework. By leveraging the attention mechanism of LLMs to identify relevant information, AttnComp employs a Top-P compression algorithm to retain the minimal set of documents whose cumulative attention weights exceeds a predefined threshold. In addition to compression, AttnComp estimates response confidence by assessing the overall relevance of the retrieved content, enabling users to gauge response reliability. Experiments demonstrate that AttnComp outperforms existing compression methods and uncompressed baselines, achieving higher accuracy with substantial compression rates and lower latency.
- Abstract(参考訳): Retrieval-augmented generationは、外部コンテキストを組み込むことで、LLM(Large Language Models)の事実精度を向上させるが、有効性を阻害する無関係な検索コンテンツに悩まされることが多い。
コンテキスト圧縮は、LCM生成前のコンテキストから無関係な情報をフィルタリングすることでこの問題に対処する。
しかし、既存の手法では、異なるコンテキストの圧縮率を適応的に調整し、低レイテンシを維持し、複数のドキュメントにまたがる情報を統合するのに苦労している。
これらの制限を克服するために、適応的で効率的でコンテキスト対応の圧縮フレームワークであるAttnCompを紹介します。
関連情報を識別するためにLLMのアテンション機構を活用することで、AttnCompはTop-P圧縮アルゴリズムを用いて、累積アテンション重みが予め定義された閾値を超える最小の文書群を保持する。
圧縮に加えて、AttnCompは、検索したコンテンツの全体的な関連性を評価することで、応答信頼性を推定する。
実験により、AttnCompは既存の圧縮手法や非圧縮ベースラインより優れており、相当な圧縮率と低レイテンシで高い精度を実現している。
関連論文リスト
- CORE-RAG: Lossless Compression for Retrieval-Augmented LLMs via Reinforcement Learning [22.93037884068796]
Retrieval-Augmented Generation (RAG) は、知識のタイムラインを強化するための有望なアプローチとして登場した。
従来の研究では、テキスト内統合前に検索した文書を短いテキストに圧縮しようと試みてきた。
論文 参考訳(メタデータ) (2025-08-24T12:21:50Z) - Dynamic Context Compression for Efficient RAG [23.75730930953087]
検索拡張生成は、長い検索コンテキストのためにかなりの推論コストを発生させる。
既存の手法では、固定圧縮率、単純なクエリの過剰圧縮、複雑なクエリのアンダー圧縮などを適用している。
本稿では,入力複雑性に基づいて動的に圧縮率を調整するフレームワークであるRAG(ACC-RAG)の適応文脈圧縮を提案する。
論文 参考訳(メタデータ) (2025-07-24T13:46:51Z) - Long Context In-Context Compression by Getting to the Gist of Gisting [50.24627831994713]
GistPoolは、デコーダ変換器にアーキテクチャ変更を加えることなく、コンテクスト内で圧縮する方法である。
圧縮速度が最小でも性能が大幅に低下し, より長いコンテキストで試行錯誤することを示す。
GistPoolは、gistingの単純さを保ちながら、長いコンテキスト圧縮タスクのパフォーマンスを大幅に向上させる。
論文 参考訳(メタデータ) (2025-04-11T19:23:31Z) - CALLIC: Content Adaptive Learning for Lossless Image Compression [64.47244912937204]
CALLICは、学習したロスレス画像圧縮のための新しい最先端(SOTA)を設定する。
本稿では,畳み込みゲーティング操作を利用したコンテンツ認識型自己回帰自己保持機構を提案する。
エンコーディング中、低ランク行列を用いて深度の畳み込みを含む事前学習層を分解し、レート誘導プログレッシブファインタニング(RPFT)による画像検査にインクリメンタルウェイトを適応させる。
推定エントロピーにより下位順にソートされたパッチを徐々に増加させたRPFTファインチューン,学習過程の最適化,適応時間の短縮を実現した。
論文 参考訳(メタデータ) (2024-12-23T10:41:18Z) - EXIT: Context-Aware Extractive Compression for Enhancing Retrieval-Augmented Generation [8.757777529568383]
現在のRAGシステムは、検索モデルが最も関連性の高い文書のランク付けに失敗したときにしばしば苦労する。
抽出文脈圧縮フレームワークEXITを紹介する。
評価の結果,EXITは既存の圧縮手法を一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2024-12-17T05:38:27Z) - BRIEF: Bridging Retrieval and Inference for Multi-hop Reasoning via Compression [91.23933111083389]
Retrieval-augmented Generation (RAG)は、外部知識を統合することで、大きな言語モデル(LLM)を補完することができる。
本稿では,クエリ対応マルチホップ推論を行う軽量なアプローチであるBRIEFを提案する。
オープンソースモデルで構築した合成データに基づいて,BRIEFはより簡潔な要約を生成する。
論文 参考訳(メタデータ) (2024-10-20T04:24:16Z) - In-Context Former: Lightning-fast Compressing Context for Large Language Model [48.831304302467004]
本稿では,Transformer-based large language model (LLM) の長期入力コンテキストを圧縮する手法を提案する。
我々は,単語の埋め込みから情報を集めるために,クロスアテンション機構と少数の学習可能なダイジェストトークンを使用する。
実験の結果, 圧縮時のベースライン浮動小数点演算の1/32しか必要とせず, 処理速度を68倍から112倍に向上することがわかった。
論文 参考訳(メタデータ) (2024-06-19T15:14:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。