論文の概要: AttnComp: Attention-Guided Adaptive Context Compression for Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2509.17486v1
- Date: Mon, 22 Sep 2025 08:18:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.289073
- Title: AttnComp: Attention-Guided Adaptive Context Compression for Retrieval-Augmented Generation
- Title(参考訳): AttnComp:Retrieval-Augmentedジェネレーションのためのアテンションガイド付き適応コンテキスト圧縮
- Authors: Lvzhou Luo, Yixuan Cao, Ping Luo,
- Abstract要約: 我々は適応的で効率的でコンテキスト対応の圧縮フレームワークであるAttnCompを紹介した。
AttnCompは最小限の文書を保持するためにトップP圧縮アルゴリズムを使用している。
圧縮に加えて、AttnCompは、検索したコンテンツの全体的な関連性を評価することで、応答の信頼性を推定する。
- 参考スコア(独自算出の注目度): 27.480791258325066
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-augmented generation improves the factual accuracy of Large Language Models (LLMs) by incorporating external context, but often suffers from irrelevant retrieved content that hinders effectiveness. Context compression addresses this issue by filtering out irrelevant information from context before LLM generation. However, existing methods struggle to adaptively adjust compression rates for different context, maintain low latency and integrate information across multiple documents. To overcome these limitations, We introduce AttnComp, an adaptive, efficient and context-aware compression framework. By leveraging the attention mechanism of LLMs to identify relevant information, AttnComp employs a Top-P compression algorithm to retain the minimal set of documents whose cumulative attention weights exceeds a predefined threshold. In addition to compression, AttnComp estimates response confidence by assessing the overall relevance of the retrieved content, enabling users to gauge response reliability. Experiments demonstrate that AttnComp outperforms existing compression methods and uncompressed baselines, achieving higher accuracy with substantial compression rates and lower latency.
- Abstract(参考訳): Retrieval-augmented generationは、外部コンテキストを組み込むことで、LLM(Large Language Models)の事実精度を向上させるが、有効性を阻害する無関係な検索コンテンツに悩まされることが多い。
コンテキスト圧縮は、LCM生成前のコンテキストから無関係な情報をフィルタリングすることでこの問題に対処する。
しかし、既存の手法では、異なるコンテキストの圧縮率を適応的に調整し、低レイテンシを維持し、複数のドキュメントにまたがる情報を統合するのに苦労している。
これらの制限を克服するために、適応的で効率的でコンテキスト対応の圧縮フレームワークであるAttnCompを紹介します。
関連情報を識別するためにLLMのアテンション機構を活用することで、AttnCompはTop-P圧縮アルゴリズムを用いて、累積アテンション重みが予め定義された閾値を超える最小の文書群を保持する。
圧縮に加えて、AttnCompは、検索したコンテンツの全体的な関連性を評価することで、応答信頼性を推定する。
実験により、AttnCompは既存の圧縮手法や非圧縮ベースラインより優れており、相当な圧縮率と低レイテンシで高い精度を実現している。
関連論文リスト
- Detecting Overflow in Compressed Token Representations for Retrieval-Augmented Generation [49.48204107529758]
我々はトークンオーバーフローを、圧縮された表現が与えられたクエリに応答する十分な情報を含んでいない状態として定義する。
本稿では,非圧縮トークン表現から,クエリ非依存の飽和統計を確実に分離することを見出した。
クエリとコンテキストの両方のxRAG表現上の軽量なプローブ分類器は平均0.72 AUC-ROCでオーバーフローを検出する。
これらの結果は、クエリ非依存の診断からクエリ対応検出まで進歩し、低コストのプレLLMゲーティングにより、圧縮によるエラーを軽減できる。
論文 参考訳(メタデータ) (2026-02-12T18:15:08Z) - Arbitrary Ratio Feature Compression via Next Token Prediction [52.10426317889982]
Arbitrary Ratio Feature Compression (ARFC)フレームワークは、任意の圧縮比を単一のモデルでサポートする。
ARCは、次の回帰予測によって圧縮を行う自動回帰モデルである。
MoSモジュールは複数の圧縮結果を利用して圧縮トークンを洗練する。
ERGCは、圧縮中の意味的および構造的関係を維持するために、トレーニングプロセスに統合される。
論文 参考訳(メタデータ) (2026-02-12T02:38:57Z) - ATACompressor: Adaptive Task-Aware Compression for Efficient Long-Context Processing in LLMs [28.55805086141996]
本稿では,タスクの特定の要求に応じて圧縮を調整する適応タスク認識(ATACompressor)を提案する。
ATACompressorは、長いコンテキストのタスク関連部分のみを圧縮する選択エンコーダを使用し、不要なコンテンツを減らすとともに必須情報が保存されることを保証する。
我々はATACompressorを3つのQAデータセット上で評価する: HotpotQA, MSMARCO, SQUAD-showingは圧縮効率とタスク性能の両面で既存の手法より優れている。
論文 参考訳(メタデータ) (2026-02-03T07:53:29Z) - Rethinking Soft Compression in Retrieval-Augmented Generation: A Query-Conditioned Selector Perspective [21.41673002861847]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)を外部知識で効果的に構築する。
ソフトコンテクスト圧縮に関する最近の研究は、長い文書をコンパクトな埋め込みに符号化することでこの問題に対処することを目的としている。
本稿では,クエリ条件情報セレクタとしてのエンコーダの役割を再定義する,RAGのためのセレクタベースのソフト圧縮フレームワークであるSeleComを紹介する。
論文 参考訳(メタデータ) (2026-01-25T09:06:24Z) - CORE-RAG: Lossless Compression for Retrieval-Augmented LLMs via Reinforcement Learning [22.93037884068796]
Retrieval-Augmented Generation (RAG) は、知識のタイムラインを強化するための有望なアプローチとして登場した。
従来の研究では、テキスト内統合前に検索した文書を短いテキストに圧縮しようと試みてきた。
論文 参考訳(メタデータ) (2025-08-24T12:21:50Z) - Dynamic Context Compression for Efficient RAG [23.75730930953087]
検索拡張生成は、長い検索コンテキストのためにかなりの推論コストを発生させる。
既存の手法では、固定圧縮率、単純なクエリの過剰圧縮、複雑なクエリのアンダー圧縮などを適用している。
本稿では,入力複雑性に基づいて動的に圧縮率を調整するフレームワークであるRAG(ACC-RAG)の適応文脈圧縮を提案する。
論文 参考訳(メタデータ) (2025-07-24T13:46:51Z) - MOOSComp: Improving Lightweight Long-Context Compressor via Mitigating Over-Smoothing and Incorporating Outlier Scores [5.893964327109089]
MOOSCompはトークン分類に基づく長文圧縮方式である。
タスク非依存圧縮において破棄されがちな希少だが重要なトークンを保存するために、外れ値を導入する。
本手法は,資源制約されたモバイルデバイス上での4倍圧縮率で3.3倍の高速化を実現する。
論文 参考訳(メタデータ) (2025-04-23T15:02:53Z) - Long Context In-Context Compression by Getting to the Gist of Gisting [50.24627831994713]
GistPoolは、デコーダ変換器にアーキテクチャ変更を加えることなく、コンテクスト内で圧縮する方法である。
圧縮速度が最小でも性能が大幅に低下し, より長いコンテキストで試行錯誤することを示す。
GistPoolは、gistingの単純さを保ちながら、長いコンテキスト圧縮タスクのパフォーマンスを大幅に向上させる。
論文 参考訳(メタデータ) (2025-04-11T19:23:31Z) - CALLIC: Content Adaptive Learning for Lossless Image Compression [64.47244912937204]
CALLICは、学習したロスレス画像圧縮のための新しい最先端(SOTA)を設定する。
本稿では,畳み込みゲーティング操作を利用したコンテンツ認識型自己回帰自己保持機構を提案する。
エンコーディング中、低ランク行列を用いて深度の畳み込みを含む事前学習層を分解し、レート誘導プログレッシブファインタニング(RPFT)による画像検査にインクリメンタルウェイトを適応させる。
推定エントロピーにより下位順にソートされたパッチを徐々に増加させたRPFTファインチューン,学習過程の最適化,適応時間の短縮を実現した。
論文 参考訳(メタデータ) (2024-12-23T10:41:18Z) - EXIT: Context-Aware Extractive Compression for Enhancing Retrieval-Augmented Generation [8.757777529568383]
現在のRAGシステムは、検索モデルが最も関連性の高い文書のランク付けに失敗したときにしばしば苦労する。
抽出文脈圧縮フレームワークEXITを紹介する。
評価の結果,EXITは既存の圧縮手法を一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2024-12-17T05:38:27Z) - BRIEF: Bridging Retrieval and Inference for Multi-hop Reasoning via Compression [91.23933111083389]
Retrieval-augmented Generation (RAG)は、外部知識を統合することで、大きな言語モデル(LLM)を補完することができる。
本稿では,クエリ対応マルチホップ推論を行う軽量なアプローチであるBRIEFを提案する。
オープンソースモデルで構築した合成データに基づいて,BRIEFはより簡潔な要約を生成する。
論文 参考訳(メタデータ) (2024-10-20T04:24:16Z) - UNComp: Can Matrix Entropy Uncover Sparsity? -- A Compressor Design from an Uncertainty-Aware Perspective [85.08718140718707]
UNCompは不確実性を認識したフレームワークで、適応圧縮に使用できる空間パターンを明らかにする。
スパーシティパターンを詳細に分析する不確実性に注目して、UNCompはKVキャッシュサイズを4.74%に削減し、6%のプリフィルスピードアップを実現し、スループットを6.4倍改善した。
論文 参考訳(メタデータ) (2024-10-04T02:32:36Z) - In-Context Former: Lightning-fast Compressing Context for Large Language Model [48.831304302467004]
本稿では,Transformer-based large language model (LLM) の長期入力コンテキストを圧縮する手法を提案する。
我々は,単語の埋め込みから情報を集めるために,クロスアテンション機構と少数の学習可能なダイジェストトークンを使用する。
実験の結果, 圧縮時のベースライン浮動小数点演算の1/32しか必要とせず, 処理速度を68倍から112倍に向上することがわかった。
論文 参考訳(メタデータ) (2024-06-19T15:14:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。