論文の概要: Enhancing RAG Efficiency with Adaptive Context Compression
- arxiv url: http://arxiv.org/abs/2507.22931v1
- Date: Thu, 24 Jul 2025 13:46:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:08.227806
- Title: Enhancing RAG Efficiency with Adaptive Context Compression
- Title(参考訳): 適応文脈圧縮によるRAG効率の向上
- Authors: Shuyu Guo, Zhaochun Ren,
- Abstract要約: 検索拡張生成は、長い検索コンテキストのためにかなりの推論コストを発生させる。
既存の手法では、固定圧縮率、単純なクエリの過剰圧縮、複雑なクエリのアンダー圧縮などを適用している。
本稿では,入力複雑性に基づいて動的に圧縮率を調整するフレームワークであるRAG(ACC-RAG)の適応文脈圧縮を提案する。
- 参考スコア(独自算出の注目度): 20.745017748105955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-augmented generation (RAG) enhances large language models (LLMs) with external knowledge but incurs significant inference costs due to lengthy retrieved contexts. While context compression mitigates this issue, existing methods apply fixed compression rates, over-compressing simple queries or under-compressing complex ones. We propose Adaptive Context Compression for RAG (ACC-RAG), a framework that dynamically adjusts compression rates based on input complexity, optimizing inference efficiency without sacrificing accuracy. ACC-RAG combines a hierarchical compressor (for multi-granular embeddings) with a context selector to retain minimal sufficient information, akin to human skimming. Evaluated on Wikipedia and five QA datasets, ACC-RAG outperforms fixed-rate methods and matches/unlocks over 4 times faster inference versus standard RAG while maintaining or improving accuracy.
- Abstract(参考訳): Retrieval-augmented Generation (RAG) は、外部知識を持つ大規模言語モデル (LLM) を強化するが、長い検索コンテキストのためにかなりの推論コストを発生させる。
コンテクスト圧縮がこの問題を軽減する一方で、既存の手法では、固定圧縮率、単純なクエリの過剰圧縮、複雑なクエリのアンダー圧縮などを適用している。
本稿では、入力複雑性に基づいて圧縮率を動的に調整し、精度を犠牲にすることなく推論効率を最適化するフレームワークであるRAG(Adaptive Context Compression for RAG)を提案する。
ACC-RAGは階層型圧縮機(マルチグラニュラー埋め込み用)とコンテキストセレクタを組み合わせることで、人間のスキミングに似た最小限の情報を保持する。
Wikipediaと5つのQAデータセットで評価され、ACC-RAGは固定レートメソッドとマッチ/アンロックを、精度を維持したり改善したりしながら、標準的なRAGよりも4倍高速に処理する。
関連論文リスト
- SARA: Selective and Adaptive Retrieval-augmented Generation with Context Compression [28.043964124611026]
我々は,密な文脈予算の下で,局所的精度とグローバルな知識カバレッジのバランスをとる統一的なRAGフレームワークであるSARAを提案する。
SARAは、自然言語のテキストスニペットと意味圧縮ベクトルを組み合わせることで、コンテキスト効率と回答の正しさを両立させる。
論文 参考訳(メタデータ) (2025-07-08T03:29:09Z) - KG-Infused RAG: Augmenting Corpus-Based RAG with External Knowledge Graphs [66.35046942874737]
KG-Infused RAGは、拡散活性化を実装するためにKGをRAGシステムに統合するフレームワークである。
KG-Infused RAGはKGの事実を検索し、クエリを拡張し、コーパスと構造化された事実を組み合わせることで生成を強化する。
論文 参考訳(メタデータ) (2025-06-11T09:20:02Z) - ECoRAG: Evidentiality-guided Compression for Long Context RAG [22.842546956145064]
Evidentiality-guided RAG (EcoRAG framework) を提案する。
ECoRAGは、明細度に基づいて検索した文書を圧縮することで、性能を向上させる。
ECoRAGはレイテンシを低減するだけでなく、トークンの使用を最小化するため、非常にコスト効率が高い。
論文 参考訳(メタデータ) (2025-06-05T15:43:49Z) - Sentinel: Attention Probing of Proxy Models for LLM Context Compression with an Understanding Perspective [29.50363211934763]
Retrieval-augmented Generation (RAG) は、外部コンテキストを持つ大きな言語モデルを強化するが、検索されたパスは、しばしば長い、騒々しい、あるいは入力限界を超える。
本研究では,文脈フィルタリングを注目に基づく理解タスクとして再構成する軽量な文レベル圧縮フレームワークであるSentinelを提案する。
論文 参考訳(メタデータ) (2025-05-29T09:24:12Z) - MOOSComp: Improving Lightweight Long-Context Compressor via Mitigating Over-Smoothing and Incorporating Outlier Scores [5.893964327109089]
MOOSCompはトークン分類に基づく長文圧縮方式である。
タスク非依存圧縮において破棄されがちな希少だが重要なトークンを保存するために、外れ値を導入する。
本手法は,資源制約されたモバイルデバイス上での4倍圧縮率で3.3倍の高速化を実現する。
論文 参考訳(メタデータ) (2025-04-23T15:02:53Z) - Long Context In-Context Compression by Getting to the Gist of Gisting [50.24627831994713]
GistPoolは、デコーダ変換器にアーキテクチャ変更を加えることなく、コンテクスト内で圧縮する方法である。
圧縮速度が最小でも性能が大幅に低下し, より長いコンテキストで試行錯誤することを示す。
GistPoolは、gistingの単純さを保ちながら、長いコンテキスト圧縮タスクのパフォーマンスを大幅に向上させる。
論文 参考訳(メタデータ) (2025-04-11T19:23:31Z) - Fast or Better? Balancing Accuracy and Cost in Retrieval-Augmented Generation with Flexible User Control [52.405085773954596]
Retrieval-Augmented Generationは、大規模な言語モデル幻覚を緩和するための強力なアプローチとして登場した。
既存のRAGフレームワークは、しばしば無差別に検索を適用し、非効率な再検索につながる。
本稿では,精度・コストのトレードオフを動的に調整できる新しいユーザ制御可能なRAGフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:56:20Z) - EXIT: Context-Aware Extractive Compression for Enhancing Retrieval-Augmented Generation [8.757777529568383]
現在のRAGシステムは、検索モデルが最も関連性の高い文書のランク付けに失敗したときにしばしば苦労する。
抽出文脈圧縮フレームワークEXITを紹介する。
評価の結果,EXITは既存の圧縮手法を一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2024-12-17T05:38:27Z) - SFR-RAG: Towards Contextually Faithful LLMs [57.666165819196486]
Retrieval Augmented Generation (RAG) は、外部コンテキスト情報を大言語モデル(LLM)と統合し、事実の精度と妥当性を高めるパラダイムである。
SFR-RAG(SFR-RAG)について述べる。
また、複数の人気かつ多様なRAGベンチマークをコンパイルする新しい評価フレームワークであるConBenchについても紹介する。
論文 参考訳(メタデータ) (2024-09-16T01:08:18Z) - In-Context Former: Lightning-fast Compressing Context for Large Language Model [48.831304302467004]
本稿では,Transformer-based large language model (LLM) の長期入力コンテキストを圧縮する手法を提案する。
我々は,単語の埋め込みから情報を集めるために,クロスアテンション機構と少数の学習可能なダイジェストトークンを使用する。
実験の結果, 圧縮時のベースライン浮動小数点演算の1/32しか必要とせず, 処理速度を68倍から112倍に向上することがわかった。
論文 参考訳(メタデータ) (2024-06-19T15:14:55Z) - Learning Accurate Performance Predictors for Ultrafast Automated Model
Compression [86.22294249097203]
フレキシブルネットワーク展開のための超高速自動モデル圧縮フレームワークSeerNetを提案する。
本手法は,探索コストを大幅に削減した競合精度・複雑度トレードオフを実現する。
論文 参考訳(メタデータ) (2023-04-13T10:52:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。