論文の概要: CORE: Lossless Compression for Retrieval-Augmented LLMs via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2508.19282v1
- Date: Sun, 24 Aug 2025 12:21:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.344792
- Title: CORE: Lossless Compression for Retrieval-Augmented LLMs via Reinforcement Learning
- Title(参考訳): CORE:強化学習によるLLMの無損失圧縮
- Authors: Ziqiang Cui, Yunpeng Weng, Xing Tang, Peiyang Liu, Shiwei Li, Bowei He, Jiamin Chen, Xiuqiang He, Chen Ma,
- Abstract要約: Retrieval-Augmented Generation (RAG) は,Large Language Models (LLMs) における知識の時系列化と応答の事実的正確性を高めるための,有望なアプローチとして登場した。
従来の研究では、テキスト内統合の前に検索した文書を短いテキストに圧縮しようと試みてきたが、そのような手法はエンドタスクのパフォーマンスを損なうことが多かった。
本稿では,RAGの無意味な文脈圧縮を実現するための新しい手法であるCOREを提案する。
- 参考スコア(独自算出の注目度): 23.151593413765127
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-Augmented Generation (RAG) has emerged as a promising approach to enhance the timeliness of knowledge and the factual accuracy of responses in Large Language Models (LLMs). However, the inclusion of excessive retrieved documents substantially increases the input length, leading to higher computational costs. Previous studies have attempted to compress retrieved documents into shorter texts before in-context integration, but such methods often compromise end-task performance. The lack of well-defined compression targets forces many approaches to rely on fixed heuristics, which cannot guarantee that the compressed content will effectively support the end task. To address these limitations, we propose CORE, a novel method designed to achieve lossless context compression for RAG. CORE employs reinforcement learning to optimize the compression process without relying on predefined compression labels. Specifically, it utilizes end-task performance as a reward signal and applies Generalized Reinforcement Learning Policy Optimization (GRPO) to train the compressor. This end-to-end training framework enables the compressor to generate summaries that maximize the accuracy of answers generated by the LLM. Extensive experiments on four datasets demonstrate the superiority of our approach. With a high compression ratio of 3\%, our method not only avoids performance degradation compared to prepending full documents across all datasets but also improves the average Exact Match (EM) score by 3.3 points. The code will be released soon.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) は,Large Language Models (LLMs) における知識のタイムラインと応答の事実的正確性を高めるための,有望なアプローチとして登場した。
しかし、過剰に取得された文書が組み込まれると、入力長が大幅に増加し、計算コストが上昇する。
従来の研究では、テキスト内統合の前に検索した文書を短いテキストに圧縮しようと試みてきたが、そのような手法はエンドタスクのパフォーマンスを損なうことが多かった。
適切に定義された圧縮ターゲットがないため、多くのアプローチは固定ヒューリスティックに頼らざるを得なくなり、圧縮されたコンテンツが効果的に最終タスクをサポートすることは保証できない。
これらの制約に対処するため,RAGの無意味な文脈圧縮を実現するための新しい手法であるCOREを提案する。
COREは、事前定義された圧縮ラベルに頼ることなく、圧縮プロセスを最適化するために強化学習を採用する。
具体的には、エンドタスク性能を報奨信号として利用し、圧縮機の訓練に汎用強化学習ポリシー最適化(GRPO)を適用する。
このエンドツーエンドのトレーニングフレームワークにより、圧縮機はLCMが生成した回答の精度を最大化する要約を生成することができる。
4つのデータセットに対する大規模な実験は、我々のアプローチの優位性を示している。
圧縮率3\%の高圧縮比では、全データセットにわたる全文書の予測よりも性能劣化を回避できるだけでなく、平均エクサクトマッチ(EM)スコアを3.3ポイント改善する。
コードはまもなくリリースされる。
関連論文リスト
- MOOSComp: Improving Lightweight Long-Context Compressor via Mitigating Over-Smoothing and Incorporating Outlier Scores [5.893964327109089]
MOOSCompはトークン分類に基づく長文圧縮方式である。
タスク非依存圧縮において破棄されがちな希少だが重要なトークンを保存するために、外れ値を導入する。
本手法は,資源制約されたモバイルデバイス上での4倍圧縮率で3.3倍の高速化を実現する。
論文 参考訳(メタデータ) (2025-04-23T15:02:53Z) - Understanding and Improving Information Preservation in Prompt Compression for LLMs [10.912320980464571]
情報集約的なタスクでは、プロンプト長は急速に増加し、計算要求の増大、性能劣化、無関係または冗長な情報からのバイアスが引き起こされる。
本稿では,プロンプト圧縮手法の詳細な解析を可能にする総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-24T20:06:11Z) - Beyond RAG: Task-Aware KV Cache Compression for Comprehensive Knowledge Reasoning [23.376181947937788]
ゼロまたは少数ショット設定で外部知識を圧縮するタスク対応キー値(KV)キャッシュ圧縮を提案する。
実験の結果,本手法はRAG法とタスク非依存圧縮法の両方に優れていた。
合成データセットは、粗いエビデンスで十分であるのに対して、タスク認識圧縮は幅広い知識タスクに優れていることを強調している。
論文 参考訳(メタデータ) (2025-03-06T21:07:41Z) - L3TC: Leveraging RWKV for Learned Lossless Low-Complexity Text Compression [23.179381396167084]
我々はLearned Lossless Low-complexity Text Compression Method (L3TC)を紹介する。
RWKVモデルは、適度な圧縮比で高速な復号速度を達成する。
本稿では,頻繁なトークンをカバーするために,限定語彙を用いた外部認識トークン化手法を提案する。
論文 参考訳(メタデータ) (2024-12-21T14:24:32Z) - EoRA: Fine-tuning-free Compensation for Compressed LLM with Eigenspace Low-Rank Approximation [84.70637613266835]
EoRAは、圧縮されたLarge Language Modelを低ランク行列で拡張する微調整不要な手法である。
EoRAは、圧縮LDMの精度を回復するために、トレーニングなしの低ランク法よりも一貫して優れている。
論文 参考訳(メタデータ) (2024-10-28T17:59:03Z) - Long Context Compression with Activation Beacon [22.054232261437186]
Activation Beaconは、トランスフォーマーベースのLLM用のプラグインモジュールである。
長いコンテキストの効率的な、効率的、柔軟な圧縮をターゲットとしている。
推論時間の2倍の高速化と、KVキャッシュのメモリコストの8倍の削減を実現している。
論文 参考訳(メタデータ) (2024-01-07T11:57:40Z) - RECOMP: Improving Retrieval-Augmented LMs with Compression and Selective
Augmentation [61.53695868960846]
テキスト内統合に先立って,検索した文書をテキスト要約に圧縮する手法を提案する。
これにより、計算コストを削減できるだけでなく、長期検索された文書の関連情報を識別する上で、LMの負担を軽減できる。
本研究では,あるLMに対して訓練した圧縮機を言語モデリングタスク上で他のLMに転送し,検索した文書にほぼ忠実な要約を提供することを示す。
論文 参考訳(メタデータ) (2023-10-06T17:55:36Z) - Compressing LLMs: The Truth is Rarely Pure and Never Simple [90.05366363633568]
Knowledge-Intensive Compressed LLM BenchmarKは、圧縮された大言語モデルの評価プロトコルを再定義することを目的としている。
LLM-KICKは、現在のSoTA圧縮方式の多くの有利な利点と不運な点を明らかにしている。
LLM-KICKは、言語理解、推論、生成、テキスト内検索、テキスト内要約などのための圧縮LLMの能力に一様にアクセスできるように設計されている。
論文 参考訳(メタデータ) (2023-10-02T17:42:37Z) - Unrolled Compressed Blind-Deconvolution [77.88847247301682]
sparse multi channel blind deconvolution (S-MBD) はレーダー/ソナー/超音波イメージングなどの多くの工学的応用で頻繁に発生する。
そこで本研究では,受信した全信号に対して,はるかに少ない測定値からブラインドリカバリを可能にする圧縮手法を提案する。
論文 参考訳(メタデータ) (2022-09-28T15:16:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。