論文の概要: ZipRL: Adaptive Multi-Turn Context Compression with Hindsight Response Replay
- arxiv url: http://arxiv.org/abs/2605.28069v1
- Date: Wed, 27 May 2026 07:26:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.841668
- Title: ZipRL: Adaptive Multi-Turn Context Compression with Hindsight Response Replay
- Title(参考訳): ZipRL:Hindsight Response Replayによる適応型マルチターンコンテキスト圧縮
- Authors: Zhexin Hu, Li Wang, Xiaohan Wang, Jiajun Chai, Xiaojun Guo, Wei Lin, Guojun Yin,
- Abstract要約: 検証リワード(RLVR)による強化学習に適した適応圧縮フレームワークZipRLを提案する。
ZipRLは、HRR(Hindsight Response Replay)と組み合わせて、アクティブで一様でない情報低減のための多粒度圧縮機構を備えている。
5つのエージェントタスクのベンチマークでは、ZipRLはQwen3-4BとQwen3-8Bのモデルで27.9%と34.7%の最先端のアプローチを上回り、極端な256ターンのストレステストでは例外的なトークン効率と堅牢性を維持している。
- 参考スコア(独自算出の注目度): 43.65118824633626
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adaptive context compression is vital for scaling Large Language Models (LLMs) to complex, multi-turn agent tasks. However, rule-based compression methods may discard task-critical nuances, while Reinforcement Learning (RL) approaches usually struggle to balance information retention and token efficiency under the sparse rewards inherent to long-horizon workflows. To bridge this gap, we propose ZipRL, a novel adaptive compression framework tailored for Reinforcement Learning from Verifiable Rewards (RLVR). ZipRL features a multi-granularity compression mechanism for active, non-uniform information reduction, coupled with Hindsight Response Replay (HRR), a technique designed to densify training signals during RLVR optimization. Theoretically, we prove ZipRL's superior task-relevant utility over uniform methods. Concretely, ZipRL utilizes coarse-to-fine prompts for macro-compression and incorporates HRR into GRPO via generalized advantage reshaping. Multiple models of varying versions and parameter scales validate the effectiveness of our approach. Benchmarks on five agent tasks show ZipRL outperforms state-of-the-art approaches by 27.9% and 34.7% across Qwen3-4B and Qwen3-8B models, while maintaining exceptional token efficiency and robustness under extreme 256-turn extrapolation stress tests.
- Abstract(参考訳): 適応的なコンテキスト圧縮は、大規模言語モデル(LLM)を複雑なマルチターンエージェントタスクに拡張するのに不可欠である。
しかし、ルールベースの圧縮手法はタスククリティカルなニュアンスを捨てる可能性があるが、Reinforcement Learning (RL)アプローチは通常、長期のワークフローに固有の疎い報酬の下で情報の保持とトークン効率のバランスをとるのに苦労する。
このギャップを埋めるために、我々は、Reinforcement Learning from Verifiable Rewards (RLVR) に適した新しい適応圧縮フレームワークZipRLを提案する。
ZipRLは、Hyndsight Response Replay (HRR)と相まって、アクティブで一様でない情報還元のための多粒度圧縮機構を備えている。
理論的には、一様手法よりもZipRLのタスク関連ユーティリティが優れていることが証明される。
具体的には、ZipRLはマクロ圧縮に粗大なプロンプトを使用し、一般化された有利な変換を通じてHRRをGRPOに組み込む。
異なるバージョンとパラメータスケールの複数のモデルが、我々のアプローチの有効性を検証する。
5つのエージェントタスクのベンチマークでは、ZipRLはQwen3-4BとQwen3-8Bのモデルで27.9%と34.7%の最先端のアプローチを上回り、極端な256ターン外挿ストレステストでは例外的なトークン効率と堅牢性を維持している。
関連論文リスト
- How to Compress KV Cache in RL Post-Training? Shadow Mask Distillation for Memory-Efficient Alignment [9.677772092448265]
強化学習(Reinforcement Learning, RL)は、大規模言語モデル(LLM)の高度な推論能力を解き放つための重要なパラダイムとして登場した。
オンラインRLは本質的に探索軌道生成(ロールアウト)フェーズを必要とする。
ロールアウト中にKVキャッシュ圧縮を適用すると、このメモリオーバーヘッドが軽減されるが、重要な非政治バイアスを引き起こす。
重要度の再重み付けのような既存の統計解は、この拡大したバイアスを修正するのに苦労する。
論文 参考訳(メタデータ) (2026-05-07T18:51:57Z) - Arbitrary Ratio Feature Compression via Next Token Prediction [52.10426317889982]
Arbitrary Ratio Feature Compression (ARFC)フレームワークは、任意の圧縮比を単一のモデルでサポートする。
ARCは、次の回帰予測によって圧縮を行う自動回帰モデルである。
MoSモジュールは複数の圧縮結果を利用して圧縮トークンを洗練する。
ERGCは、圧縮中の意味的および構造的関係を維持するために、トレーニングプロセスに統合される。
論文 参考訳(メタデータ) (2026-02-12T02:38:57Z) - Towards Efficient Large Language Reasoning Models via Extreme-Ratio Chain-of-Thought Compression [55.63153956934198]
Chain-of-Thought (CoT)推論はLarge Language Models (LLMs)の推論能力をうまく向上させる
既存のCoT圧縮法は、しばしば高い圧縮比で論理的忠実度が著しく低下する。
本稿では,Extra-CoTと呼ばれる新しいEXTreme-RAtio Chain-of-Thought Compressionフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-09T06:57:15Z) - Sparse-RL: Breaking the Memory Wall in LLM Reinforcement Learning via Stable Sparse Rollouts [27.45707647061042]
大規模言語モデル(LLM)における複雑な推論能力を引き出すには強化学習(RL)が不可欠である。
既存のKV圧縮技術は、推論のための治療法を提供するが、それらをRLトレーニングに直接適用すると、厳しいポリシーミスマッチが引き起こされる。
本稿では,スパースロールアウト時の安定したRLトレーニングを支援するSparse-RLを紹介する。
論文 参考訳(メタデータ) (2026-01-15T05:12:03Z) - CORE-RAG: Lossless Compression for Retrieval-Augmented LLMs via Reinforcement Learning [22.93037884068796]
Retrieval-Augmented Generation (RAG) は、知識更新のタイムラインと大規模言語モデルにおける応答の事実的正確性を高めるための有望なアプローチとして登場した。
RAG用に調整された文書圧縮への既存のアプローチは、しばしばタスクパフォーマンスを低下させる。
我々は、RAGにおけるロスレスコンテキスト圧縮の新しい手法であるCOREを提案する。
論文 参考訳(メタデータ) (2025-08-24T12:21:50Z) - Depth-Breadth Synergy in RLVR: Unlocking LLM Reasoning Gains with Adaptive Exploration [61.350777880329815]
Reinforcement Learning with Verifiable Reward (RLVR)は、大規模言語モデルにおける推論能力をアンロックするための強力なパラダイムとして登場した。
RLVRの完全なポテンシャルは、モデルがサンプリングできる最も難しい深さと、単一のイテレーションで消費されるインスタンスの数という2つの未探索の次元によって妨げられていることを示す。
本稿では,多段ロールアウトによる難易度再重み付けを行うDARS(Difficulty Adaptive Rollout Smpling)を提案する。
論文 参考訳(メタデータ) (2025-08-19T11:51:40Z) - Enhancing RAG Efficiency with Adaptive Context Compression [24.94881830262324]
検索拡張生成は、長い検索コンテキストのためにかなりの推論コストを発生させる。
既存の手法では、固定圧縮率、単純なクエリの過剰圧縮、複雑なクエリのアンダー圧縮などを適用している。
本稿では,入力複雑性に基づいて動的に圧縮率を調整するフレームワークであるRAG(ACC-RAG)の適応文脈圧縮を提案する。
論文 参考訳(メタデータ) (2025-07-24T13:46:51Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。