論文の概要: Breadcrumbs Reasoning: Memory-Efficient Reasoning with Compression Beacons
- arxiv url: http://arxiv.org/abs/2510.13797v1
- Date: Wed, 15 Oct 2025 17:57:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.801751
- Title: Breadcrumbs Reasoning: Memory-Efficient Reasoning with Compression Beacons
- Title(参考訳): Breadcrumbs Reasoning: 圧縮ビーコンによるメモリ効率のよい推論
- Authors: Giovanni Monea, Yair Feldman, Shankar Padmanabhan, Kianté Brantley, Yoav Artzi,
- Abstract要約: 本稿では,KVキャッシュを学習用専用トークンで周期的に圧縮することを提案する。
我々は, この圧縮を行うために, 改良された共同蒸留および強化学習フレームワークを用いてモデルを訓練する。
本手法は,キャッシュ圧縮のないモデルとトレーニング不要な圧縮技術の両方と比較して,優れたメモリ精度のフロンティアを実現する。
- 参考スコア(独自算出の注目度): 22.085345397844687
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The scalability of large language models for long-context reasoning is severely constrained by the linear growth of their Transformer key-value cache, which incurs significant memory and computational costs. We posit that as a model generates reasoning tokens, the informational value of past generated tokens diminishes, creating an opportunity for compression. In this work, we propose to periodically compress the generation KV cache with a learned, special-purpose token and evict compressed entries. We train the model to perform this compression via a modified joint distillation and reinforcement learning (RL) framework. Our training method minimizes overhead over the conventional RL process, as it leverages RL outputs for distillation. Empirically, our method achieves a superior memory-accuracy Pareto frontier compared to both the model without cache compression and training-free compression techniques.
- Abstract(参考訳): 長文推論のための大規模言語モデルのスケーラビリティは、Transformerキー値キャッシュの線形成長によって著しく制約される。
モデルが推論トークンを生成すると、過去の生成トークンの情報量は減少し、圧縮の機会が生まれると仮定する。
本研究では,KVキャッシュを学習した特殊目的トークンで周期的に圧縮し,圧縮されたエントリを除去する手法を提案する。
我々は, この圧縮を, 改良された共同蒸留・強化学習(RL)フレームワークを用いて行うようにモデルを訓練する。
蒸留にRL出力を利用するため, 従来のRLプロセスのオーバーヘッドを最小限に抑える。
提案手法は,キャッシュ圧縮のないモデルとトレーニング不要な圧縮技術の両方と比較して,メモリ精度の優れたParetoフロンティアを実現する。
関連論文リスト
- Which Heads Matter for Reasoning? RL-Guided KV Cache Compression [15.865990296257413]
推論可能な大きな言語モデルは、拡張されたチェーン・オブ・ソート・ジェネレーションを通じて複雑な推論の振る舞いを示す。
既存のKVキャッシュ圧縮手法は推論モデルでは性能が低い。
本稿では,新しい推論クリティカルな頭部識別フレームワークRLKVを提案する。
論文 参考訳(メタデータ) (2025-10-09T17:50:00Z) - CommonKV: Compressing KV Cache with Cross-layer Parameter Sharing [54.34080239841088]
CommonKVは、隣接パラメータ共有による層間KVキャッシュ圧縮のトレーニング不要な方法である。
提案手法は,様々な圧縮比で既存の低ランクおよびクロスレイヤーの手法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2025-08-22T06:55:45Z) - ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [69.57122277845293]
ReCalKVは,キーと値の調整を施した低ランクKVキャッシュ圧縮手法である。
キーズでは、構造的に類似した頭部をグループにクラスタリングし、より正確な低ランク近似を可能にするSimisity aware Recontext (HSR)を提案する。
本稿では,オフラインヘッドワイド値(OVC)を提案する。これはトレーニングなしでキャリブレーションデータを用いて,効率的に値予測行列を校正する。
論文 参考訳(メタデータ) (2025-05-30T08:49:27Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - A Survey on Transformer Compression [84.18094368700379]
自然言語処理(NLP)とコンピュータビジョン(CV)の領域においてトランスフォーマーは重要な役割を果たす
モデル圧縮法は、Transformerのメモリと計算コストを削減する。
この調査は、Transformerベースのモデルに適用することに焦点を当てた、最近の圧縮方法に関する包括的なレビューを提供する。
論文 参考訳(メタデータ) (2024-02-05T12:16:28Z) - LoMA: Lossless Compressed Memory Attention [0.0]
Lossless Compressed Memory Attention (LoMA) は、自己回帰生成時のメモリと計算要求を減らす新しいアプローチである。
LoMAには、圧縮コンテキストに最適化された自己回帰生成アルゴリズムとともに、特別なトレーニングや微調整の事前処理が組み込まれている。
実験的検証により、LoMAは計算消費とメモリ使用量を大幅に削減した。
論文 参考訳(メタデータ) (2024-01-16T09:18:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。