論文の概要: MemShare: Memory Efficient Inference for Large Reasoning Models through KV Cache Reuse
- arxiv url: http://arxiv.org/abs/2507.21433v1
- Date: Tue, 29 Jul 2025 02:05:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:55.548517
- Title: MemShare: Memory Efficient Inference for Large Reasoning Models through KV Cache Reuse
- Title(参考訳): MemShare: KVキャッシュ再利用による大規模推論モデルのためのメモリ効率の良い推論
- Authors: Kaiwen Chen, Xin Tan, Minchen Yu, Hong Xu,
- Abstract要約: 大規模推論モデル(LRM)は数学的推論や形式論理のタスクにおいて大きな進歩を遂げた。
長い連鎖配列を生成する傾向は、推論中にかなりのメモリオーバーヘッドを引き起こす。
メモリオーバーヘッドを効果的に低減する新しいKVキャッシュ管理手法であるMemShareを提案する。
- 参考スコア(独自算出の注目度): 14.695547830142516
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Reasoning Models (LRMs) have achieved significant advances in mathematical reasoning and formal logic tasks. However, their tendency to generate lengthy chain-of-thought sequences leads to substantial memory overhead during inference. We observe that LRMs frequently produce highly similar intermediate reasoning steps, which correspond to similar KV cache states across layers. Motivated by this observation, we propose MemShare, a novel KV cache management approach that effectively reduces memory overhead. MemShare employs a collaborative filtering algorithm to efficiently identify reusable KV cache blocks and enables zero copy cache reuse to significantly reduce memory overhead, improve throughput while maintaining accuracy. Experimental results demonstrate that MemShare delivers up to 84.79\% improvement in throughput while maintaining better accuracy compared to existing KV cache management methods.
- Abstract(参考訳): 大規模推論モデル(LRM)は数学的推論や形式論理のタスクにおいて大きな進歩を遂げた。
しかし、長い連鎖配列を生成する傾向は、推論中にかなりのメモリオーバーヘッドを引き起こす。
我々は、LRMが層間の類似KVキャッシュ状態に対応する、非常に類似した中間推論ステップを頻繁に生成していることを観察した。
そこで本研究では,メモリオーバーヘッドを効果的に低減するKVキャッシュ管理手法であるMemShareを提案する。
MemShareは、再利用可能なKVキャッシュブロックを効率的に識別するコラボレーティブフィルタリングアルゴリズムを採用し、コピーキャッシュの再利用をゼロにすることで、メモリオーバーヘッドを大幅に削減し、精度を維持しながらスループットを向上させる。
実験の結果,MemShareは最大84.79倍のスループット向上を実現し,既存のKVキャッシュ管理手法と比較して精度が向上した。
関連論文リスト
- DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。
残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしない場合、注意ベースのメトリクスが特徴である。
提案手法は, 平均圧縮率25%を超え, 無損失KVプルーニングを効果的かつ堅牢に実現している。
論文 参考訳(メタデータ) (2025-02-24T06:33:39Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - Model Tells You Where to Merge: Adaptive KV Cache Merging for LLMs on Long-Context Tasks [21.815661269986425]
KVMergerと呼ばれる新しいKVキャッシュマージ手法を提案し、長文タスクに対して適応的なKVキャッシュ圧縮を実現する。
我々のアプローチは、キー状態が1つのシーケンス内のトークンレベルで高い類似性を示すという興味深い観察にインスパイアされている。
我々は,制約メモリ予算下での長時間コンテキストタスクに対するKVMergerの有効性を示すため,広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-07-11T12:50:42Z) - CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。
KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。
検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文 参考訳(メタデータ) (2024-04-24T16:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。