論文の概要: ARKV: Adaptive and Resource-Efficient KV Cache Management under Limited Memory Budget for Long-Context Inference in LLMs
- arxiv url: http://arxiv.org/abs/2603.08727v1
- Date: Thu, 19 Feb 2026 16:24:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-15 16:38:22.500556
- Title: ARKV: Adaptive and Resource-Efficient KV Cache Management under Limited Memory Budget for Long-Context Inference in LLMs
- Title(参考訳): ARKV:LLMにおける長期推論のための限定メモリ予算に基づく適応的で資源効率の良いKVキャッシュ管理
- Authors: Jianlong Lei, Shashikant Ilager,
- Abstract要約: 大規模言語モデル(LLM)は、超長期のコンテキスト推論を必要とするシナリオにますますデプロイされている。
既存のメモリ削減技術、例えば消去や量子化は、しばしば静的キャッシュに依存している。
キャッシュされたトークンに精度レベルを動的に割り当てる軽量で適応的なフレームワークARKVを提案する。
- 参考スコア(独自算出の注目度): 1.1267872663780352
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are increasingly deployed in scenarios demanding ultra-long context reasoning, such as agentic workflows and deep research understanding. However, long-context inference is constrained by the KV cache, a transient memory structure that grows linearly with sequence length and batch size, quickly dominating GPU memory usage. Existing memory reduction techniques, including eviction and quantization, often rely on static heuristics and suffer from degraded quality under tight budgets. In this paper, we propose ARKV, a lightweight and adaptive framework that dynamically allocates precision levels to cached tokens based on per-layer attention dynamics and token-level importance. During a short prefill phase, ARKV estimates the original quantization (OQ) ratio of each layer by computing statistical scores such as attention entropy, variance and kurtosis. During decoding, tokens are assigned to one of three states, Original (full precision), Quantization (low precision), or Eviction, according to a fast heavy-hitter scoring strategy. Our experiments on LLaMA3 and Qwen3 models across diverse long- and short-context tasks demonstrate that ARKV preserves ~97% of baseline accuracy on long-context benchmarks while reducing KV memory usage by 4x, with minimal throughput loss. On short-context tasks, ARKV matches full-precision baselines; on GSM8K math reasoning, it significantly outperforms uniform quantization. These results highlight the practical viability of ARKV for scalable LLM deployment, offering fine-grained, data-driven memory control without retraining or architectural modifications. The source code and artifacts can be found in: https://github.com/Large-scale-Sustainable-Computing-LSC/ARKV
- Abstract(参考訳): 大規模言語モデル(LLM)は、エージェントワークフローや深い研究理解など、超長期のコンテキスト推論を必要とするシナリオにますます多くデプロイされている。
しかし、長いコンテキスト推論は、シーケンス長とバッチサイズで線形に成長し、GPUメモリの使用を急速に支配する、過渡的なメモリ構造であるKVキャッシュによって制限される。
既存のメモリ削減技術(エヴィジョンや量子化など)は、しばしば静的ヒューリスティックに依存し、厳格な予算の下で劣化した品質に悩まされる。
本稿では,階層単位の注意力とトークンレベルの重要度に基づいて,キャッシュされたトークンに精度レベルを動的に割り当てる軽量で適応的なフレームワークARKVを提案する。
短時間のプリフィルフェーズにおいて、ARKVは、注意エントロピー、分散、クルトシスなどの統計スコアを計算することにより、各層の元の量子化(OQ)比を推定する。
デコード中、トークンは、高速なヘビーヒッタースコアリング戦略に従って、オリジナル(全精度)、量子化(低精度)またはエヴィクションの3つの状態のうちの1つに割り当てられる。
LLaMA3 と Qwen3 モデルを用いた各種長コンテキストおよび短コンテキストタスクに対する実験により,ARKV は長コンテキストベンチマークにおけるベースライン精度の約97% を保ち,KV メモリ使用率を 4 倍に削減し,スループット損失を最小限に抑えた。
短時間のタスクでは、ARKVは完全精度のベースラインと一致し、GSM8Kの数学的推論では、均一な量子化よりも大幅に優れる。
これらの結果は、拡張性のあるLLMデプロイメントのためのARKVの実用性を強調し、再トレーニングやアーキテクチャの変更なしに、きめ細かいデータ駆動型メモリ制御を提供する。
ソースコードとアーティファクトは以下の通りである。 https://github.com/Large-scale-Sustainable-LSC/ARKV
関連論文リスト
- DeltaKV: Residual-Based KV Cache Compression via Long-Range Similarity [50.52392445266824]
そこで本稿では,KV表現における長距離間類似性と高共有遅延成分を動機とする残差ベースのKVキャッシュ圧縮フレームワークを提案する。
DeltaKVはトークンを捨てる代わりに、検索した履歴参照に対するセマンティックな残基をエンコードし、保存を著しく削減する。
実験によると、DeltaKVは、LongBench、SCBench、AIMEでほぼロスレスの精度を維持しながら、KVキャッシュメモリを元の29%に削減している。
論文 参考訳(メタデータ) (2026-02-08T15:14:36Z) - Cache What Lasts: Token Retention for Memory-Bounded KV Cache in LLMs [26.951325519894525]
本稿では,軽量保持ゲートを介して各トークンの創出時の本質的な重要性を学習する手法を提案する。
我々は,特に低メモリ環境において,強い信念と学習可能な検索ベースラインを一貫して上回ることを示す。
一部の設定ではフルキャッシュモデルを超えており、選択的な保持が正規化の一形態として機能することを示している。
論文 参考訳(メタデータ) (2025-12-03T00:20:35Z) - KV-Efficient VLA: A Method of Speed up Vision Language Model with RNN-Gated Chunked KV Cache [0.9238700679836854]
VLA(Vision-Language-Action)モデルは、ロボットの認識と制御の統一を約束するが、そのスケーラビリティは、長軸推論における注意の二次的コストとキー値(KV)メモリの非有界成長によって制約される。
KV-Efficient VLAは、高ユーティリティコンテキストを選択的に保持する軽量なトレーニングフレンドリーなメカニズムを導入することで、これらの制限に対処するモデルに依存しないメモリ圧縮フレームワークである。
提案手法は,既存の自己回帰およびハイブリッドVLAスタックにシームレスに統合し,トレーニングパイプラインや下流制御ロジックを変更することなく,スケーラブルな推論を可能にする。
論文 参考訳(メタデータ) (2025-09-20T02:04:24Z) - SCBench: A KV Cache-Centric Analysis of Long-Context Methods [61.025422435235456]
KVキャッシュ中心の視点から長文の手法を評価するベンチマークであるSCBenchを紹介する。
我々は、Gated Linear RNNsやMamba-Attention Hybridsを含む8つのカテゴリの長期コンテキストソリューションについて、広範なKVキャッシュ中心の分析を行う。
本研究は,O(n)メモリとサブO(n2)プリフィルによるスパース符号化が堅牢に動作する一方で,サブO(n)メモリ手法がマルチターンシナリオに悩まされていることを示す。
論文 参考訳(メタデータ) (2024-12-13T17:59:52Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。