論文の概要: AMS-KV: Adaptive KV Caching in Multi-Scale Visual Autoregressive Transformers
- arxiv url: http://arxiv.org/abs/2511.16047v1
- Date: Thu, 20 Nov 2025 05:10:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.473917
- Title: AMS-KV: Adaptive KV Caching in Multi-Scale Visual Autoregressive Transformers
- Title(参考訳): AMS-KV:マルチスケール視覚自己回帰変換器における適応KVキャッシング
- Authors: Boxun Xu, Yu Wang, Zihu Wang, Peng Li,
- Abstract要約: 大規模言語モデル(LLM)におけるキー・アンド・バリュー(KV)キャッシングは広く研究されているが、次のスケールの予測には固有の課題がある。
本稿では,VARモデルにおける次のスケール予測のためのスケール適応型KVキャッシュポリシであるAMS-KVを紹介する。
バニラの次世代予測ベースVARモデルと比較すると、AMS-KVはKVキャッシュ使用量を最大84.83%削減し、自己保持遅延を60.48%削減する。
- 参考スコア(独自算出の注目度): 6.1675897118034975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual autoregressive modeling (VAR) via next-scale prediction has emerged as a scalable image generation paradigm. While Key and Value (KV) caching in large language models (LLMs) has been extensively studied, next-scale prediction presents unique challenges, and KV caching design for next-scale based VAR transformers remains largely unexplored. A major bottleneck is the excessive KV memory growth with the increasing number of scales-severely limiting scalability. Our systematic investigation reveals that: (1) Attending to tokens from local scales significantly contributes to generation quality (2) Allocating a small amount of memory for the coarsest scales, termed as condensed scales, stabilizes multi-scale image generation (3) Strong KV similarity across finer scales is predominantly observed in cache-efficient layers, whereas cache-demanding layers exhibit weaker inter-scale similarity. Based on the observations, we introduce AMS-KV, a scale-adaptive KV caching policy for next-scale prediction in VAR models. AMS-KV prioritizes storing KVs from condensed and local scales, preserving the most relevant tokens to maintain generation quality. It further optimizes KV cache utilization and computational efficiency identifying cache-demanding layers through inter-scale similarity analysis. Compared to the vanilla next-scale prediction-based VAR models, AMS-KV reduces KV cache usage by up to 84.83% and self-attention latency by 60.48%. Moreover, when the baseline VAR-d30 model encounters out-of-memory failures at a batch size of 128, AMS-KV enables stable scaling to a batch size of 256 with improved throughput.
- Abstract(参考訳): 次世代の予測による視覚自己回帰モデリング(VAR)は、スケーラブルな画像生成パラダイムとして登場した。
大規模言語モデル(LLM)におけるキー・アンド・バリュー(KV)キャッシングは広く研究されているが、次のスケールの予測には固有の課題があり、次のスケールベースのVARトランスのためのKVキャッシング設計はほとんど未検討である。
最大のボトルネックはKVメモリの過剰な成長であり、スケーラビリティを著しく制限するスケールの増加である。
1) 局所スケールからのトークンの処理は, 生成品質に大きく寄与する(2) 縮合スケールと呼ばれる粗大スケールのメモリの確保, マルチスケール画像生成の安定化 (3) 微細スケール間のKV類似性がキャッシュ効率の高い層で主に観察されるのに対して, キャッシュ要求層は, スケール間類似性が弱い。
観測結果に基づいて,VARモデルにおける次規模予測のためのスケール適応型KVキャッシングポリシであるAMS-KVを導入する。
AMS-KVは、KVを凝縮したスケールと局所的なスケールから保存することを優先し、生成品質を維持するために最も関連するトークンを保存する。
さらに、スケール間の類似性分析により、KVキャッシュ利用率とキャッシュ要求層を特定する計算効率を最適化する。
バニラの次世代予測ベースVARモデルと比較すると、AMS-KVはKVキャッシュ使用量を最大84.83%削減し、自己保持遅延を60.48%削減する。
さらに、ベースラインのVAR-d30モデルが128のバッチサイズでメモリ外障害に遭遇した場合、AMS-KVはスループットを改善して256のバッチサイズに安定したスケーリングを可能にする。
関連論文リスト
- KV-Efficient VLA: A Method of Speed up Vision Language Model with RNN-Gated Chunked KV Cache [0.9238700679836854]
VLA(Vision-Language-Action)モデルは、ロボットの認識と制御の統一を約束するが、そのスケーラビリティは、長軸推論における注意の二次的コストとキー値(KV)メモリの非有界成長によって制約される。
KV-Efficient VLAは、高ユーティリティコンテキストを選択的に保持する軽量なトレーニングフレンドリーなメカニズムを導入することで、これらの制限に対処するモデルに依存しないメモリ圧縮フレームワークである。
提案手法は,既存の自己回帰およびハイブリッドVLAスタックにシームレスに統合し,トレーニングパイプラインや下流制御ロジックを変更することなく,スケーラブルな推論を可能にする。
論文 参考訳(メタデータ) (2025-09-20T02:04:24Z) - KVComp: A High-Performance, LLM-Aware, Lossy Compression Framework for KV Cache [7.019967158501771]
長文生成に最適化された汎用的で効率的なKVキャッシュ管理フレームワークであるKVCompを提案する。
KVCompは、KVキャッシュデータ特性に特化して設計された新しい損失圧縮技術を採用している。
KVCompは,従来の手法に比べて最大83%のメモリ削減率で,平均47%,最大83%の高速化を実現している。
論文 参考訳(メタデータ) (2025-08-30T18:25:19Z) - Memory-Efficient Visual Autoregressive Modeling with Scale-Aware KV Cache Compression [21.840636839249026]
本稿では,Visual Autoregressive (VAR)アーキテクチャに適した新しいKVキャッシュ圧縮フレームワークであるScaleKVを紹介する。
2つの臨界観測に基づいて、ScaleKVはトランスフォーマー層を2つの機能群(ドラフトとリファインダー)に分類する。
提案手法は,画素レベルの忠実さを維持しながら,要求されるKVキャッシュメモリを10%に効果的に削減する。
論文 参考訳(メタデータ) (2025-05-26T07:11:42Z) - KVCrush: Key value cache size-reduction using similarity in head-behaviour [40.792661186062396]
大規模言語モデル(LLM)における推論を高速化する重要な最適化手法としてキーバリューキャッシュ(KV)が登場している。
しかしながら、KVのメモリフットプリントは、モデルのバッチサイズに直接影響を与えるモデルデプロイメントにおいて、大きなボトルネックとなります。
我々は,KVCrushと多くのKV圧縮技術を組み合わせることで,より小さなメモリでモデル精度を向上させることを提案する。
論文 参考訳(メタデータ) (2025-02-24T02:57:51Z) - KVSharer: Efficient Inference via Layer-Wise Dissimilar KV Cache Sharing [58.29726147780976]
我々は,層間をKVキャッシュで共有し,層間圧縮を実現する,textit KVSharerと呼ばれるプラグアンドプレイ方式を提案する。
実験の結果、textit KVSharerはKVキャッシュの計算を30%削減し、メモリ消費を削減できることがわかった。
我々は,textit KVSharerが既存の層内KVキャッシュ圧縮手法と互換性があることを検証する。
論文 参考訳(メタデータ) (2024-10-24T08:06:41Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - PyramidKV: Dynamic KV Cache Compression based on Pyramidal Information Funneling [38.732413451399]
ピラミッドKVは新規かつ効果的なKVキャッシュ圧縮法である。
提案手法は,KVキャッシュの12%しか保持せず,完全なKVキャッシュでモデルの性能と一致していることを示す。
Needle-in-a-Haystack実験では、Praamid KVは長文理解の維持において競合する手法より優れている。
論文 参考訳(メタデータ) (2024-06-04T07:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。