論文の概要: Memory-Efficient Visual Autoregressive Modeling with Scale-Aware KV Cache Compression
- arxiv url: http://arxiv.org/abs/2505.19602v1
- Date: Mon, 26 May 2025 07:11:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.234975
- Title: Memory-Efficient Visual Autoregressive Modeling with Scale-Aware KV Cache Compression
- Title(参考訳): スケール対応KVキャッシュ圧縮を用いたメモリ効率の良いビジュアル自己回帰モデリング
- Authors: Kunjun Li, Zigeng Chen, Cheng-Yen Yang, Jenq-Neng Hwang,
- Abstract要約: 本稿では,Visual Autoregressive (VAR)アーキテクチャに適した新しいKVキャッシュ圧縮フレームワークであるScaleKVを紹介する。
2つの臨界観測に基づいて、ScaleKVはトランスフォーマー層を2つの機能群(ドラフトとリファインダー)に分類する。
提案手法は,画素レベルの忠実さを維持しながら,要求されるKVキャッシュメモリを10%に効果的に削減する。
- 参考スコア(独自算出の注目度): 21.840636839249026
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual Autoregressive (VAR) modeling has garnered significant attention for its innovative next-scale prediction approach, which yields substantial improvements in efficiency, scalability, and zero-shot generalization. Nevertheless, the coarse-to-fine methodology inherent in VAR results in exponential growth of the KV cache during inference, causing considerable memory consumption and computational redundancy. To address these bottlenecks, we introduce ScaleKV, a novel KV cache compression framework tailored for VAR architectures. ScaleKV leverages two critical observations: varying cache demands across transformer layers and distinct attention patterns at different scales. Based on these insights, ScaleKV categorizes transformer layers into two functional groups: drafters and refiners. Drafters exhibit dispersed attention across multiple scales, thereby requiring greater cache capacity. Conversely, refiners focus attention on the current token map to process local details, consequently necessitating substantially reduced cache capacity. ScaleKV optimizes the multi-scale inference pipeline by identifying scale-specific drafters and refiners, facilitating differentiated cache management tailored to each scale. Evaluation on the state-of-the-art text-to-image VAR model family, Infinity, demonstrates that our approach effectively reduces the required KV cache memory to 10% while preserving pixel-level fidelity.
- Abstract(参考訳): Visual Autoregressive (VAR) モデリングは、その革新的な次世代の予測アプローチにおいて大きな注目を集めており、効率性、スケーラビリティ、ゼロショットの一般化が大幅に改善されている。
それでも、VARに固有の粗大な手法は、推論中にKVキャッシュが指数関数的に増加し、メモリ消費と計算冗長性がかなり高くなる。
これらのボトルネックに対処するために,VARアーキテクチャに適した新しいKVキャッシュ圧縮フレームワークであるScaleKVを紹介する。
ScaleKVは、トランスフォーマー層にまたがるキャッシュ要求の変化と、異なるスケールでの注意パターンの2つの重要な観察を活用する。
これらの洞察に基づいて、ScaleKVはトランスフォーマー層を2つの機能グループに分類する。
引き渡しは、複数のスケールに分散した注意を示し、これによりキャッシュ容量が増大する。
逆に、リファインダは現在のトークンマップに注目してローカルの詳細を処理するため、キャッシュ容量を大幅に削減する必要がある。
ScaleKVは、スケール固有のドラフトラとリファインダを識別することで、マルチスケールの推論パイプラインを最適化し、スケール毎に調整された差分キャッシュ管理を容易にする。
Infinityは,画素レベルの忠実さを保ちながら,必要なKVキャッシュメモリを10%に効果的に削減できることを実証する。
関連論文リスト
- KVSharer: Efficient Inference via Layer-Wise Dissimilar KV Cache Sharing [58.29726147780976]
我々は,層間をKVキャッシュで共有し,層間圧縮を実現する,textit KVSharerと呼ばれるプラグアンドプレイ方式を提案する。
実験の結果、textit KVSharerはKVキャッシュの計算を30%削減し、メモリ消費を削減できることがわかった。
我々は,textit KVSharerが既存の層内KVキャッシュ圧縮手法と互換性があることを検証する。
論文 参考訳(メタデータ) (2024-10-24T08:06:41Z) - Lossless KV Cache Compression to 2% [22.98828332096935]
この研究は、KVキャッシュを元のサイズの2%未満に圧縮することを目的とした、新しいアーキテクチャであるCLLA(Cross-Layer Latent Attention)を導入している。
CLLAは、アテンションヘッド/ディメンション低減、レイヤ共有、量子化技術を結合的なフレームワークに統合する。
論文 参考訳(メタデータ) (2024-10-20T02:17:35Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - PyramidKV: Dynamic KV Cache Compression based on Pyramidal Information Funneling [38.732413451399]
ピラミッドKVは新規かつ効果的なKVキャッシュ圧縮法である。
提案手法は,KVキャッシュの12%しか保持せず,完全なKVキャッシュでモデルの性能と一致していることを示す。
Needle-in-a-Haystack実験では、Praamid KVは長文理解の維持において競合する手法より優れている。
論文 参考訳(メタデータ) (2024-06-04T07:51:30Z) - QAQ: Quality Adaptive Quantization for LLM KV Cache [3.163526369095745]
モデルデプロイメントのボトルネックは、コンテキスト長のキーバリューキャッシュの線形拡張によって生じる。
KVキャッシュのための品質適応量子化スキームQAQを提案する。
論文 参考訳(メタデータ) (2024-03-07T16:42:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。