Fugu-MT 論文翻訳(概要): Exploring the Limits of KV Cache Compression in Visual Autoregressive Transformers

論文の概要: Exploring the Limits of KV Cache Compression in Visual Autoregressive Transformers

arxiv url: http://arxiv.org/abs/2503.14881v1
Date: Wed, 19 Mar 2025 04:18:57 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-20 17:45:40.862171
Title: Exploring the Limits of KV Cache Compression in Visual Autoregressive Transformers
Title（参考訳）: 視覚自己回帰変換器におけるKVキャッシュ圧縮限界の探索
Authors: Bo Chen, Xiaoyu Li, Yekun Ke, Yingyu Liang, Zhenmei Shi, Zhao Song,
Abstract要約: 我々は、Visual Autoregressive TransformerのKV-cache圧縮問題を正式に定義する第一歩を踏み出す。次に、基本的な負の結果を確立し、シーケンシャルな視覚トークン生成のメカニズムが少なくとも$Omega(n2 d)$メモリを使用する必要があることを証明した。
参考スコア（独自算出の注目度）: 25.2590541420499
License: http://creativecommons.org/licenses/by/4.0/
Abstract: A fundamental challenge in Visual Autoregressive models is the substantial memory overhead required during inference to store previously generated representations. Despite various attempts to mitigate this issue through compression techniques, prior works have not explicitly formalized the problem of KV-cache compression in this context. In this work, we take the first step in formally defining the KV-cache compression problem for Visual Autoregressive transformers. We then establish a fundamental negative result, proving that any mechanism for sequential visual token generation under attention-based architectures must use at least $\Omega(n^2 d)$ memory, when $d = \Omega(\log n)$, where $n$ is the number of tokens generated and $d$ is the embedding dimensionality. This result demonstrates that achieving truly sub-quadratic memory usage is impossible without additional structural constraints. Our proof is constructed via a reduction from a computational lower bound problem, leveraging randomized embedding techniques inspired by dimensionality reduction principles. Finally, we discuss how sparsity priors on visual representations can influence memory efficiency, presenting both impossibility results and potential directions for mitigating memory overhead.
Abstract（参考訳）: Visual Autoregressiveモデルにおける根本的な課題は、以前生成された表現を保存するために推論時に必要となるメモリオーバーヘッドである。圧縮技術によってこの問題を緩和しようとする様々な試みにもかかわらず、以前の研究はこの文脈でKV-cache圧縮の問題を明示的に定式化していない。本研究では,Visual Autoregressive TransformerのKV-cache圧縮問題を正式に定義する第一歩を踏み出す。次に、注意に基づくアーキテクチャの下での逐次的な視覚トークン生成のメカニズムは、少なくとも$\Omega(n^2 d)$メモリを使用する必要があることを証明し、$d = \Omega(\log n)$, $n$はトークンの個数であり、$d$は埋め込み次元であることを示す。この結果は、構造的な制約を伴わずに、真にサブクオーラメモリの使用を達成することは不可能であることを示している。我々の証明は,次元減少原理に着想を得たランダムな埋め込み手法を利用して,計算下界問題からの還元によって構築される。最後に,視覚的表現における空間的偏差がメモリ効率にどのように影響するかを論じ,メモリオーバーヘッドを軽減するための非可視性結果と潜在的方向の両方を提示する。

関連論文リスト

ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [81.81027217759433]
大きな言語モデル(LLM)はキーバリュー(KV)キャッシュを保存するのに必要な過剰なメモリによって制約されることが多い。近年,KVキャッシュの隠蔽次元の低減について検討されている。本稿では,KVキャッシュの隠れ次元を削減した後学習KVキャッシュ圧縮手法ReCalKVを提案する。
論文参考訳（メタデータ） (2025-05-30T08:49:27Z)
Bottlenecked Transformers: Periodic KV Cache Abstraction for Generalised Reasoning [9.730604030100318]
大規模言語モデルは、トレーニング分布を超えて一般化に苦しむ。 IB理論は、モデル一般化は入力圧縮と潜在表現における予測情報の保持の間の最適バランスから生じると仮定している。本稿では,デコーダのみのトランスフォーマーが,タスク最適シーケンス表現を形成する能力に本質的に制約されていることを示す。我々は,KVキャッシュをグローバルに書き換える追加モジュールの形で,Transformerアーキテクチャの変更を提案する。
論文参考訳（メタデータ） (2025-05-22T17:33:49Z)
Rethinking Key-Value Cache Compression Techniques for Large Language Model Serving [23.2180736755494]
キーバリューキャッシュ(textttKV texttcache)圧縮は、LLM(Large Language Model)サービスを最適化するための有望なテクニックとして登場した。主にtextttKV textttcache のメモリ消費を削減し、計算コストを削減する。多くの圧縮アルゴリズムが開発されているが、本番環境での応用はまだ一般的ではない。
論文参考訳（メタデータ） (2025-03-31T12:23:31Z)
Compression Barriers for Autoregressive Transformers [0.8331054243801623]
自己回帰変換器の鍵となる制限は、以前のキー値の埋め込みをキャッシュするために必要な大きなメモリである。任意のアルゴリズムが$Omega(dcdot ed)$空間を必要としていることを示し、ザンディー、ハン、ミロクニ、カルバシによって提案された SubGen の被覆数に対する厳密な境界を用いて証明する。
論文参考訳（メタデータ） (2025-02-21T21:37:52Z)
PrefixKV: Adaptive Prefix KV Cache is What Vision Instruction-Following Models Need for Efficient Generation [65.36715026409873]
キー値(KV)キャッシュは、長い入力シーケンスと出力シーケンスを必要とするが、特に高い推論コストに寄与する。ここでは,すべてのレイヤのKVキャッシュサイズを決定するという課題を,最適なグローバルプレフィックス設定を探すタスクに再編成するPrefixKVを提案する。本手法は他の手法と比較して最先端の性能を実現する。
論文参考訳（メタデータ） (2024-12-04T15:48:59Z)
LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文参考訳（メタデータ） (2024-10-04T03:10:53Z)
Reducing Fine-Tuning Memory Overhead by Approximate and Memory-Sharing Backpropagation [29.139579820699495]
この研究は、活性化関数と層正規化の観点から微調整におけるメモリオーバーヘッドを低減することを目的としている。提案手法をバックプロパゲーショントレーニングに適用し,GELUおよびSiLU活性化関数のメモリ効率の代替を導出する。さらに、メモリ共有バックプロパゲーション戦略を導入し、アクティベーションメモリを2つの隣接層で共有できるようにする。
論文参考訳（メタデータ） (2024-06-24T03:09:15Z)
GEAR: An Efficient KV Cache Compression Recipe for Near-Lossless Generative Inference of LLM [37.87634266742105]
キーバリュー(KV)キャッシングは,大規模言語モデル(LLM)推論における生成速度を高速化するデファクトとなっている。既存の方法は、重要でないトークンをドロップしたり、全てのエントリを均一に定量化することに依存している。本稿では,高速なKVキャッシュ圧縮フレームワークであるGEARを提案する。
論文参考訳（メタデータ） (2024-03-08T18:48:30Z)
Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文参考訳（メタデータ） (2024-02-14T18:54:56Z)
Topology-aware Embedding Memory for Continual Learning on Expanding Networks [63.35819388164267]
本稿では,メモリリプレイ技術を用いて,メモリ爆発問題に対処する枠組みを提案する。 Topology-aware Embedding Memory (TEM) を用いたPDGNNは最先端技術よりも優れている。
論文参考訳（メタデータ） (2024-01-24T03:03:17Z)
LoMA: Lossless Compressed Memory Attention [0.0]
Lossless Compressed Memory Attention (LoMA) は、自己回帰生成時のメモリと計算要求を減らす新しいアプローチである。 LoMAには、圧縮コンテキストに最適化された自己回帰生成アルゴリズムとともに、特別なトレーニングや微調整の事前処理が組み込まれている。実験的検証により、LoMAは計算消費とメモリ使用量を大幅に削減した。
論文参考訳（メタデータ） (2024-01-16T09:18:46Z)
H$_2$O: Heavy-Hitter Oracle for Efficient Generative Inference of Large Language Models [110.06476624089679]
メモリフットプリントを大幅に削減する新しいKVキャッシュの実装手法を提案する。我々のアプローチは、トークンのごく一部が、注意点の計算において、ほとんどの価値に寄与する、という観察に基づいている。我々は,最近のトークンとH$のバランスを動的に保持するKVキャッシュ消去ポリシーであるヘビーヒッター(H$O)を提案する。
論文参考訳（メタデータ） (2023-06-24T20:11:14Z)
DiffRate : Differentiable Compression Rate for Efficient Vision Transformers [98.33906104846386]
Token圧縮は、プルーニング(ドロップ)やトークンのマージによって、大規模な視覚変換器(ViTなど)を高速化することを目的としている。 DiffRate(ディフレート)は、先行技術にはないいくつかの魅力的な特性を持つ新しいトークン圧縮手法である。
論文参考訳（メタデータ） (2023-05-29T10:15:19Z)
Learning sparse auto-encoders for green AI image coding [5.967279020820772]
本稿では,メモリフットプリントが小さく,計算能力の少ないCAEを用いた画像圧縮の損失問題に対処する。制約付きアプローチと新しい構造化スパース学習手法を提案する。実験結果から,$ell_1,1$制約は最も構造化された近位間隔を提供し,メモリと計算コストの低減を図っている。
論文参考訳（メタデータ） (2022-09-09T06:31:46Z)
ABC: Attention with Bounded-memory Control [67.40631793251997]
我々は,有界メモリ制御 (ABC) を1つの抽象概念,すなわち有界メモリ制御 (ABC) に仮定できることを示した。 ABCが新たな可能性を明らかにしました。まずは、他の方法では見分けがつかないような、効率的なアテンションのバリエーションを接続します。最後に,既存のABCアプローチからインスピレーションを得たABCの新しい事例を紹介する。
論文参考訳（メタデータ） (2021-10-06T03:53:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。