論文の概要: Rotation-Aligned Key Channel Pruning for Efficient Vision-Language Model Inference
- arxiv url: http://arxiv.org/abs/2605.19218v1
- Date: Tue, 19 May 2026 00:45:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.043749
- Title: Rotation-Aligned Key Channel Pruning for Efficient Vision-Language Model Inference
- Title(参考訳): 効率的な視覚・言語モデル推論のための回転アライメントキーチャネルプルーニング
- Authors: Beomseok Kang, Dongwon Jo, Jiwon Song, Donghwee Son, Jae-Joon Kim,
- Abstract要約: ビジョンランゲージモデル(Vision-Language Model)は、単一のイメージが数千のトークンにエンコードされるため、推論時に厳しいKVキャッシュ圧力を被る。
既存のほとんどの手法はトークンプルーニングによってトークンの空白を悪用するが、視覚的コンテンツを永久に破棄することでかなりの劣化を引き起こす。
回転型構造化キーチャネルプルーニングフレームワークであるRotateKを開発した。
- 参考スコア(独自算出の注目度): 12.99113243259336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models suffer severe KV cache pressure at inference, as a single image often encodes into thousands of tokens. Most existing methods exploit token sparsity through token pruning, but permanently discarding visual content causes substantial degradation on fine-grained perception tasks. This motivates a complementary axis, feature sparsity: under a fixed KV cache budget, compressing the channel dimension preserves more visual tokens at the same memory cost. Prior Key channel pruning methods, however, face a structural trade-off: token-wise channel pruning is expressive but unstructured and slow, while head-wise approach is hardware-friendly but less robust. We resolve this with RotateK, a rotation-based structured Key channel pruning framework. RotateK applies an online PCA-based rotation that aligns token-dependent channel importance into a shared low-dimensional subspace, enabling accurate pruning under lightweight head-wise masks; a fused Triton attention kernel operates directly on sparse-channel Keys for efficient decoding. Experiments on two representative VLM backbones show that RotateK consistently outperforms prior Key channel pruning in both accuracy and decoding latency, while joint token-channel pruning improves over token-only baselines at matched KV cache budgets.
- Abstract(参考訳): ビジョンランゲージモデル(Vision-Language Model)は、単一のイメージが数千のトークンにエンコードされるため、推論時に厳しいKVキャッシュ圧力を被る。
既存のほとんどの手法はトークンプルーニングによってトークンの空間性を悪用するが、視覚的コンテンツを永久に破棄することで、きめ細かい知覚タスクが大幅に劣化する。
固定KVキャッシュ予算の下では、チャネル次元を圧縮することで、同じメモリコストでより多くのビジュアルトークンを保存できる。
トークン・ワイド・チャネル・プルーニングは表現力があるが、非構造的で遅く、ヘッド・ワイド・アプローチはハードウェアフレンドリーだが、ロバストではない。
回転型構造化キーチャネルプルーニングフレームワークであるRotateKでこれを解決する。
RotateKは、トークン依存チャネルの重要度を共有低次元のサブスペースに整合させるオンラインPCAベースのローテーションを適用し、軽量な頭部マスクの下で正確なプルーニングを可能にする。
2つの代表的なVLMバックボーンの実験では、RotateKはキーチャネルプルーニングの精度とデコード遅延の両方で一貫してパフォーマンスが向上し、一方、ジョイントトークンチャネルプルーニングは一致するKVキャッシュ予算においてトークンのみのベースラインよりも改善されている。
関連論文リスト
- OScaR: The Occam's Razor for Extreme KV Cache Quantization in LLMs and Beyond [50.440302567029654]
マルチモーダルインテリジェンスにより、Key-Valueキャッシュは効率的なデプロイメントのための主要なメモリボトルネックとなった。
本研究では、チャネルごとの量子化パラダイムの本質的な限界を再考する。
X-LLMのための高精度かつ軽量なKVキャッシュ圧縮フレームワークOScaRを提案する。
論文 参考訳(メタデータ) (2026-05-19T10:53:03Z) - Dual-Channel Attention Guidance for Training-Free Image Editing Control in Diffusion Transformers [11.772150619675527]
既存のアテンション操作手法は、アテンションルーティングを変調するキー空間のみにフォーカスする。
本稿では,キーチャネルとバリューチャネルの両方を同時に操作するためのDual-Channel Attention Guidance (DCAG)を提案する。
DCAGは、すべての忠実度指標でキーのみのガイダンスを一貫して上回る。
論文 参考訳(メタデータ) (2026-02-20T06:24:20Z) - KV-Latent: Dimensional-level KV Cache Reduction with Frequency-aware Rotary Positional Embedding [72.12756830560217]
Transformer Decodersをベースとした大規模言語モデル(LLM)が、会話生成AIの選択肢として好まれている。
デコーダアーキテクチャの全体的な優位性にもかかわらず、推論中にキーバリューキャッシュが徐々に増加し、主要な効率ボトルネックとなっている。
キーバリューベクトル次元を潜在空間にダウンサンプリングすることで、KVキャッシュのフットプリントを大幅に削減し、推論速度を向上させることができる。
論文 参考訳(メタデータ) (2025-07-15T12:52:12Z) - More Tokens, Lower Precision: Towards the Optimal Token-Precision Trade-off in KV Cache Compression [71.42818367729573]
大規模言語モデル(LLM)では、KVキャッシュのメモリ使用量は推論において重大なボトルネックとなっている。
KVプルーニングやKV量子化を含む主流のKV圧縮法は、主にトークンまたは精度寸法を別々に扱う。
本稿では,KVキャッシュ圧縮におけるトークン精度トレードオフを包括的に検討する。
論文 参考訳(メタデータ) (2024-12-17T09:20:31Z) - Automatic Channel Pruning for Multi-Head Attention [0.11049608786515838]
マルチヘッドアテンション機構を考慮した自動チャネルプルーニング手法を提案する。
ImageNet-1Kでは、FLatten Transformerにプルーニング法を適用し、いくつかのMACの精度が向上した。
論文 参考訳(メタデータ) (2024-05-31T14:47:20Z) - Keyformer: KV Cache Reduction through Key Tokens Selection for Efficient Generative Inference [2.8241099113277666]
キーフォーマー」は、KVキャッシュサイズとメモリ帯域幅利用に関する課題を軽減する革新的な推論時アプローチである。
我々はKeyformerの性能を,GPT-J,Cerebras-GPT,MPTの3つの基礎モデルで評価した。
論文 参考訳(メタデータ) (2024-03-14T02:42:42Z) - CAIT: Triple-Win Compression towards High Accuracy, Fast Inference, and Favorable Transferability For ViTs [89.79139531731637]
ビジョントランスフォーマー (ViT) は様々なビジョンタスクの最先端モデルとして登場した。
本稿では,高次アンダーライン精度,高速アンダーライン推論速度,下流タスクに対する好適なアンダーライン変換性を両立させたViTの合同アンダーライン圧縮法を提案する。
論文 参考訳(メタデータ) (2023-09-27T16:12:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。