論文の概要: QSVD: Efficient Low-rank Approximation for Unified Query-Key-Value Weight Compression in Low-Precision Vision-Language Models
- arxiv url: http://arxiv.org/abs/2510.16292v1
- Date: Sat, 18 Oct 2025 01:31:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.931141
- Title: QSVD: Efficient Low-rank Approximation for Unified Query-Key-Value Weight Compression in Low-Precision Vision-Language Models
- Title(参考訳): QSVD:低精度ビジョンランゲージモデルにおける統一クエリキー値重み圧縮のための効率的な低ランク近似
- Authors: Yutong Wang, Haiyu Wang, Sai Qian Zhang,
- Abstract要約: VLM(Vision-Language Models)は、画像キャプションや視覚的質問応答といったタスクに不可欠なモデルである。
大規模なメモリフットプリントと処理時間によって駆動される高い計算コストは、スケーラビリティとリアルタイム適用性を制限します。
結合クエリ(Q),キー(K),値(V)重み行列に対して,Singular-Value Decomposition(SVD)を活用することで,KVキャッシュサイズと計算オーバーヘッドを低減することを提案する。
- 参考スコア(独自算出の注目度): 13.850959421148273
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Vision-Language Models (VLMs) are integral to tasks such as image captioning and visual question answering, but their high computational cost, driven by large memory footprints and processing time, limits their scalability and real-time applicability. In this work, we propose leveraging Singular-Value Decomposition (SVD) over the joint query (Q), key (K), and value (V) weight matrices to reduce KV cache size and computational overhead. We in addition introduce an efficient rank allocation strategy that dynamically adjusts the SVD rank based on its impact on VLM accuracy, achieving a significant reduction in both memory usage and computational cost. Finally, we extend this approach by applying quantization to both VLM weights and activations, resulting in a highly efficient VLM. Our method outperforms previous approaches that rely solely on quantization or SVD by achieving more than $10\%$ accuracy improvement while consuming less hardware cost, making it better for real-time deployment on resource-constrained devices. We open source our code at \href{https://github.com/SAI-Lab-NYU/QSVD}{\texttt{https://github.com/SAI-Lab-NYU/QSVD}}.
- Abstract(参考訳): VLM(Vision-Language Models)は画像キャプションや視覚的質問応答といったタスクに不可欠なものだが、大きなメモリフットプリントと処理時間によって駆動される計算コストが高く、スケーラビリティとリアルタイムな適用性を制限している。
本研究では,結合クエリ(Q),キー(K),値(V)重み行列に対して,Singular-Value Decomposition(SVD)を活用することで,KVキャッシュサイズと計算オーバーヘッドを低減することを提案する。
さらに,VLM精度への影響に基づいてSVDランクを動的に調整し,メモリ使用量と計算コストの両方を大幅に削減する,効率的なランク割り当て戦略を導入する。
最後に、VLM重みとアクティベーションの両方に量子化を適用することにより、このアプローチを拡張し、高効率なVLMを実現する。
本手法は,ハードウェアコストの低減を図り,定量化やSVDのみに依存した従来の手法よりも優れている。
当社のコードをオープンソースにするのは,‘https://github.com/SAI-Lab-NYU/QSVD}{\texttt{https://github.com/SAI-Lab-NYU/QSVD}} です。
関連論文リスト
- Bi-VLM: Pushing Ultra-Low Precision Post-Training Quantization Boundaries in Vision-Language Models [41.569153064451385]
本稿では,ガウス量子論に基づくモデル重みを非一様に分離するBi-VLMを提案する。
VLMの言語モデルでは、視覚的質問応答タスクにおいて、私たちのBi-VLMは、SOTAよりも3%-47%優れています。
VLM全体では、私たちのBi-VLMはSOTAよりも4%-45%優れています。
論文 参考訳(メタデータ) (2025-09-23T07:55:48Z) - When Big Models Train Small Ones: Label-Free Model Parity Alignment for Efficient Visual Question Answering using Small VLMs [4.296395082987112]
L-VLM(Large Vision-Language Models)は、様々な視覚や言語タスクにおいて顕著な性能を示す。
小型ビジョンランゲージモデル (Small Vision-Language Models, S-VLM) は効率性を提供するが、より大きなモデルに比べて大きな性能差がある。
本稿では,S-VLM を体系的に改善する新しいフレームワークである Model Parity Aligner (MPA) を紹介する。
論文 参考訳(メタデータ) (2025-09-20T11:12:23Z) - Quantize What Counts: More for Keys, Less for Values [63.51476878610841]
大規模言語モデル(LLM)は、キーバリュー(KV)キャッシュに支配される推論時のメモリボトルネックに悩まされる。
本稿ではトランスフォーマーモデルの内在幾何学における混合精度KV量子化を固定する2つの定理を提案する。
論文 参考訳(メタデータ) (2025-02-20T22:24:27Z) - AdaSVD: Adaptive Singular Value Decomposition for Large Language Models [75.1196637934987]
Singular Value Decomposition (SVD) は,大規模言語モデル(LLM)の有望な圧縮手法として登場した。
既存のSVDベースの手法は、SVDトランケーションによって引き起こされるエラーを効果的に軽減するために苦労することが多い。
適応SVDに基づくLLM圧縮手法であるAdaSVDを提案する。
論文 参考訳(メタデータ) (2025-02-03T14:34:37Z) - Inference Optimal VLMs Need Fewer Visual Tokens and More Parameters [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
推論コストを削減するために、LLM(Large Language Models)を縮小するか、イメージを表すのに必要な入力トークンの数を削減できる。
高速圧縮に適したトークン圧縮アルゴリズムを設計する第一歩を踏み出す。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z) - ZipVL: Efficient Large Vision-Language Models with Dynamic Token Sparsification [29.163757099307553]
大規模視覚言語モデル(LVLM)の効率は、プリフィルフェーズにおける注意機構の計算ボトルネックによって制約される。
本稿では,重要なトークンの動的比割り当て戦略を通じて,LVLM向けに設計された効率的な推論フレームワークZipVLを提案する。
論文 参考訳(メタデータ) (2024-10-11T07:24:21Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。