論文の概要: Bi-VLM: Pushing Ultra-Low Precision Post-Training Quantization Boundaries in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2509.18763v1
- Date: Tue, 23 Sep 2025 07:55:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.761895
- Title: Bi-VLM: Pushing Ultra-Low Precision Post-Training Quantization Boundaries in Vision-Language Models
- Title(参考訳): Bi-VLM:Vision-Languageモデルにおける極低精度後量子化境界のプッシュ
- Authors: Xijun Wang, Junyun Huang, Rayyan Abdalla, Chengyuan Zhang, Ruiqi Xian, Dinesh Manocha,
- Abstract要約: 本稿では,ガウス量子論に基づくモデル重みを非一様に分離するBi-VLMを提案する。
VLMの言語モデルでは、視覚的質問応答タスクにおいて、私たちのBi-VLMは、SOTAよりも3%-47%優れています。
VLM全体では、私たちのBi-VLMはSOTAよりも4%-45%優れています。
- 参考スコア(独自算出の注目度): 41.569153064451385
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We address the critical gap between the computational demands of vision-language models and the possible ultra-low-bit weight precision (bitwidth $\leq2$ bits) we can use for higher efficiency. Our work is motivated by the substantial computational cost and memory requirements of VLMs, which restrict their applicability in hardware-constrained environments. We propose Bi-VLM, which separates model weights non-uniformly based on the Gaussian quantiles. Our formulation groups the model weights into outlier (salient) and multiple inlier (unsalient) subsets, ensuring that each subset contains a proportion of weights corresponding to its quantile in the distribution. We propose a saliency-aware hybrid quantization algorithm and use it to quantize weights by imposing different constraints on the scaler and binary matrices based on the saliency metric and compression objective. We have evaluated our approach on different VLMs. For the language model part of the VLM, our Bi-VLM outperforms the SOTA by 3%-47% on the visual question answering task in terms of four different benchmarks and three different models. For the overall VLM, our Bi-VLM outperforms the SOTA by 4%-45%. We also perform token pruning on the quantized models and observe that there is redundancy of image tokens 90% - 99% in the quantized models. This helps us to further prune the visual tokens to improve efficiency.
- Abstract(参考訳): 視覚言語モデルの計算要求と超低ビット重量精度(bitwidth $\leq2$ bits)の間には、高い効率で使用できる重要なギャップがある。
我々の研究は、ハードウェア制約環境におけるVLMの適用性を制限する、相当な計算コストとメモリ要求によって動機付けられている。
本稿では,ガウス量子論に基づくモデル重みを非一様に分離するBi-VLMを提案する。
我々の定式化はモデルウェイトをアウトリー(正則)と複数インリー(非正則)のサブセットに分類し、各サブセットがその分布におけるその量子化に対応する重みの比率を確実にする。
本稿では,サリエンシを意識したハイブリッド量子化アルゴリズムを提案し,サリエンシ計量と圧縮目標に基づいて,スケーラとバイナリ行列に異なる制約を課すことにより重みを定量化する。
我々は、異なるVLMに対するアプローチを評価した。
VLMの言語モデル部では、4つの異なるベンチマークと3つの異なるモデルで視覚的質問応答タスクにおいて、私たちのBi-VLMは、SOTAよりも3%-47%優れています。
VLM全体では、私たちのBi-VLMはSOTAよりも4%-45%優れています。
また、量子化モデル上でトークンプルーニングを行い、量子化モデルには90%から99%の画像トークンの冗長性があることを観察する。
これにより、視覚的なトークンをさらに掘り下げて効率を向上させることができます。
関連論文リスト
- MBQ: Modality-Balanced Quantization for Large Vision-Language Models [20.018652727875367]
PTQ(Post-Training Quantization)は、メモリと計算オーバーヘッドを削減する効果的な手法である。
既存のPTQ手法は主に大きな言語モデル(LLM)に焦点をあてるが、他のモダリティの相違は考慮しない。
大規模な視覚言語モデルに対して,MBQ(Modality-Balanced Quantization)を提案する。
論文 参考訳(メタデータ) (2024-12-27T07:55:36Z) - VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks [60.5257456681402]
幅広い下流タスクを扱える普遍的な埋め込みを構築する可能性について検討する。
We build a series of VLM2Vec model on SoTA VLMs like Phi-3.5-V, LLaVA-1.6 and evaluate them on MMEB's evaluation split。
以上の結果から,VLM2Vecは既存のマルチモーダル埋め込みモデルよりも10%から20%の絶対的な平均的改善を実現していることがわかった。
論文 参考訳(メタデータ) (2024-10-07T16:14:05Z) - LeanQuant: Accurate and Scalable Large Language Model Quantization with Loss-error-aware Grid [36.33062038680275]
大規模言語モデル(LLM)は、様々な領域において大きな可能性を示している。
トレーニング後の量子化は、メモリ要求を減らし、遅延をデコードするための有望なテクニックとして登場した。
正確で汎用的でスケーラブルな新しい量子化手法であるLeanQuantを提案する。
論文 参考訳(メタデータ) (2024-07-14T00:23:51Z) - PTQ4SAM: Post-Training Quantization for Segment Anything [28.893095276574893]
Segment Anything Model (SAM)は多くのコンピュータビジョンタスクにおいて素晴らしいパフォーマンスを達成している。
しかし、大規模なモデルとして、膨大なメモリと計算コストが実際の展開を妨げている。
本稿では,Segment Anything Model(PTQ4SAM)の学習後量子化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-06T03:39:50Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。