論文の概要: Bi-VLM: Pushing Ultra-Low Precision Post-Training Quantization Boundaries in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2509.18763v1
- Date: Tue, 23 Sep 2025 07:55:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.761895
- Title: Bi-VLM: Pushing Ultra-Low Precision Post-Training Quantization Boundaries in Vision-Language Models
- Title(参考訳): Bi-VLM:Vision-Languageモデルにおける極低精度後量子化境界のプッシュ
- Authors: Xijun Wang, Junyun Huang, Rayyan Abdalla, Chengyuan Zhang, Ruiqi Xian, Dinesh Manocha,
- Abstract要約: 本稿では,ガウス量子論に基づくモデル重みを非一様に分離するBi-VLMを提案する。
VLMの言語モデルでは、視覚的質問応答タスクにおいて、私たちのBi-VLMは、SOTAよりも3%-47%優れています。
VLM全体では、私たちのBi-VLMはSOTAよりも4%-45%優れています。
- 参考スコア(独自算出の注目度): 41.569153064451385
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We address the critical gap between the computational demands of vision-language models and the possible ultra-low-bit weight precision (bitwidth $\leq2$ bits) we can use for higher efficiency. Our work is motivated by the substantial computational cost and memory requirements of VLMs, which restrict their applicability in hardware-constrained environments. We propose Bi-VLM, which separates model weights non-uniformly based on the Gaussian quantiles. Our formulation groups the model weights into outlier (salient) and multiple inlier (unsalient) subsets, ensuring that each subset contains a proportion of weights corresponding to its quantile in the distribution. We propose a saliency-aware hybrid quantization algorithm and use it to quantize weights by imposing different constraints on the scaler and binary matrices based on the saliency metric and compression objective. We have evaluated our approach on different VLMs. For the language model part of the VLM, our Bi-VLM outperforms the SOTA by 3%-47% on the visual question answering task in terms of four different benchmarks and three different models. For the overall VLM, our Bi-VLM outperforms the SOTA by 4%-45%. We also perform token pruning on the quantized models and observe that there is redundancy of image tokens 90% - 99% in the quantized models. This helps us to further prune the visual tokens to improve efficiency.
- Abstract(参考訳): 視覚言語モデルの計算要求と超低ビット重量精度(bitwidth $\leq2$ bits)の間には、高い効率で使用できる重要なギャップがある。
我々の研究は、ハードウェア制約環境におけるVLMの適用性を制限する、相当な計算コストとメモリ要求によって動機付けられている。
本稿では,ガウス量子論に基づくモデル重みを非一様に分離するBi-VLMを提案する。
我々の定式化はモデルウェイトをアウトリー(正則)と複数インリー(非正則)のサブセットに分類し、各サブセットがその分布におけるその量子化に対応する重みの比率を確実にする。
本稿では,サリエンシを意識したハイブリッド量子化アルゴリズムを提案し,サリエンシ計量と圧縮目標に基づいて,スケーラとバイナリ行列に異なる制約を課すことにより重みを定量化する。
我々は、異なるVLMに対するアプローチを評価した。
VLMの言語モデル部では、4つの異なるベンチマークと3つの異なるモデルで視覚的質問応答タスクにおいて、私たちのBi-VLMは、SOTAよりも3%-47%優れています。
VLM全体では、私たちのBi-VLMはSOTAよりも4%-45%優れています。
また、量子化モデル上でトークンプルーニングを行い、量子化モデルには90%から99%の画像トークンの冗長性があることを観察する。
これにより、視覚的なトークンをさらに掘り下げて効率を向上させることができます。
関連論文リスト
- QVLA: Not All Channels Are Equal in Vision-Language-Action Model's Quantization [29.21308068128823]
具体化制御に特化して設計された最初のアクション中心量子化フレームワークであるQVLAを紹介する。
我々の研究は、ロボット工学におけるビジョン・ランゲージ・アクションモデルを圧縮するための、新しい原則の基盤を確立する。
論文 参考訳(メタデータ) (2026-02-03T17:43:45Z) - QSVD: Efficient Low-rank Approximation for Unified Query-Key-Value Weight Compression in Low-Precision Vision-Language Models [13.850959421148273]
VLM(Vision-Language Models)は、画像キャプションや視覚的質問応答といったタスクに不可欠なモデルである。
大規模なメモリフットプリントと処理時間によって駆動される高い計算コストは、スケーラビリティとリアルタイム適用性を制限します。
結合クエリ(Q),キー(K),値(V)重み行列に対して,Singular-Value Decomposition(SVD)を活用することで,KVキャッシュサイズと計算オーバーヘッドを低減することを提案する。
論文 参考訳(メタデータ) (2025-10-18T01:31:14Z) - AndesVL Technical Report: An Efficient Mobile-side Multimodal Large Language Model [40.488271586857884]
AndesVLはQwen3のLLMと様々なビジュアルエンコーダに基づいて0.6Bから4Bのパラメータを持つモバイル側のMLLMのスイートである。
効率的なタスク適応とモデル圧縮を容易にするために,Quantization-Aware LoRA Fine-Tuningフレームワークとともに1+N LoRAアーキテクチャを導入する。
我々は、MediaTek Dimensity 9500チップにAndesVL-4Bをデプロイする際に、最大6.7倍のピーク復号率、最大30.9%のメモリ削減、1.8ビット/ウェイトを実現した。
論文 参考訳(メタデータ) (2025-10-13T15:04:38Z) - LENS: Multi-level Evaluation of Multimodal Reasoning with Large Language Models [59.0256377330646]
Lensは3.4Kの現代画像と8つのタスクと12の日次シナリオをカバーする60K以上の人間による質問のベンチマークである。
このデータセットは本質的に、基本的な知覚から構成的推論に至るまで、画像不変のプロンプトを処理するためのMLLMの評価をサポートする。
我々は,Qwen2.5-VL-72B,InternVL3-78B,GPT-4oおよび2つの推論モデルQVQ-72B-previewとKim-VLなどの15以上のフロンティアMLLMを評価する。
論文 参考訳(メタデータ) (2025-05-21T15:06:59Z) - MBQ: Modality-Balanced Quantization for Large Vision-Language Models [20.018652727875367]
PTQ(Post-Training Quantization)は、メモリと計算オーバーヘッドを削減する効果的な手法である。
既存のPTQ手法は主に大きな言語モデル(LLM)に焦点をあてるが、他のモダリティの相違は考慮しない。
大規模な視覚言語モデルに対して,MBQ(Modality-Balanced Quantization)を提案する。
論文 参考訳(メタデータ) (2024-12-27T07:55:36Z) - Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance [78.48606021719206]
Mini-InternVL は 1B から 4B までのパラメータを持つ一連の MLLM であり、パラメータの 5% しか持たない性能の90% を達成している。
我々は,ダウンストリームタスクにおける特化モデルの転送と性能向上を可能にする,Mini-InternVLの統一適応フレームワークを開発した。
論文 参考訳(メタデータ) (2024-10-21T17:58:20Z) - VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks [60.5257456681402]
幅広い下流タスクを扱える普遍的な埋め込みを構築する可能性について検討する。
We build a series of VLM2Vec model on SoTA VLMs like Phi-3.5-V, LLaVA-1.6 and evaluate them on MMEB's evaluation split。
以上の結果から,VLM2Vecは既存のマルチモーダル埋め込みモデルよりも10%から20%の絶対的な平均的改善を実現していることがわかった。
論文 参考訳(メタデータ) (2024-10-07T16:14:05Z) - LeanQuant: Accurate and Scalable Large Language Model Quantization with Loss-error-aware Grid [36.33062038680275]
大規模言語モデル(LLM)は、様々な領域において大きな可能性を示している。
トレーニング後の量子化は、メモリ要求を減らし、遅延をデコードするための有望なテクニックとして登場した。
正確で汎用的でスケーラブルな新しい量子化手法であるLeanQuantを提案する。
論文 参考訳(メタデータ) (2024-07-14T00:23:51Z) - PTQ4SAM: Post-Training Quantization for Segment Anything [28.893095276574893]
Segment Anything Model (SAM)は多くのコンピュータビジョンタスクにおいて素晴らしいパフォーマンスを達成している。
しかし、大規模なモデルとして、膨大なメモリと計算コストが実際の展開を妨げている。
本稿では,Segment Anything Model(PTQ4SAM)の学習後量子化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-06T03:39:50Z) - ProbVLM: Probabilistic Adapter for Frozen Vision-Language Models [69.50316788263433]
本稿では,事前学習された視覚言語モデルの埋め込みに対する確率分布を推定する確率的アダプタProbVLMを提案する。
本稿では,検索タスクにおける不確実性埋め込みのキャリブレーションを定量化し,ProbVLMが他の手法よりも優れていることを示す。
本稿では,大規模な事前学習型潜伏拡散モデルを用いて,埋め込み分布を可視化する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-01T18:16:06Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。