論文の概要: Breaking Modality Heterogeneity in Low-Bit Quantization for Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2605.19929v1
- Date: Tue, 19 May 2026 14:49:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.413749
- Title: Breaking Modality Heterogeneity in Low-Bit Quantization for Large Vision-Language Models
- Title(参考訳): 大型ビジョンランゲージモデルにおける低ビット量子化における不均一性の破れ
- Authors: Yi Zhong, Haotong Qin, Xindong Zhang, Lei Zhang, Guolei Sun,
- Abstract要約: 低ビット後量子化(PTQ)は、リソース制約されたデバイスにビジョンランゲージモデル(VLM)をデプロイするための重要な技術である。
既存のPTQ法は、量子化中のテキストと視覚の非均一な活性化分布のために、VLMの精度を劣化させることが多い。
チャネル分割駆動のポストトレーニング量子化フレームワークであるSplitQを提案する。
- 参考スコア(独自算出の注目度): 36.14224700486847
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Low-bit post-training quantization (PTQ) is a pivotal technique for deploying Vision-Language Models (VLMs) on resource-constrained devices. However, existing PTQ methods often degrade VLMs' accuracy due to the heterogeneous activation distributions of text and vision modalities during quantization. We find that this cross-modal heterogeneity is distributed unevenly across channels: a small subset of channels contains most modality-specific outliers, and these outliers typically reside in different channels for each modality. Motivated by this, we propose SplitQ, a channel-Splitting-driven post-training Quantization framework. At its core, SplitQ introduces a novel Modality-specific Outlier Channel Decoupling (MOCD) module that effectively isolates salient modality-specific outlier channels with minimal overhead. To further address the remaining cross-modal distribution discrepancies, we design an Adaptive Cross-Modal Calibration (ACC) module that employs dual lightweight learnable branches to dynamically mitigate modality-induced quantization errors. Extensive experiments on popular VLMs demonstrate that SplitQ significantly outperforms existing approaches across 6 popular multi-modal datasets under all evaluated quantization settings, including W4A8, W4A4, W3A3, and W3A2. Notably, SplitQ preserves 93.5% of FP16 performance under the challenging W3A3 setting (69.5 vs. 74.3), pushing the efficiency frontier for deploying advanced VLMs. Our code is available at https://github.com/EMVision-NK/SplitQ
- Abstract(参考訳): 低ビット後量子化(PTQ)は、リソース制約されたデバイスにビジョンランゲージモデル(VLM)をデプロイするための重要な技術である。
しかし、既存のPTQ法は、量子化中のテキストと視覚の非均一な活性化分布のために、VLMの精度を劣化させることが多い。
チャネルの小さな部分集合は、ほとんどのモダリティ固有の外れ値を含み、これらの外れ値は通常、各モダリティに対して異なるチャネルに存在する。
そこで我々は,チャネル分割型ポストトレーニング量子化フレームワークであるSplitQを提案する。
SplitQのコアとなるのは、モダリティ固有の外部チャネルを最小限のオーバーヘッドで効果的に分離する、新しいモダリティ固有の外部チャネルデカップリング(MOCD)モジュールである。
残余のクロスモーダル分布の相違に対処するため、デュアル軽量学習可能な分岐を用いた適応的クロスモーダル校正(ACC)モジュールを設計し、モダリティによる量子化誤差を動的に軽減する。
人気のあるVLMに関する大規模な実験によると、SplitQは、W4A8、W4A4、W3A3、W3A2など、評価された量子化設定のすべてにおいて、人気のある6つのマルチモーダルデータセットで既存のアプローチを大幅に上回っている。
特にSplitQは、挑戦的なW3A3設定(69.5対74.3)の下でFP16の性能の93.5%を保持し、高度なVLMをデプロイするための効率のフロンティアを推し進めている。
私たちのコードはhttps://github.com/EMVision-NK/SplitQで利用可能です。
関連論文リスト
- OScaR: The Occam's Razor for Extreme KV Cache Quantization in LLMs and Beyond [50.440302567029654]
マルチモーダルインテリジェンスにより、Key-Valueキャッシュは効率的なデプロイメントのための主要なメモリボトルネックとなった。
本研究では、チャネルごとの量子化パラダイムの本質的な限界を再考する。
X-LLMのための高精度かつ軽量なKVキャッシュ圧縮フレームワークOScaRを提案する。
論文 参考訳(メタデータ) (2026-05-19T10:53:03Z) - PTQ4ARVG: Post-Training Quantization for AutoRegressive Visual Generation Models [22.35209793690791]
量子化は一般的に、モデルサイズと計算遅延を低減するためにニューラルネットワークで使用される。
ARVGへの量子化の適用は、まだほとんど未検討である。
学習後量子化フレームワークPTQ4ARVGを提案する。
論文 参考訳(メタデータ) (2026-01-29T04:00:00Z) - ARCQuant: Boosting NVFP4 Quantization with Augmented Residual Channels for LLMs [4.431548809730958]
ARCQuantは、Augmented Residual Channelsを通じてNVFP4パフォーマンスを向上させるフレームワークである。
ARCQuantは、複雑なタスクや下流タスクにおいて、完全精度のベースラインに匹敵する、最先端の精度を実現する。
論文 参考訳(メタデータ) (2026-01-12T12:27:22Z) - BasicAVSR: Arbitrary-Scale Video Super-Resolution via Image Priors and Enhanced Motion Compensation [70.27358326228399]
任意スケールビデオ超解像(AVSR)のためのベーシックAVSRを提案する。
AVSRは、ビデオフレームの解像度、潜在的に様々なスケーリング要素を強化することを目的としている。
超高分解能, 一般化能力, 推論速度の点で, BasicAVSR は既存手法よりも優れていた。
論文 参考訳(メタデータ) (2025-10-30T05:08:45Z) - TCAQ-DM: Timestep-Channel Adaptive Quantization for Diffusion Models [49.65286242048452]
拡散モデル(TCAQ-DM)のためのタイムステップ・チャネル適応量子化法を提案する。
提案手法は,ほとんどの場合,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-12-21T16:57:54Z) - Instance-Aware Group Quantization for Vision Transformers [20.105148326987646]
ポストトレーニング量子化(PTQ)は、事前訓練された完全精度モデルを定量化する効率的なモデル圧縮手法である。
畳み込みニューラルネットワーク(CNN)のPTQ手法は、完全精度のニューラルネットワークに匹敵する量子化結果を提供する。
我々は、VIT(IGQ-ViT)のためのインスタンス対応グループ量子化を導入する。
論文 参考訳(メタデータ) (2024-04-01T05:12:30Z) - Sparsely Multimodal Data Fusion [0.0]
本稿では,3つのマルチモーダル埋め込み技術,modal Channel Attention (MCA), Zorro, and Everything at Once (EAO)の比較検討を行った。
MCAは、入力モダリティのすべての組み合わせに融合埋め込みを導入し、注意マスキングを使用して異なる注意チャネルを作成する。
MCAは単相および核融合埋め込みにおける頑健な均一性を維持することにより優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-03-29T16:49:40Z) - Squeezeformer: An Efficient Transformer for Automatic Speech Recognition [99.349598600887]
Conformerは、そのハイブリッドアテンション・コンボリューションアーキテクチャに基づいて、様々な下流音声タスクの事実上のバックボーンモデルである。
Squeezeformerモデルを提案する。これは、同じトレーニングスキームの下で、最先端のASRモデルよりも一貫して優れている。
論文 参考訳(メタデータ) (2022-06-02T06:06:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。