論文の概要: SPEED-Q: Staged Processing with Enhanced Distillation towards Efficient Low-bit On-device VLM Quantization
- arxiv url: http://arxiv.org/abs/2511.08914v1
- Date: Thu, 13 Nov 2025 01:17:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.295538
- Title: SPEED-Q: Staged Processing with Enhanced Distillation towards Efficient Low-bit On-device VLM Quantization
- Title(参考訳): SPEED-Q: 効率的な低ビットオンデバイスVLM量子化に向けた拡張蒸留によるステージ処理
- Authors: Tianyu Guo, Shanwei Zhao, Shiai Zhu, Chenguang Ma,
- Abstract要約: VLM(Vision-Language Models)は、低レイテンシとプライバシ保護のインテリジェントなアプリケーションを実現するために不可欠である。
VLMモデルの低ビット量化のための新しいフレームワークであるSPEED-Qを提案する。
Speedy-Qは2ビット設定で既存の量子化手法よりも最大6倍高い精度を達成する。
- 参考スコア(独自算出の注目度): 6.872509247180761
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deploying Vision-Language Models (VLMs) on edge devices (e.g., smartphones and robots) is crucial for enabling low-latency and privacy-preserving intelligent applications. Given the resource constraints of these devices, quantization offers a promising solution by improving memory efficiency and reducing bandwidth requirements, thereby facilitating the deployment of VLMs. However, existing research has rarely explored aggressive quantization on VLMs, particularly for the models ranging from 1B to 2B parameters, which are more suitable for resource-constrained edge devices. In this paper, we propose SPEED-Q, a novel Staged Processing with Enhanced Distillation framework for VLM low-bit weight-only quantization that systematically addresses the following two critical obstacles: (1) significant discrepancies in quantization sensitivity between vision (ViT) and language (LLM) components in VLMs; (2) training instability arising from the reduced numerical precision inherent in low-bit quantization. In SPEED-Q, a staged sensitivity adaptive mechanism is introduced to effectively harmonize performance across different modalities. We further propose a distillation-enhanced quantization strategy to stabilize the training process and reduce data dependence. Together, SPEED-Q enables accurate, stable, and data-efficient quantization of complex VLMs. SPEED-Q is the first framework tailored for quantizing entire small-scale billion-parameter VLMs to low bits. Extensive experiments across multiple benchmarks demonstrate that SPEED-Q achieves up to 6x higher accuracy than existing quantization methods under 2-bit settings and consistently outperforms prior on-device VLMs under both 2-bit and 4-bit settings. Our code and models are available at https://github.com/antgroup/SPEED-Q.
- Abstract(参考訳): エッジデバイス(スマートフォンやロボットなど)にビジョンランゲージモデル(VLM)をデプロイすることは、低レイテンシとプライバシ保護のインテリジェントなアプリケーションを実現する上で極めて重要です。
これらのデバイスのリソース制約を考えると、量子化はメモリ効率を改善し、帯域幅の要求を減らし、VLMの展開を容易にすることで有望なソリューションを提供する。
しかしながら、既存の研究では、特にリソース制約されたエッジデバイスに適した1Bから2Bパラメータのモデルにおいて、VLMのアグレッシブ量子化を調査することはめったにない。
本稿では,VLMにおける視覚(ViT)成分と言語(LLM)成分の量子化感度の顕著な相違,低ビット量子化に固有の数値的精度の低下に起因するトレーニング不安定性,という2つの重要な障害に体系的に対処する,VLM低ビット量限定量子化のための新しいStaged Processing with Enhanced DistillationフレームワークであるSPEED-Qを提案する。
SPEED-Qでは、異なるモード間で性能を効果的に調和させるために、段階的な感度適応機構を導入する。
さらに, トレーニングプロセスの安定化とデータ依存の低減を図るため, 蒸留濃縮定量化戦略を提案する。
SPEED-Qは、複雑なVLMの正確、安定、およびデータ効率の量子化を可能にする。
SPEED-Qは、小さな10億パラメータのVLM全体を低ビットに量子化するのに適した最初のフレームワークである。
複数のベンチマークにわたる大規模な実験により、SPEED-Qは2ビット設定下で既存の量子化手法よりも最大6倍の精度で達成され、2ビット設定と4ビット設定の両方でデバイス上のVLMよりも一貫して優れていた。
私たちのコードとモデルはhttps://github.com/antgroup/SPEED-Q.comで公開されています。
関連論文リスト
- RSAVQ: Riemannian Sensitivity-Aware Vector Quantization for Large Language Models [17.273189597394072]
大規模言語モデル(LLM)は、幅広い自然言語処理タスクにおいて顕著な性能を示している。
指数関数的に増加するパラメータは、リソース制約のあるデバイスへの展開に重大な課題をもたらす。
LLMの超低ビット量子化を実現する新しいフレームワークであるRSAVQを提案する。
論文 参考訳(メタデータ) (2025-09-24T01:40:32Z) - VLMQ: Efficient Post-Training Quantization for Large Vision-Language Models via Hessian Augmentation [8.891793681316992]
ポストトレーニング量子化(PTQ)は、大規模なモデルを圧縮し、再トレーニングせずに推論を加速するための効果的なアプローチとして登場した。
PTQは大規模言語モデル (LLMs) の文脈で広く研究されているが、視覚言語モデル (VLMs) への適用性はまだ未検討である。
本稿では,VLMQ と呼ばれる VLM に適した PTQ フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-05T11:57:03Z) - MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文 参考訳(メタデータ) (2025-07-06T08:16:50Z) - QSpec: Speculative Decoding with Complementary Quantization Schemes [53.960146187821685]
大規模言語モデル(LLM)における推論の高速化とメモリ消費削減のために量子化が広く採用されている
品質から効率を分離する新しい量子化パラダイムであるQSpecを提案する。
QSpecは重みとKVキャッシュの両方を段階的に再利用し、再トレーニングや補助モデルなしでほぼゼロコストで切り替えることができる。
論文 参考訳(メタデータ) (2024-10-15T05:57:51Z) - ADFQ-ViT: Activation-Distribution-Friendly Post-Training Quantization for Vision Transformers [7.155242379236052]
ビジョントランスフォーマー(ViT)の量子化は、これらの課題を緩和するための有望なソリューションとして現れている。
既存の手法は依然として低ビットでの精度の低下に悩まされている。
ADFQ-ViTは、画像分類、オブジェクト検出、および4ビットでのインスタンスセグメンテーションタスクにおいて、様々なベースラインを大幅に改善する。
論文 参考訳(メタデータ) (2024-07-03T02:41:59Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [63.118592279833656]
後学習量子化(PTQ)は,大規模言語モデル(LLM)の圧縮に有効な手法である
本稿では,SliM-LLMを提案する。SliM-LLMは,グループ単位でビット幅を割り当てるサリエンス駆動の混合精度量子化フレームワークである。
実験により、SliM-LLMは低ビット幅の様々なLLMにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - DB-LLM: Accurate Dual-Binarization for Efficient LLMs [83.70686728471547]
大規模言語モデル(LLM)は自然言語処理の分野を著しく進歩させてきた。
既存の超低ビット量子化は、常に深刻な精度低下を引き起こす。
本稿では,LLM,すなわちDB-LLMのための新しいデュアルバイナライズ手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T09:04:30Z) - I&S-ViT: An Inclusive & Stable Method for Pushing the Limit of Post-Training ViTs Quantization [70.5455407146695]
我々は,ViTのPTQを包括的かつ安定した方法で制御する新しい手法であるI&S-ViTを紹介する。
I&S-ViTは3ビットのViT-Bの性能を50.68%向上させた。
論文 参考訳(メタデータ) (2023-11-16T13:07:47Z) - RepQ-ViT: Scale Reparameterization for Post-Training Quantization of
Vision Transformers [2.114921680609289]
視覚変換器のための新しいPTQフレームワークRepQ-ViTを提案する。
RepQ-ViTは量子化と推論プロセスを分離する。
既存の強力なベースラインを上回り、ViTの4ビットPTQの精度を有効レベルまで向上させることができる。
論文 参考訳(メタデータ) (2022-12-16T02:52:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。