論文の概要: QuantVLA: Scale-Calibrated Post-Training Quantization for Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2602.20309v2
- Date: Wed, 25 Feb 2026 17:11:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 16:16:21.288283
- Title: QuantVLA: Scale-Calibrated Post-Training Quantization for Vision-Language-Action Models
- Title(参考訳): QuantVLA:Vision-Language-Action Modelのためのスケールキャリブレーション後の量子化
- Authors: Jingxuan Zhang, Yunta Hsieh, Zhongwei Wan, Haokun Lin, Xin Wang, Ziqi Wang, Yingtie Lei, Mi Zhang,
- Abstract要約: 視覚言語アクション(VLA)モデルは、エンボディエージェントの認識、言語、制御を統一する。
トレーニング不要なポストトレーニング量子化フレームワークQuantVLAを紹介する。
これはVLAシステムにおける最初のPTQアプローチであり、拡散トランスフォーマー(DiT)アクションヘッドの定量化に成功した最初の方法である。
- 参考スコア(独自算出の注目度): 21.01470580488428
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language-action (VLA) models unify perception, language, and control for embodied agents but face significant challenges in practical deployment due to rapidly increasing compute and memory demands, especially as models scale to longer horizons and larger backbones. To address these bottlenecks, we introduce QuantVLA, a training-free post-training quantization (PTQ) framework that, to our knowledge, is the first PTQ approach for VLA systems and the first to successfully quantize a diffusion transformer (DiT) action head. QuantVLA incorporates three scale-calibrated components: (1) a selective quantization layout that integerizes all linear layers in both the language backbone and the DiT while keeping attention projections in floating point to preserve the original operator schedule; (2) attention temperature matching, a lightweight per-head scaling mechanism that stabilizes attention logits and is folded into the dequantization scales at inference; and (3) output head balancing, a per-layer residual interface calibration that mitigates post-projection energy drift. The framework requires no additional training, uses only a small unlabeled calibration buffer, and supports integer kernels for low-bit weights and activations while leaving the architecture unchanged. Across representative VLA models on LIBERO, QuantVLA exceeds the task success rates of full-precision baselines, achieves about 70% relative memory savings on the quantized components, and delivers a 1.22x speedup in end-to-end inference latency, providing a practical pathway toward scalable low-bit embodied intelligence under strict compute, memory, and power constraints.
- Abstract(参考訳): 視覚言語アクション(VLA)モデルは、エンボディエージェントの認識、言語、制御を統一するが、特に長い水平線と大きなバックボーンにスケールするモデルのように、計算とメモリの要求が急速に増加するため、実践的なデプロイにおいて重大な課題に直面している。
これらのボトルネックに対処するため,我々は,VLAシステムにおける最初のPTQアプローチであり,拡散トランスフォーマー(DiT)アクションヘッドの定量化に成功している,トレーニング不要なPTQフレームワークであるQuantVLAを紹介した。
QuantVLAは、(1)言語バックボーンとDiTの両方の線形層を整数化し、元の演算子スケジュールを維持するために浮動小数点の注意投影を保ちながら、DITの全ての線形層を整数化する選択的量子化レイアウト、(2)注目ロジットを安定させ、推論時に量子化スケールに折り畳まれる軽量なヘッド温度マッチング機構、(3)投射後のエネルギードリフトを緩和する出力ヘッドバランス、である。
このフレームワークは、追加のトレーニングを必要とせず、小さなラベルのないキャリブレーションバッファのみを使用し、アーキテクチャをそのままにして、低ビットの重みとアクティベーションのために整数カーネルをサポートする。
LIBERO上の代表的VLAモデル全体で、QuantVLAは完全精度のベースラインのタスク成功率を超え、量子化されたコンポーネントで約70%の相対的なメモリ節約を実現し、エンドツーエンドの推論遅延で1.22倍のスピードアップを実現し、厳密な計算、メモリ、電力制約の下でスケーラブルな低ビットエンボディインテリジェンスへの実用的な経路を提供する。
関連論文リスト
- HBVLA: Pushing 1-Bit Post-Training Quantization for Vision-Language-Action Models [11.913553037277472]
Vision-Language-Action (VLA)モデルは命令追従型制御を可能にする。
現在の手法では、二項化と全精度化の間の分配ギャップを狭めることができない。
本稿では,VLAに適したバイナライゼーションフレームワークであるHBVLAを提案する。
論文 参考訳(メタデータ) (2026-02-14T10:23:45Z) - Rethinking Practical and Efficient Quantization Calibration for Vision-Language Models [11.411411301593011]
トレーニング後の量子化(PTQ)は、微調整なしで大規模言語モデルをデプロイするための主要なアプローチである。
token-level Importance-aware Layer-wise Quantization framework (TLQ)を提案する。
TLQは2つのモデル、3つのモデルスケール、および2つの量子化設定で評価され、すべての設定で一貫してパフォーマンス改善が達成される。
論文 参考訳(メタデータ) (2026-02-08T10:19:25Z) - D$^2$Quant: Accurate Low-bit Post-Training Weight Quantization for LLMs [33.883527341335856]
軽量後トレーニング量子化(PTQ)は、メモリ使用量を減らし、低ビット演算子や専用ハードウェアを使わずに実用的なスピードアップを可能にするため、魅力的である。
精度は、重量のみのPTQにおいて、サブ-4ビットの精度で著しく低下する。
D$2$Quantは、ウェイトとアクティベーションの両方の観点から量子化を改善する新しいウェイトオンリーのPTQフレームワークである。
論文 参考訳(メタデータ) (2026-01-30T05:49:48Z) - MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文 参考訳(メタデータ) (2025-07-06T08:16:50Z) - SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration [70.72227437717467]
VLA(Vision-Language-Action)モデルは、その強力な制御能力に注目が集まっている。
計算コストが高く、実行頻度も低いため、ロボット操作や自律ナビゲーションといったリアルタイムタスクには適さない。
本稿では,共同スケジューリングモデルとプルーニングトークンにより,VLAモデルを高速化する統一フレームワークSP-VLAを提案する。
論文 参考訳(メタデータ) (2025-06-15T05:04:17Z) - GPLQ: A General, Practical, and Lightning QAT Method for Vision Transformers [11.452135395287119]
ビジョントランスフォーマー(ViT)はコンピュータビジョンに必須だが、計算集約性もある。
モデル量子化は、この難しさを軽減することを目的としているが、既存のPTQ(Post-Training Quantization)法とQAT(Quantization-Aware Training)法は、大きな制限を呈している。
本稿では,効率的なVT量子化のための新しいフレームワークであるGPLQ(General, Practical, and Quantization)を紹介する。
論文 参考訳(メタデータ) (2025-06-13T13:45:17Z) - Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics [64.62231094774211]
ステートフル(例えばアダム)は、最適収束を達成するために、モデルサイズを2倍も補助情報を維持する。
SOLOにより、アダムスタイルは3ビットまたは2ビットの精度で量子化された状態を維持することができる。
したがって、SOLOはAdamスタイルにシームレスに適用でき、精度の低下を最小限に抑えることができる。
論文 参考訳(メタデータ) (2025-05-01T06:47:45Z) - CBQ: Cross-Block Quantization for Large Language Models [66.82132832702895]
ポストトレーニング量子化(PTQ)は、超低コストで大規模言語モデル(LLM)を圧縮する上で重要な役割を果たしている。
LLMのためのクロスブロック再構成に基づくPTQ手法CBQを提案する。
CBQはリコンストラクションスキームを使用してクロスブロック依存関係を採用し、エラーの蓄積を最小限に抑えるために複数のブロックにまたがる長距離依存関係を確立する。
論文 参考訳(メタデータ) (2023-12-13T07:56:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。