論文の概要: QuantVLA: Scale-Calibrated Post-Training Quantization for Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2602.20309v3
- Date: Fri, 27 Feb 2026 19:38:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 13:35:12.291811
- Title: QuantVLA: Scale-Calibrated Post-Training Quantization for Vision-Language-Action Models
- Title(参考訳): QuantVLA:Vision-Language-Action Modelのためのスケールキャリブレーション後の量子化
- Authors: Jingxuan Zhang, Yunta Hsieh, Zhongwei Wan, Haokun Lin, Xin Wang, Ziqi Wang, Yingtie Lei, Mi Zhang,
- Abstract要約: 視覚言語アクション(VLA)モデルは、エンボディエージェントの認識、言語、制御を統一する。
トレーニング不要なポストトレーニング量子化フレームワークQuantVLAを紹介する。
これはVLAシステムにおける最初のPTQアプローチであり、拡散トランスフォーマー(DiT)アクションヘッドの定量化に成功した最初の方法である。
- 参考スコア(独自算出の注目度): 21.01470580488428
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language-action (VLA) models unify perception, language, and control for embodied agents but face significant challenges in practical deployment due to rapidly increasing compute and memory demands, especially as models scale to longer horizons and larger backbones. To address these bottlenecks, we introduce QuantVLA, a training-free post-training quantization (PTQ) framework that, to our knowledge, is the first PTQ approach for VLA systems and the first to successfully quantize a diffusion transformer (DiT) action head. QuantVLA incorporates three scale-calibrated components: (1) a selective quantization layout that integerizes all linear layers in both the language backbone and the DiT while keeping attention projections in floating point to preserve the original operator schedule; (2) attention temperature matching, a lightweight per-head scaling mechanism that stabilizes attention logits and is folded into the dequantization scales at inference; and (3) output head balancing, a per-layer residual interface calibration that mitigates post-projection energy drift. The framework requires no additional training, uses only a small unlabeled calibration buffer, and supports integer kernels for low-bit weights and activations while leaving the architecture unchanged. Across representative VLA models on LIBERO, QuantVLA exceeds the task success rates of full-precision baselines, achieves about 70% relative memory savings on the quantized components, providing a practical pathway toward scalable low-bit embodied intelligence under strict compute, memory, and power constraints.
- Abstract(参考訳): 視覚言語アクション(VLA)モデルは、エンボディエージェントの認識、言語、制御を統一するが、特に長い水平線と大きなバックボーンにスケールするモデルのように、計算とメモリの要求が急速に増加するため、実践的なデプロイにおいて重大な課題に直面している。
これらのボトルネックに対処するため,我々は,VLAシステムにおける最初のPTQアプローチであり,拡散トランスフォーマー(DiT)アクションヘッドの定量化に成功している,トレーニング不要なPTQフレームワークであるQuantVLAを紹介した。
QuantVLAは、(1)言語バックボーンとDiTの両方の線形層を整数化し、元の演算子スケジュールを維持するために浮動小数点の注意投影を保ちながら、DITの全ての線形層を整数化する選択的量子化レイアウト、(2)注目ロジットを安定させ、推論時に量子化スケールに折り畳まれる軽量なヘッド温度マッチング機構、(3)投射後のエネルギードリフトを緩和する出力ヘッドバランス、である。
このフレームワークは、追加のトレーニングを必要とせず、小さなラベルのないキャリブレーションバッファのみを使用し、アーキテクチャをそのままにして、低ビットの重みとアクティベーションのために整数カーネルをサポートする。
LIBERO上の代表的VLAモデル全体で、QuantVLAは完全精度のベースラインのタスク成功率を超え、量子化されたコンポーネント上で約70%の相対的なメモリ節約を実現し、厳密な計算、メモリ、電力制約の下でスケーラブルな低ビットエンボディインテリジェンスへの実践的な経路を提供する。
関連論文リスト
- HBVLA: Pushing 1-Bit Post-Training Quantization for Vision-Language-Action Models [11.913553037277472]
Vision-Language-Action (VLA)モデルは命令追従型制御を可能にする。
現在の手法では、二項化と全精度化の間の分配ギャップを狭めることができない。
本稿では,VLAに適したバイナライゼーションフレームワークであるHBVLAを提案する。
論文 参考訳(メタデータ) (2026-02-14T10:23:45Z) - Rethinking Practical and Efficient Quantization Calibration for Vision-Language Models [11.411411301593011]
トレーニング後の量子化(PTQ)は、微調整なしで大規模言語モデルをデプロイするための主要なアプローチである。
token-level Importance-aware Layer-wise Quantization framework (TLQ)を提案する。
TLQは2つのモデル、3つのモデルスケール、および2つの量子化設定で評価され、すべての設定で一貫してパフォーマンス改善が達成される。
論文 参考訳(メタデータ) (2026-02-08T10:19:25Z) - QVLA: Not All Channels Are Equal in Vision-Language-Action Model's Quantization [29.21308068128823]
具体化制御に特化して設計された最初のアクション中心量子化フレームワークであるQVLAを紹介する。
我々の研究は、ロボット工学におけるビジョン・ランゲージ・アクションモデルを圧縮するための、新しい原則の基盤を確立する。
論文 参考訳(メタデータ) (2026-02-03T17:43:45Z) - D$^2$Quant: Accurate Low-bit Post-Training Weight Quantization for LLMs [33.883527341335856]
軽量後トレーニング量子化(PTQ)は、メモリ使用量を減らし、低ビット演算子や専用ハードウェアを使わずに実用的なスピードアップを可能にするため、魅力的である。
精度は、重量のみのPTQにおいて、サブ-4ビットの精度で著しく低下する。
D$2$Quantは、ウェイトとアクティベーションの両方の観点から量子化を改善する新しいウェイトオンリーのPTQフレームワークである。
論文 参考訳(メタデータ) (2026-01-30T05:49:48Z) - Quantized Visual Geometry Grounded Transformer [67.15451442018258]
本稿では,VGGTの最初の量子化フレームワーク,すなわちQuantVGGTを提案する。
球状前アダマール回転と局所流路平滑化を統合したDual-Smoothed Fine-Grained Quantizationを導入する。
また、重層統計量を用いて外周をフィルタするノイズフィルタディバースサンプリングを設計する。
論文 参考訳(メタデータ) (2025-09-25T15:17:11Z) - MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文 参考訳(メタデータ) (2025-07-06T08:16:50Z) - SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration [70.72227437717467]
VLA(Vision-Language-Action)モデルは、その強力な制御能力に注目が集まっている。
計算コストが高く、実行頻度も低いため、ロボット操作や自律ナビゲーションといったリアルタイムタスクには適さない。
本稿では,共同スケジューリングモデルとプルーニングトークンにより,VLAモデルを高速化する統一フレームワークSP-VLAを提案する。
論文 参考訳(メタデータ) (2025-06-15T05:04:17Z) - GPLQ: A General, Practical, and Lightning QAT Method for Vision Transformers [11.452135395287119]
ビジョントランスフォーマー(ViT)はコンピュータビジョンに必須だが、計算集約性もある。
モデル量子化は、この難しさを軽減することを目的としているが、既存のPTQ(Post-Training Quantization)法とQAT(Quantization-Aware Training)法は、大きな制限を呈している。
本稿では,効率的なVT量子化のための新しいフレームワークであるGPLQ(General, Practical, and Quantization)を紹介する。
論文 参考訳(メタデータ) (2025-06-13T13:45:17Z) - Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics [64.62231094774211]
ステートフル(例えばアダム)は、最適収束を達成するために、モデルサイズを2倍も補助情報を維持する。
SOLOにより、アダムスタイルは3ビットまたは2ビットの精度で量子化された状態を維持することができる。
したがって、SOLOはAdamスタイルにシームレスに適用でき、精度の低下を最小限に抑えることができる。
論文 参考訳(メタデータ) (2025-05-01T06:47:45Z) - RSQ: Learning from Important Tokens Leads to Better Quantized LLMs [65.5558181902098]
レイヤーワイド量子化は、高価なリトレーニングなしで大きなモデルを効率的に圧縮するための重要な技術である。
モデルに回転を適用して外乱を緩和するRSQ(Rotate, Scale, then Quantize)を提案する。
RSQは、複数の下流タスクと3つのモデルファミリーで、ベースラインメソッドを一貫して上回っていることを実証する。
論文 参考訳(メタデータ) (2025-03-03T18:46:33Z) - WKVQuant: Quantizing Weight and Key/Value Cache for Large Language
Models Gains More [55.0856305773081]
大規模言語モデル (LLM) は、そのメモリ要求と自動回帰テキスト生成プロセスの計算要求のために、重要なデプロイメント課題に直面している。
本稿では、モデルパラメータとアクティベーションを低ビット整数に変換することでメモリ消費を低減する手法であるLCMの量子化に着目し、これらの課題に対処する。
論文 参考訳(メタデータ) (2024-02-19T11:33:21Z) - CBQ: Cross-Block Quantization for Large Language Models [66.82132832702895]
ポストトレーニング量子化(PTQ)は、超低コストで大規模言語モデル(LLM)を圧縮する上で重要な役割を果たしている。
LLMのためのクロスブロック再構成に基づくPTQ手法CBQを提案する。
CBQはリコンストラクションスキームを使用してクロスブロック依存関係を採用し、エラーの蓄積を最小限に抑えるために複数のブロックにまたがる長距離依存関係を確立する。
論文 参考訳(メタデータ) (2023-12-13T07:56:27Z) - Gradient $\ell_1$ Regularization for Quantization Robustness [70.39776106458858]
トレーニング後の量子化に対するロバスト性を改善するための単純な正規化スキームを導出する。
量子化対応ネットワークをトレーニングすることにより、異なるビット幅にオンデマンドで量子化できる1組の重みを格納できる。
論文 参考訳(メタデータ) (2020-02-18T12:31:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。