論文の概要: HBVLA: Pushing 1-Bit Post-Training Quantization for Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2602.13710v1
- Date: Sat, 14 Feb 2026 10:23:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.355351
- Title: HBVLA: Pushing 1-Bit Post-Training Quantization for Vision-Language-Action Models
- Title(参考訳): HBVLA:ビジョンランゲージ・アクションモデルのための1ビット後処理量子化を推進
- Authors: Xin Yan, Zhenglin Wan, Feiyang Ye, Xingrui Yu, Hangyu Du, Yang You, Ivor Tsang,
- Abstract要約: Vision-Language-Action (VLA)モデルは命令追従型制御を可能にする。
現在の手法では、二項化と全精度化の間の分配ギャップを狭めることができない。
本稿では,VLAに適したバイナライゼーションフレームワークであるHBVLAを提案する。
- 参考スコア(独自算出の注目度): 11.913553037277472
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models enable instruction-following embodied control, but their large compute and memory footprints hinder deployment on resource-constrained robots and edge platforms. While reducing weights to 1-bit precision through binarization can greatly improve efficiency, existing methods fail to narrow the distribution gap between binarized and full-precision weights, causing quantization errors to accumulate under long-horizon closed-loop execution and severely degrade actions. To fill this gap, we propose HBVLA, a VLA-tailored binarization framework. First, we use a policy-aware enhanced Hessian to identify weights that are truly critical for action generation. Then, we employ a sparse orthogonal transform for non-salient weights to induce a low-entropy intermediate state. Finally, we quantize both salient and non-salient weights in the Harr domain with group-wise 1-bit quantization. We have evaluated our approach on different VLAs: on LIBERO, quantized OpenVLA-OFT retains 92.2% of full-precision performance; on SimplerEnv, quantized CogAct retains 93.6%, significantly outperforming state-of-the-art binarization methods. We further validate our method on real-world evaluation suite and the results show that HBVLA incurs only marginal success-rate degradation compared to the full-precision model, demonstrating robust deployability under tight hardware constraints. Our work provides a practical foundation for ultra-low-bit quantization of VLAs, enabling more reliable deployment on hardware-limited robotic platforms.
- Abstract(参考訳): Vision-Language-Action (VLA)モデルは命令追従型制御を可能にするが、その大きな計算とメモリフットプリントは、リソースに制約のあるロボットやエッジプラットフォームへのデプロイを妨げる。
二項化による1ビット精度への重みの低減は効率を大幅に向上させるが、既存の手法では二項化と完全精度の重みの分配ギャップを狭めることができず、長い水平閉ループ実行時に量子化誤差が蓄積され、非常に劣化する。
このギャップを埋めるために,VLAに適したバイナライゼーションフレームワークであるHBVLAを提案する。
まず、ポリシー対応強化ヘッセンを用いて、アクション生成に本当に重要な重みを識別する。
そして、非塩分重みに対してスパース直交変換を用い、低エントロピー中間状態を誘導する。
最後に、グループワイズ1ビットの量子化でハール領域の正重と非正重の両方を定量化する。
LIBEROでは、量子化されたOpenVLA-OFTは92.2%の完全精度を維持し、SimplerEnvでは、量子化されたCogActは93.6%を保持し、最先端のバイナライゼーション手法よりも大幅に優れている。
さらに本手法を実世界の評価スイートで検証した結果,HBVLAはハードウェアの厳密な制約下でのロバストなデプロイ性を示すフル精度モデルに比べて,限界的な成功率低下しか生じないことがわかった。
我々の研究は、VLAの超低ビット量子化のための実用的な基盤を提供し、ハードウェア限定のロボットプラットフォームへのより信頼性の高い展開を可能にします。
関連論文リスト
- QVLA: Not All Channels Are Equal in Vision-Language-Action Model's Quantization [29.21308068128823]
具体化制御に特化して設計された最初のアクション中心量子化フレームワークであるQVLAを紹介する。
我々の研究は、ロボット工学におけるビジョン・ランゲージ・アクションモデルを圧縮するための、新しい原則の基盤を確立する。
論文 参考訳(メタデータ) (2026-02-03T17:43:45Z) - Sliced-Wasserstein Distribution Alignment Loss Improves the Ultra-Low-Bit Quantization of Large Language Models [0.5964436882344729]
超低ビット後量子化における分布認識キャリブレーションのためのスライスされたワッサースタイン損失関数を提案する。
提案した損失は、ランダムな線形射影の下での完全精度および量子化モデルの出力分布を整列する。
OmniQuant と TesseraQ という2つのフロンティア手法を組み込むことで,提案モデルの性能向上を実証する。
論文 参考訳(メタデータ) (2026-01-11T15:14:05Z) - Rethinking Output Alignment For 1-bit Post-Training Quantization of Large Language Models [41.677469535447024]
大きな言語モデル(LLM)は、幅広いNLPタスクに対して強力なパフォーマンスを提供するが、その巨大なサイズは、リソースに制約のあるデバイスへのデプロイメントを妨げる。
トレーニング後の量子化(PTQ)は、リトレーニングを必要とせず、キャリブレーションのための小さなデータセットのみを必要とするため、その効率性に広く採用されている。
ポストトレーニング量子化の最近の進歩は、サブ4ビット法でさえオリジナルのモデル性能のほとんどを維持できることを示した。
論文 参考訳(メタデータ) (2025-12-25T12:39:36Z) - Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics [64.62231094774211]
ステートフル(例えばアダム)は、最適収束を達成するために、モデルサイズを2倍も補助情報を維持する。
SOLOにより、アダムスタイルは3ビットまたは2ビットの精度で量子化された状態を維持することができる。
したがって、SOLOはAdamスタイルにシームレスに適用でき、精度の低下を最小限に抑えることができる。
論文 参考訳(メタデータ) (2025-05-01T06:47:45Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - DB-LLM: Accurate Dual-Binarization for Efficient LLMs [83.70686728471547]
大規模言語モデル(LLM)は自然言語処理の分野を著しく進歩させてきた。
既存の超低ビット量子化は、常に深刻な精度低下を引き起こす。
本稿では,LLM,すなわちDB-LLMのための新しいデュアルバイナライズ手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T09:04:30Z) - Norm Tweaking: High-performance Low-bit Quantization of Large Language
Models [21.855106896725598]
そこで本研究では,現在のPTQ手法のプラグインとして利用できるノルム調整手法を提案する。
本手法は,重量のみの量子化と重みとアクティベーションの連成量子化の両面で有意な改善を示す。
私たちのシンプルで効果的なアプローチは、現実世界のアプリケーションにとってより実用的です。
論文 参考訳(メタデータ) (2023-09-06T06:51:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。