論文の概要: QVLA: Not All Channels Are Equal in Vision-Language-Action Model's Quantization
- arxiv url: http://arxiv.org/abs/2602.03782v1
- Date: Tue, 03 Feb 2026 17:43:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.611095
- Title: QVLA: Not All Channels Are Equal in Vision-Language-Action Model's Quantization
- Title(参考訳): QVLA:全てのチャンネルがビジョンランゲージ・アクションモデルの量子化に等しくない
- Authors: Yuhao Xu, Yantai Yang, Zhenyang Fan, Yufan Liu, Yuming Li, Bing Li, Zhipeng Zhang,
- Abstract要約: 具体化制御に特化して設計された最初のアクション中心量子化フレームワークであるQVLAを紹介する。
我々の研究は、ロボット工学におけるビジョン・ランゲージ・アクションモデルを圧縮するための、新しい原則の基盤を確立する。
- 参考スコア(独自算出の注目度): 29.21308068128823
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advent of Vision-Language-Action (VLA) models represents a significant leap for embodied intelligence, yet their immense computational demands critically hinder deployment on resource-constrained robotic platforms. Intuitively, low-bit quantization is a prevalent and preferred technique for large-scale model compression. However, we find that a systematic analysis of VLA model's quantization is fundamentally lacking. We argue that naively applying uniform-bit quantization from Large Language Models (LLMs) to robotics is flawed, as these methods prioritize passive data fidelity while ignoring how minor action deviations compound into catastrophic task failures. To bridge this gap, we introduce QVLA, the first action-centric quantization framework specifically designed for embodied control. In a sharp departure from the rigid, uniform-bit quantization of LLM-based methods, QVLA introduces a highly granular, channel-wise bit allocation strategy. Its core mechanism is to directly measure the final action-space sensitivity when quantizing each individual channel to various bit-widths. This process yields a precise, per-channel importance metric that guides a global optimization, which elegantly unifies quantization and pruning (0-bit) into a single, cohesive framework. Extensive evaluations on different baselines demonstrate the superiority of our approach. In the LIBERO, the quantization version of OpenVLA-OFT with our method requires only 29.2% of the original model's VRAM while maintaining 98.9% of its original performance and achieving a 1.49x speedup. This translates to a 22.6% performance improvement over the LLM-derived method SmoothQuant. Our work establishes a new, principled foundation for compressing VLA models in robotics, paving the way for deploying powerful, large-scale models on real-world hardware. Code will be released.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルの出現は、インテリジェンスを具現化するための大きな飛躍を示しているが、その膨大な計算要求は、リソースに制約のあるロボットプラットフォームへの展開を著しく妨げている。
直感的には、低ビット量子化は大規模モデル圧縮において一般的で好まれる手法である。
しかし、VLAモデルの量子化の体系的解析は基本的に欠落している。
大規模言語モデル(LLM)から一様ビット量子化(英語版)をロボット工学に適用することは、これらの手法が受動的データ忠実度を優先する一方で、小さなアクション偏差が破滅的なタスク障害にどのように複雑であるかを無視しているため、欠点がある、と我々は主張する。
このギャップを埋めるために、我々は、具体化制御に特化して設計された最初のアクション中心量子化フレームワークであるQVLAを紹介する。
LLMに基づく手法の厳密で均一な量子化から、QVLAは、非常に粒度の高いチャネル単位のビット割り当て戦略を導入している。
その中核となるメカニズムは、個々のチャネルを様々なビット幅に量子化する際の最終的な行動空間感度を直接測定することである。
このプロセスは、量子化とプルーニング(0ビット)を1つの凝集性フレームワークにエレガントに統一するグローバル最適化を導く、正確にチャネルごとの重要度メトリックを生成する。
異なるベースラインに対する広範囲な評価は、我々のアプローチの優位性を示している。
LIBEROでは、OpenVLA-OFTの量子化バージョンは元のモデルのVRAMの29.2%しか必要とせず、元の性能の98.9%を維持し、1.49倍のスピードアップを実現している。
これは LLM から派生した SmoothQuant よりも22.6% のパフォーマンス向上を意味する。
我々の研究は、ロボット工学におけるVLAモデルを圧縮するための、新しい、原則化された基盤を確立し、現実世界のハードウェアに強力な大規模モデルをデプロイするための道を開いた。
コードはリリースされる。
関連論文リスト
- LSGQuant: Layer-Sensitivity Guided Quantization for One-Step Diffusion Real-World Video Super-Resolution [52.627063566555194]
本稿では,一段階拡散に基づく実世界VSRのための層感度誘導量子化手法LSGQuantを紹介する。
本手法は,ビデオトークンのアクティベーションに適合する動的レンジ適応量子化器 (DRAQ) を備える。
提案手法は,完全精度のオリジンモデルに対してほぼ性能が良く,既存の量子化手法をはるかに上回っている。
論文 参考訳(メタデータ) (2026-02-03T06:53:19Z) - Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs [78.09559830840595]
本稿では拡散に基づく言語モデルの定量化に関する最初の体系的研究について述べる。
異常に大きなアクティベーション値によって特徴付けられるアクティベーションアウトリーチの存在を同定する。
我々は最先端のPTQ手法を実装し、包括的な評価を行う。
論文 参考訳(メタデータ) (2025-08-20T17:59:51Z) - EaqVLA: Encoding-aligned Quantization for Vision-Language-Action Models [10.58181401714169]
本稿では,VLAモデルに符号化整合量子化を適用するEaqVLAというフレームワークを提案する。
EaqVLAは、既存の量子化法よりも優れた量子化性能(エンドツーエンドのアクション制御とxxx倍加速の最小量子化損失)を達成する。
論文 参考訳(メタデータ) (2025-05-27T05:42:21Z) - Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success [100.226572152954]
視覚言語アクションモデル(VLA)のための最適化された微調整レシピを提案する。
われわれのレシピはOpenVLAの4つのタスクスイートの平均成功率を76.5%から97.1%に引き上げ、アクション生成のスループットを26$times$に向上させた。
実世界の評価において、我々の微調整のレシピにより、OpenVLAはバイマガルALOHAロボット上でデクスタラスで高周波な制御タスクをうまく実行することができる。
論文 参考訳(メタデータ) (2025-02-27T00:30:29Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [63.118592279833656]
後学習量子化(PTQ)は,大規模言語モデル(LLM)の圧縮に有効な手法である
本稿では,SliM-LLMを提案する。SliM-LLMは,グループ単位でビット幅を割り当てるサリエンス駆動の混合精度量子化フレームワークである。
実験により、SliM-LLMは低ビット幅の様々なLLMにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - FineQuant: Unlocking Efficiency with Fine-Grained Weight-Only
Quantization for LLMs [9.072821427818557]
大規模言語モデル(LLM)は、様々な言語タスクで最先端のパフォーマンスを達成しているが、実用的なデプロイメントには課題がある。
メモリ消費を削減し,LLMの推論を高速化する,効率的な重みのみの量子化法を提案する。
我々は,OPT-175Bや内部MoEモデルのような大規模オープンソースモデルに対するアプローチを評価し,スループットを最大3.65倍に向上しながら,最小限の精度の損失を示す。
論文 参考訳(メタデータ) (2023-08-16T23:57:41Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。