論文の概要: SQAP-VLA: A Synergistic Quantization-Aware Pruning Framework for High-Performance Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2509.09090v1
- Date: Thu, 11 Sep 2025 01:52:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.197541
- Title: SQAP-VLA: A Synergistic Quantization-Aware Pruning Framework for High-Performance Vision-Language-Action Models
- Title(参考訳): SQAP-VLA:ハイパフォーマンスビジョンランゲージ・アクションモデルのための相乗的量子化対応プルーニングフレームワーク
- Authors: Hengyu Fang, Yijiang Liu, Yuan Du, Li Du, Huanrui Yang,
- Abstract要約: SQAP-VLAは、構造化された、トレーニング不要なVLA推論アクセラレーションフレームワークである。
最先端の量子化とトークンのプルーニングを同時に実現する。
標準的なVLAモデルに適用すると、SQAP-VLAは計算効率と推論速度において大きな向上をもたらす。
- 参考スコア(独自算出の注目度): 26.400918307368485
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models exhibit unprecedented capabilities for embodied intelligence. However, their extensive computational and memory costs hinder their practical deployment. Existing VLA compression and acceleration approaches conduct quantization or token pruning in an ad-hoc manner but fail to enable both for a holistic efficiency improvement due to an observed incompatibility. This work introduces SQAP-VLA, the first structured, training-free VLA inference acceleration framework that simultaneously enables state-of-the-art quantization and token pruning. We overcome the incompatibility by co-designing the quantization and token pruning pipeline, where we propose new quantization-aware token pruning criteria that work on an aggressively quantized model while improving the quantizer design to enhance pruning effectiveness. When applied to standard VLA models, SQAP-VLA yields significant gains in computational efficiency and inference speed while successfully preserving core model performance, achieving a $\times$1.93 speedup and up to a 4.5\% average success rate enhancement compared to the original model.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、インテリジェンスを具現化した前例のない能力を示す。
しかし、それらの計算とメモリのコストは、その実践的な展開を妨げる。
既存のVLA圧縮とアクセラレーションアプローチは、量子化やトークンプルーニングをアドホックな方法で行うが、観測された不整合性による全体的な効率の改善には失敗する。
SQAP-VLAは、最先端の量子化とトークンプルーニングを同時に実現した、最初の構造化、トレーニング不要なVLA推論アクセラレーションフレームワークである。
我々は、量子化とトークンプルーニングパイプラインを共同設計し、積極的な量子化モデル上で機能する新しい量子化対応トークンプルーニング基準を提案するとともに、量子化器の設計を改善して、プルーニングの有効性を高めることで、非互換性を克服する。
標準的なVLAモデルに適用すると、SQAP-VLAはコアモデルの性能を保ちながら計算効率と推論速度を著しく向上させ、$\times$1.93のスピードアップを達成する。
関連論文リスト
- ZeroQAT: Your Quantization-aware Training but Efficient [53.25965863436039]
量子化は、大規模言語モデル(LLM)のデプロイメントコストを削減する効果的な手法である。
既存の低ビットPTQ法は, 局所再構成目標と下流性能の相違による累積誤差の伝搬と誤調整が生じるため, 精度劣化に悩まされる。
我々は,ゼロオーダー最適化に基づくQATフレームワークZeroQATを提案する。
論文 参考訳(メタデータ) (2025-08-21T01:18:27Z) - EdgeVLA: Efficient Vision-Language-Action Models [0.4005096060512278]
本稿では,VLA(Vision-Language-Action)モデルの推論速度を大幅に向上する新しい手法であるEdge VLAを紹介する。
1)エンドエフェクタ位置予測の自己回帰要求を排除し,推論の7倍の高速化を実現し,2)小言語モデル(SLM)の効率を向上する。
我々の初期の結果は、EVLAがOpenVLAに匹敵するトレーニング特性を達成し、推論速度とメモリ効率を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2025-07-18T16:15:09Z) - CronusVLA: Transferring Latent Motion Across Time for Multi-Frame Prediction in Manipulation [67.1520483301709]
CronusVLAはシングルフレームのVLAモデルを効率的な後トレーニング段階を通じてマルチフレームのパラダイムに拡張する統合フレームワークである。
CronusVLAはSimplerEnvの最先端のパフォーマンスを70.9%の成功率で達成し、LIBEROのOpenVLAよりも12.7%改善した。
論文 参考訳(メタデータ) (2025-06-24T17:30:27Z) - SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration [69.54069477520534]
VLA(Vision-Language-Action)モデルは、その強力な制御能力に注目が集まっている。
計算コストが高く、実行頻度も低いため、ロボット操作や自律ナビゲーションといったリアルタイムタスクには適さない。
本稿では,共同スケジューリングモデルとプルーニングトークンにより,VLAモデルを高速化する統一フレームワークSP-VLAを提案する。
論文 参考訳(メタデータ) (2025-06-15T05:04:17Z) - Think Twice, Act Once: Token-Aware Compression and Action Reuse for Efficient Inference in Vision-Language-Action Models [30.7855782696894]
VLA(Vision-Language-Action)モデルは、自然言語による汎用ロボット制御の強力なパラダイムとして登場した。
VLAモデルにおけるアクション再利用を可能にする最初のトレーニングフリーかつプラグアンドプレイアクセラレーションフレームワークであるFlashVLAを提案する。
論文 参考訳(メタデータ) (2025-05-27T13:47:18Z) - EaqVLA: Encoding-aligned Quantization for Vision-Language-Action Models [10.58181401714169]
本稿では,VLAモデルに符号化整合量子化を適用するEaqVLAというフレームワークを提案する。
EaqVLAは、既存の量子化法よりも優れた量子化性能(エンドツーエンドのアクション制御とxxx倍加速の最小量子化損失)を達成する。
論文 参考訳(メタデータ) (2025-05-27T05:42:21Z) - Accelerating Vision-Language-Action Model Integrated with Action Chunking via Parallel Decoding [24.1236728596359]
VLA(Vision-Language-Action)モデルでは、一般化可能なロボット操作の可能性を示している。
本稿では,アクションチャンキングと統合されたVLAモデルのための最初の並列デコーディングフレームワークであるPD-VLAを提案する。
本フレームワークは,並列な固定点反復によって解く非線形システムとして自己回帰復号を再構成する。
論文 参考訳(メタデータ) (2025-03-04T06:12:08Z) - Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success [100.226572152954]
視覚言語アクションモデル(VLA)のための最適化された微調整レシピを提案する。
われわれのレシピはOpenVLAの4つのタスクスイートの平均成功率を76.5%から97.1%に引き上げ、アクション生成のスループットを26$times$に向上させた。
実世界の評価において、我々の微調整のレシピにより、OpenVLAはバイマガルALOHAロボット上でデクスタラスで高周波な制御タスクをうまく実行することができる。
論文 参考訳(メタデータ) (2025-02-27T00:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。