論文の概要: Spec-VLA: Speculative Decoding for Vision-Language-Action Models with Relaxed Acceptance
- arxiv url: http://arxiv.org/abs/2507.22424v1
- Date: Wed, 30 Jul 2025 07:04:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 16:14:18.049009
- Title: Spec-VLA: Speculative Decoding for Vision-Language-Action Models with Relaxed Acceptance
- Title(参考訳): Spec-VLA: アクセプタンスを緩和したビジョンランゲージ・アクションモデルのための投機的デコーディング
- Authors: Songsheng Wang, Rucheng Yu, Zhihang Yuan, Chao Yu, Feng Gao, Yu Wang, Derek F. Wong,
- Abstract要約: この研究は、Vision-Language-Action(VLA)モデルを高速化するために設計されたSDフレームワークであるSpec-VLAを紹介する。
生成速度を向上させるために,VLAモデルのアクショントークンで表される相対距離を利用して,受理を緩和する効果的な機構を提案する。
- 参考スコア(独自算出の注目度): 27.47568622830058
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models have made substantial progress by leveraging the robust capabilities of Visual Language Models (VLMs). However, VLMs' significant parameter size and autoregressive (AR) decoding nature impose considerable computational demands on VLA models. While Speculative Decoding (SD) has shown efficacy in accelerating Large Language Models (LLMs) by incorporating efficient drafting and parallel verification, allowing multiple tokens to be generated in one forward pass, its application to VLA models remains unexplored. This work introduces Spec-VLA, an SD framework designed to accelerate VLA models. Due to the difficulty of the action prediction task and the greedy decoding mechanism of the VLA models, the direct application of the advanced SD framework to the VLA prediction task yields a minor speed improvement. To boost the generation speed, we propose an effective mechanism to relax acceptance utilizing the relative distances represented by the action tokens of the VLA model. Empirical results across diverse test scenarios affirm the effectiveness of the Spec-VLA framework, and further analysis substantiates the impact of our proposed strategies, which enhance the acceptance length by 44%, achieving 1.42 times speedup compared with the OpenVLA baseline, without compromising the success rate. The success of the Spec-VLA framework highlights the potential for broader application of speculative execution in VLA prediction scenarios.
- Abstract(参考訳): Vision-Language-Action(VLA)モデルは、Visual Language Models(VLM)の堅牢性を活用することで、大幅に進歩した。
しかしながら、VLMsの重要なパラメータサイズと自己回帰(AR)復号性は、VLAモデルにかなりの計算要求を課している。
Speculative Decoding (SD) は、効率的なドラフト作成と並列検証を組み込むことで、Large Language Models (LLMs) の高速化に有効であることを示したが、VLAモデルへの適用は未検討のままである。
この研究は、VLAモデルを高速化するために設計されたSDフレームワークであるSpec-VLAを導入している。
動作予測タスクの難しさとVLAモデルの欲求的復号化機構のため,VLA予測タスクへの高度なSDフレームワークの直接適用は,若干の速度改善をもたらす。
生成速度を向上させるために,VLAモデルのアクショントークンで表される相対距離を利用して,受理を緩和する効果的な機構を提案する。
様々なテストシナリオにわたる実験結果からSpec-VLAフレームワークの有効性が確認され、さらに分析によって提案手法が44%向上し、OpenVLAベースラインと比較して1.42倍のスピードアップを実現し、成功率を損なうことなく、提案手法の影響を裏付ける。
Spec-VLAフレームワークの成功は、VLA予測シナリオにおける投機的実行の広範な適用の可能性を強調している。
関連論文リスト
- EdgeVLA: Efficient Vision-Language-Action Models [0.4005096060512278]
本稿では,VLA(Vision-Language-Action)モデルの推論速度を大幅に向上する新しい手法であるEdge VLAを紹介する。
1)エンドエフェクタ位置予測の自己回帰要求を排除し,推論の7倍の高速化を実現し,2)小言語モデル(SLM)の効率を向上する。
我々の初期の結果は、EVLAがOpenVLAに匹敵するトレーニング特性を達成し、推論速度とメモリ効率を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2025-07-18T16:15:09Z) - SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration [69.54069477520534]
VLA(Vision-Language-Action)モデルは、その強力な制御能力に注目が集まっている。
計算コストが高く、実行頻度も低いため、ロボット操作や自律ナビゲーションといったリアルタイムタスクには適さない。
本稿では,共同スケジューリングモデルとプルーニングトークンにより,VLAモデルを高速化する統一フレームワークSP-VLAを提案する。
論文 参考訳(メタデータ) (2025-06-15T05:04:17Z) - Think Twice, Act Once: Token-Aware Compression and Action Reuse for Efficient Inference in Vision-Language-Action Models [30.7855782696894]
VLA(Vision-Language-Action)モデルは、自然言語による汎用ロボット制御の強力なパラダイムとして登場した。
VLAモデルにおけるアクション再利用を可能にする最初のトレーニングフリーかつプラグアンドプレイアクセラレーションフレームワークであるFlashVLAを提案する。
論文 参考訳(メタデータ) (2025-05-27T13:47:18Z) - CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z) - Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success [100.226572152954]
視覚言語アクションモデル(VLA)のための最適化された微調整レシピを提案する。
われわれのレシピはOpenVLAの4つのタスクスイートの平均成功率を76.5%から97.1%に引き上げ、アクション生成のスループットを26$times$に向上させた。
実世界の評価において、我々の微調整のレシピにより、OpenVLAはバイマガルALOHAロボット上でデクスタラスで高周波な制御タスクをうまく実行することができる。
論文 参考訳(メタデータ) (2025-02-27T00:30:29Z) - CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation [100.25567121604382]
VLA(Vision-Language-Action)モデルは、言語誘導されたタスクの実行と、目に見えないシナリオへの一般化の観点から、ロボット操作を改善した。
VLM(Vision-Language-Models)に基づく新しい高度なVLAアーキテクチャを提案する。
我々のモデルはタスクパフォーマンスにおいて既存のVLAをはるかに上回るだけでなく、新しいロボットへの顕著な適応と、見えないオブジェクトや背景への一般化も示している。
論文 参考訳(メタデータ) (2024-11-29T12:06:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。