論文の概要: SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration
- arxiv url: http://arxiv.org/abs/2506.12723v2
- Date: Thu, 19 Jun 2025 07:54:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 12:57:34.486823
- Title: SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration
- Title(参考訳): SP-VLA: VLAモデル加速のための統合モデルスケジューリングとトーケンプルーニングアプローチ
- Authors: Ye Li, Yuan Meng, Zewen Sun, Kangye Ji, Chen Tang, Jiajun Fan, Xinzhu Ma, Shutao Xia, Zhi Wang, Wenwu Zhu,
- Abstract要約: VLA(Vision-Language-Action)モデルは、その強力な制御能力に注目が集まっている。
計算コストが高く、実行頻度も低いため、ロボット操作や自律ナビゲーションといったリアルタイムタスクには適さない。
本稿では,共同スケジューリングモデルとプルーニングトークンにより,VLAモデルを高速化する統一フレームワークSP-VLAを提案する。
- 参考スコア(独自算出の注目度): 69.54069477520534
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action (VLA) models have attracted increasing attention for their strong control capabilities. However, their high computational cost and low execution frequency hinder their suitability for real-time tasks such as robotic manipulation and autonomous navigation. Existing VLA acceleration methods primarily focus on structural optimization, overlooking the fact that these models operate in sequential decision-making environments. As a result, temporal redundancy in sequential action generation and spatial redundancy in visual input remain unaddressed. To this end, we propose SP-VLA, a unified framework that accelerates VLA models by jointly scheduling models and pruning tokens. Specifically, we design an action-aware model scheduling mechanism that reduces temporal redundancy by dynamically switching between VLA model and a lightweight generator. Inspired by the human motion pattern of focusing on key decision points while relying on intuition for other actions, we categorize VLA actions into deliberative and intuitive, assigning the former to the VLA model and the latter to the lightweight generator, enabling frequency-adaptive execution through collaborative model scheduling. To address spatial redundancy, we further develop a spatio-semantic dual-aware token pruning method. Tokens are classified into spatial and semantic types and pruned based on their dual-aware importance to accelerate VLA inference. These two mechanisms work jointly to guide the VLA in focusing on critical actions and salient visual information, achieving effective acceleration while maintaining high accuracy. Experimental results demonstrate that our method achieves up to 1.5$\times$ acceleration with less than 3% drop in accuracy, outperforming existing approaches in multiple tasks.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、その強力な制御能力に注目が集まっている。
しかし、計算コストが高く、実行頻度も低いため、ロボット操作や自律ナビゲーションといったリアルタイムタスクには適さない。
既存のVLA加速法は主に構造最適化に重点を置いており、これらのモデルが逐次的な意思決定環境で動作しているという事実を見越している。
その結果、シーケンシャルな動作生成における時間的冗長性と視覚入力における空間的冗長性は未解決のままである。
そこで本研究では,モデルとプルーニングトークンを協調的にスケジューリングすることで,VLAモデルを高速化する統一フレームワークSP-VLAを提案する。
具体的には、VLAモデルと軽量発電機を動的に切り替えることで、時間的冗長性を低減できる行動認識モデルスケジューリング機構を設計する。
人間の動作パターンにインスパイアされて、他の行動に対する直感に依存しながら重要な決定点に焦点を合わせ、VLAアクションを熟考的かつ直感的に分類し、前者をVLAモデルに、後者を軽量ジェネレータに割り当て、協調モデルスケジューリングによる周波数適応実行を可能にする。
空間的冗長性に対処するため,スポース・セマンティック・デュアル・アウェア・トークン・プルーニング法を開発した。
トークンは空間型と意味型に分類され、VLA推論を加速するための二重認識の重要性に基づいて刈り取られる。
これらの2つのメカニズムは、重要な行動と健全な視覚情報に焦点を合わせ、高い精度を維持しながら効果的な加速度を達成するために協力してVLAを誘導する。
実験の結果, 最大1.5$\times$Accelerationを精度3%以下で達成し, 複数のタスクにおける既存手法よりも優れていることがわかった。
関連論文リスト
- Think Twice, Act Once: Token-Aware Compression and Action Reuse for Efficient Inference in Vision-Language-Action Models [30.7855782696894]
VLA(Vision-Language-Action)モデルは、自然言語による汎用ロボット制御の強力なパラダイムとして登場した。
VLAモデルにおけるアクション再利用を可能にする最初のトレーニングフリーかつプラグアンドプレイアクセラレーションフレームワークであるFlashVLAを提案する。
論文 参考訳(メタデータ) (2025-05-27T13:47:18Z) - CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z) - HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model [54.64088247291416]
単一大規模言語モデルに自動回帰および拡散ポリシーをシームレスに統合する統合フレームワークであるHybridVLAを紹介する。
このレシピにより、これらの2種類の行動予測は互いに強化するだけでなく、異なるタスクにまたがる様々なパフォーマンスを示す。
実験では、HybridVLAは様々なシミュレーションや実世界のタスクにまたがって、最先端のVLA手法よりも優れている。
論文 参考訳(メタデータ) (2025-03-13T17:59:52Z) - Accelerating Vision-Language-Action Model Integrated with Action Chunking via Parallel Decoding [24.1236728596359]
VLA(Vision-Language-Action)モデルでは、一般化可能なロボット操作の可能性を示している。
本稿では,アクションチャンキングと統合されたVLAモデルのための最初の並列デコーディングフレームワークであるPD-VLAを提案する。
本フレームワークは,並列な固定点反復によって解く非線形システムとして自己回帰復号を再構成する。
論文 参考訳(メタデータ) (2025-03-04T06:12:08Z) - TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation [32.406783380729024]
VLA(Vision-Language-Action)モデルは、エンド・ツー・エンドの学習プロセスを通じて、視覚運動制御と命令理解において顕著な可能性を示している。
現在のVLAモデルは、推論中に遅くなり、大量のロボットデータに対して広範な事前トレーニングを必要としているため、重大な課題に直面している。
既存のVLAモデルに対して2つのアドバンテージを提供する,TinyVLAと呼ばれる,コンパクトな視覚言語アクションモデルを導入した。
論文 参考訳(メタデータ) (2024-09-19T07:10:18Z) - A-SDM: Accelerating Stable Diffusion through Model Assembly and Feature Inheritance Strategies [51.7643024367548]
安定拡散モデルは、テキスト・ツー・イメージ(T2I)と画像・ツー・イメージ(I2I)生成のための一般的かつ効果的なモデルである。
本研究では、SDMにおける冗長計算の削減と、チューニング不要とチューニング不要の両方の手法によるモデルの最適化に焦点をあてる。
論文 参考訳(メタデータ) (2024-05-31T21:47:05Z) - A Self-Correcting Vision-Language-Action Model for Fast and Slow System Manipulation [30.207690822989292]
自己修正(SC-)VLAフレームワークは、アクションを直接予測する高速システムと、失敗したアクションを反映する遅いシステムを統合する。
高速システムでは,パラメータ効率のよい微調整を取り入れて,モデルにポーズ予測機能を持たせる。
動作が遅いシステムでは,動作不良後の人間の反射を模倣するように設計された,故障訂正のためのチェーン・オブ・ソート・トレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-05-27T17:58:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。