Fugu-MT 論文翻訳(概要): Accelerating Vision-Language-Action Model Integrated with Action Chunking via Parallel Decoding

論文の概要: Accelerating Vision-Language-Action Model Integrated with Action Chunking via Parallel Decoding

arxiv url: http://arxiv.org/abs/2503.02310v1
Date: Tue, 04 Mar 2025 06:12:08 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-06 17:18:40.567431
Title: Accelerating Vision-Language-Action Model Integrated with Action Chunking via Parallel Decoding
Title（参考訳）: 並列デコーディングによるアクションチャンキングと統合された視覚・言語・アクションモデルの高速化
Authors: Wenxuan Song, Jiayi Chen, Pengxiang Ding, Han Zhao, Wei Zhao, Zhide Zhong, Zongyuan Ge, Jun Ma, Haoang Li,
Abstract要約: VLA(Vision-Language-Action)モデルでは、一般化可能なロボット操作の可能性を示している。本稿では,アクションチャンキングと統合されたVLAモデルのための最初の並列デコーディングフレームワークであるPD-VLAを提案する。本フレームワークは,並列な固定点反復によって解く非線形システムとして自己回帰復号を再構成する。
参考スコア（独自算出の注目度）: 24.1236728596359
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-Language-Action (VLA) models demonstrate remarkable potential for generalizable robotic manipulation. The performance of VLA models can be improved by integrating with action chunking, a critical technique for effective control. However, action chunking linearly scales up action dimensions in VLA models with increased chunking sizes. This reduces the inference efficiency. To tackle this problem, we propose PD-VLA, the first parallel decoding framework for VLA models integrated with action chunking. Our framework reformulates autoregressive decoding as a nonlinear system solved by parallel fixed-point iterations. This approach preserves model performance with mathematical guarantees while significantly improving decoding speed. In addition, it enables training-free acceleration without architectural changes, as well as seamless synergy with existing acceleration techniques. Extensive simulations validate that our PD-VLA maintains competitive success rates while achieving 2.52 times execution frequency on manipulators (with 7 degrees of freedom) compared with the fundamental VLA model. Furthermore, we experimentally identify the most effective settings for acceleration. Finally, real-world experiments validate its high applicability across different tasks.
Abstract（参考訳）: VLA(Vision-Language-Action)モデルでは、一般化可能なロボット操作の可能性を示している。 VLAモデルの性能は、効果的な制御のための重要な技術であるアクションチャンキングと統合することで改善することができる。しかしながら、アクションチャンキングは、チャンキングサイズが増大したVLAモデルのアクション次元を線形にスケールアップする。これにより推論効率が低下する。この問題を解決するために,アクションチャンキングと統合されたVLAモデルのための最初の並列デコードフレームワークであるPD-VLAを提案する。本フレームワークは,並列な固定点反復によって解く非線形システムとして自己回帰復号を再構成する。このアプローチは、デコード速度を大幅に改善しつつ、数学的保証でモデル性能を保ちます。さらに、アーキテクチャの変更なしにトレーニング不要のアクセラレーションを可能にし、既存のアクセラレーション技術とシームレスなシナジーを可能にする。 PD-VLAは, 基本VLAモデルと比較して, マニピュレータ上での2.52回(自由度7度)の実行頻度を達成しながら, 競争成功率を維持していることを確認した。さらに,アクセラレーションに最も有効な設定を実験的に同定した。最後に、実世界の実験は、異なるタスクにまたがる高い適用性を検証する。

関連論文リスト

EdgeVLA: Efficient Vision-Language-Action Models [0.4005096060512278]
本稿では,VLA(Vision-Language-Action)モデルの推論速度を大幅に向上する新しい手法であるEdge VLAを紹介する。 1)エンドエフェクタ位置予測の自己回帰要求を排除し,推論の7倍の高速化を実現し,2)小言語モデル(SLM)の効率を向上する。我々の初期の結果は、EVLAがOpenVLAに匹敵するトレーニング特性を達成し、推論速度とメモリ効率を大幅に向上させることを示した。
論文参考訳（メタデータ） (2025-07-18T16:15:09Z)
VOTE: Vision-Language-Action Optimization with Trajectory Ensemble Voting [40.837048280287206]
視覚言語行動(VLA)モデルは、自然言語で案内されるロボット操作タスクにおいて優れた性能を示している。現在のVLAモデルは、2つの欠点に悩まされている: (i) 高い推論遅延とトレーニングコストの増加につながる大量のトークンの生成、 (ii) 生成されたアクションの不十分な利用により性能が低下する。並列性の高いアクショントークンを生成するために,VLAモデルを微調整するトレーニングフレームワークを開発し,推論遅延とトレーニングコストを効果的に低減する。
論文参考訳（メタデータ） (2025-07-07T15:30:55Z)
CronusVLA: Transferring Latent Motion Across Time for Multi-Frame Prediction in Manipulation [67.1520483301709]
CronusVLAはシングルフレームのVLAモデルを効率的な後トレーニング段階を通じてマルチフレームのパラダイムに拡張する統合フレームワークである。 CronusVLAはSimplerEnvの最先端のパフォーマンスを70.9%の成功率で達成し、LIBEROのOpenVLAよりも12.7%改善した。
論文参考訳（メタデータ） (2025-06-24T17:30:27Z)
SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration [69.54069477520534]
VLA(Vision-Language-Action)モデルは、その強力な制御能力に注目が集まっている。計算コストが高く、実行頻度も低いため、ロボット操作や自律ナビゲーションといったリアルタイムタスクには適さない。本稿では,共同スケジューリングモデルとプルーニングトークンにより,VLAモデルを高速化する統一フレームワークSP-VLAを提案する。
論文参考訳（メタデータ） (2025-06-15T05:04:17Z)
Think Twice, Act Once: Token-Aware Compression and Action Reuse for Efficient Inference in Vision-Language-Action Models [30.7855782696894]
VLA(Vision-Language-Action)モデルは、自然言語による汎用ロボット制御の強力なパラダイムとして登場した。 VLAモデルにおけるアクション再利用を可能にする最初のトレーニングフリーかつプラグアンドプレイアクセラレーションフレームワークであるFlashVLAを提案する。
論文参考訳（メタデータ） (2025-05-27T13:47:18Z)
CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文参考訳（メタデータ） (2025-03-27T22:23:04Z)
HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model [54.64088247291416]
単一大規模言語モデルに自動回帰および拡散ポリシーをシームレスに統合する統合フレームワークであるHybridVLAを紹介する。このレシピにより、これらの2種類の行動予測は互いに強化するだけでなく、異なるタスクにまたがる様々なパフォーマンスを示す。実験では、HybridVLAは様々なシミュレーションや実世界のタスクにまたがって、最先端のVLA手法よりも優れている。
論文参考訳（メタデータ） (2025-03-13T17:59:52Z)
Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success [100.226572152954]
視覚言語アクションモデル(VLA)のための最適化された微調整レシピを提案する。われわれのレシピはOpenVLAの4つのタスクスイートの平均成功率を76.5%から97.1%に引き上げ、アクション生成のスループットを26$times$に向上させた。実世界の評価において、我々の微調整のレシピにより、OpenVLAはバイマガルALOHAロボット上でデクスタラスで高周波な制御タスクをうまく実行することができる。
論文参考訳（メタデータ） (2025-02-27T00:30:29Z)
CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation [100.25567121604382]
VLA(Vision-Language-Action)モデルは、言語誘導されたタスクの実行と、目に見えないシナリオへの一般化の観点から、ロボット操作を改善した。 VLM(Vision-Language-Models)に基づく新しい高度なVLAアーキテクチャを提案する。我々のモデルはタスクパフォーマンスにおいて既存のVLAをはるかに上回るだけでなく、新しいロボットへの顕著な適応と、見えないオブジェクトや背景への一般化も示している。
論文参考訳（メタデータ） (2024-11-29T12:06:03Z)
A Dual Process VLA: Efficient Robotic Manipulation Leveraging VLM [0.26334346517416873]
VLA(Vision-Language-Action)モデルでは、視覚コンテキストと言語コマンドを統合することで、ロボットが複雑なタスクを実行できる。これを解決するために,デュアルプロセス理論に着想を得た階層型フレームワークであるDual Process VLA(DP-VLA)を提案する。 RoboCasaデータセットの実験結果は、DP-VLAがより高速な推論とより高いタスク成功率を達成することを示した。
論文参考訳（メタデータ） (2024-10-21T00:36:02Z)
TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation [32.406783380729024]
VLA(Vision-Language-Action)モデルは、エンド・ツー・エンドの学習プロセスを通じて、視覚運動制御と命令理解において顕著な可能性を示している。現在のVLAモデルは、推論中に遅くなり、大量のロボットデータに対して広範な事前トレーニングを必要としているため、重大な課題に直面している。既存のVLAモデルに対して2つのアドバンテージを提供する,TinyVLAと呼ばれる,コンパクトな視覚言語アクションモデルを導入した。
論文参考訳（メタデータ） (2024-09-19T07:10:18Z)
OpenVLA: An Open-Source Vision-Language-Action Model [131.74098076670103]
我々は、970kの現実世界のロボットデモの多様なコレクションに基づいて訓練されたオープンソースのVLAであるOpenVLAを紹介した。 OpenVLAは汎用的な操作の強力な結果を示し、RT-2-X (55B) のようなクローズドモデルよりも16.5%高い絶対的なタスク成功率を示した。モデルチェックポイント、微調整ノートブック、そしてOpen X-Embodimentデータセット上で大規模にVLAをトレーニングするためのビルトインサポートを備えたPyTorchをリリースしています。
論文参考訳（メタデータ） (2024-06-13T15:46:55Z)
A Self-Correcting Vision-Language-Action Model for Fast and Slow System Manipulation [30.207690822989292]
自己修正(SC-)VLAフレームワークは、アクションを直接予測する高速システムと、失敗したアクションを反映する遅いシステムを統合する。高速システムでは,パラメータ効率のよい微調整を取り入れて,モデルにポーズ予測機能を持たせる。動作が遅いシステムでは,動作不良後の人間の反射を模倣するように設計された,故障訂正のためのチェーン・オブ・ソート・トレーニング戦略を提案する。
論文参考訳（メタデータ） (2024-05-27T17:58:48Z)
Boost Video Frame Interpolation via Motion Adaptation [73.42573856943923]
ビデオフレーム(VFI)は、2つの連続するフレーム間の中間フレームを生成することを目的とした課題である。既存の学習ベースのVFI手法は大きな成功を収めたが、それでも限定的な一般化能力に悩まされている。テスト時に見えない動作に適応できる新しい最適化ベースのVFI法を提案する。
論文参考訳（メタデータ） (2023-06-24T10:44:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。