論文の概要: Rethinking the Practicality of Vision-language-action Model: A Comprehensive Benchmark and An Improved Baseline
- arxiv url: http://arxiv.org/abs/2602.22663v1
- Date: Thu, 26 Feb 2026 06:27:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.72668
- Title: Rethinking the Practicality of Vision-language-action Model: A Comprehensive Benchmark and An Improved Baseline
- Title(参考訳): 視覚言語行動モデルの実践性を再考する:包括的ベンチマークと改良されたベースライン
- Authors: Wenxuan Song, Jiayi Chen, Xiaoquan Sun, Huashuo Lei, Yikai Qin, Wei Zhao, Pengxiang Ding, Han Zhao, Tongxin Wang, Pengxu Hou, Zhide Zhong, Haodong Yan, Donglin Wang, Jun Ma, Haoang Li,
- Abstract要約: VLA(Vision-Language-Action)モデルは、汎用的なロボットエージェントとして登場した。
既存のVLAは、過剰なパラメータスケール、禁制的な事前訓練要件、多様な実施法の適用性に障害がある。
本稿では,領域ランダム化を考慮したCEBenchを提案する。
- 参考スコア(独自算出の注目度): 38.41143967396976
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models have emerged as a generalist robotic agent. However, existing VLAs are hindered by excessive parameter scales, prohibitive pre-training requirements, and limited applicability to diverse embodiments. To improve the practicality of VLAs, we propose a comprehensive benchmark and an improved baseline. First, we propose CEBench, a new benchmark spanning diverse embodiments in both simulation and the real world with consideration of domain randomization. We collect 14.4k simulated trajectories and 1.6k real-world expert-curated trajectories to support training on CEBench. Second, using CEBench as our testbed, we study three critical aspects of VLAs' practicality and offer several key findings. Informed by these findings, we introduce LLaVA-VLA, a lightweight yet powerful VLA designed for practical deployment on consumer-grade GPUs. Architecturally, it integrates a compact VLM backbone with multi-view perception, proprioceptive tokenization, and action chunking. To eliminate reliance on costly pre-training, LLaVA-VLA adopts a two-stage training paradigm including post-training and fine-tuning. Furthermore, LLaVA-VLA extends the action space to unify navigation and manipulation. Experiments across embodiments demonstrate the capabilities of generalization and versatility of LLaVA-VLA , while real-world mobile manipulation experiments establish it as the first end-to-end VLA model for mobile manipulation. We will open-source all datasets, codes, and checkpoints upon acceptance to foster reproducibility and future research.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、汎用的なロボットエージェントとして登場した。
しかし、既存のVLAは、過剰なパラメータスケール、禁制的な事前訓練要件、多様な実施法の適用性に妨げられている。
VLAの実用性を改善するため,包括的なベンチマークと改良されたベースラインを提案する。
まず,領域ランダム化を考慮したCEBenchを提案する。
CEBenchでのトレーニングを支援するため,14.4kの模擬軌道と1.6kの現実世界の専門家による軌道を収集した。
第2に,テストベッドとしてCEBenchを用いて,VLAの実用性に関する3つの重要な側面について検討し,いくつかの重要な知見を得た。
LLaVA-VLAは、コンシューマグレードのGPUに実際にデプロイするために設計された軽量でパワフルなVLAである。
アーキテクチャ上は、コンパクトなVLMバックボーンと、多視点認識、固有トークン化、アクションチャンキングを統合している。
LLaVA-VLAは、コストのかかる事前トレーニングへの依存を避けるため、後トレーニングと微調整を含む2段階のトレーニングパラダイムを採用している。
さらに、LLaVA-VLAは、ナビゲーションと操作を統合するためにアクション空間を拡張している。
実世界のモバイル操作実験では,モバイル操作のための最初のエンドツーエンドVLAモデルとして確立されている。
すべてのデータセット、コード、チェックポイントをオープンソースにして、再現性と将来の研究を促進するつもりです。
関連論文リスト
- SimVLA: A Simple VLA Baseline for Robotic Manipulation [46.38114519538192]
VLA(Vision-Language-Action)モデルは、汎用ロボット操作のための有望なパラダイムとして登場した。
我々は,VLA研究の透明な基準点を確立するために,SimVLAを紹介した。
論文 参考訳(メタデータ) (2026-02-20T14:04:27Z) - VLANeXt: Recipes for Building Strong VLA Models [95.4552662536287]
VLA(Vision-Language-Action Model)が登場し、強力な視覚と言語理解を政策学習に活用した。
多くのグループが独自のVLAモデルを提案しているが、トレーニングプロトコルと評価設定の不整合により、どの設計選択が本当に重要なのかを特定することは困難である。
コミュニティが発見を再現するための共通プラットフォームとして機能する、統一的で使いやすいフレームワークをリリースします。
論文 参考訳(メタデータ) (2026-02-20T09:26:17Z) - X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model [62.21943953611646]
Vision-Language-Actionモデルは、多様なロボットプラットフォームにわたる効果的なトレーニングに依存している。
最小限のパラメータを付加したソフトプロンプト手法を提案する。
0.9Bのインスタンス化-X-VLA-0.9Bは,ベンチマークの全体にわたってSOTA性能を同時に達成することを示す。
論文 参考訳(メタデータ) (2025-10-11T16:20:17Z) - Parallels Between VLA Model Post-Training and Human Motor Learning: Progress, Challenges, and Trends [11.678954304546988]
視覚言語アクション(VLA)モデル拡張視覚言語モデル(VLM)
本稿では,人間の運動学習のレンズによるVLAモデルの訓練戦略についてレビューする。
論文 参考訳(メタデータ) (2025-06-26T03:06:57Z) - TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation [32.406783380729024]
VLA(Vision-Language-Action)モデルは、エンド・ツー・エンドの学習プロセスを通じて、視覚運動制御と命令理解において顕著な可能性を示している。
現在のVLAモデルは、推論中に遅くなり、大量のロボットデータに対して広範な事前トレーニングを必要としているため、重大な課題に直面している。
既存のVLAモデルに対して2つのアドバンテージを提供する,TinyVLAと呼ばれる,コンパクトな視覚言語アクションモデルを導入した。
論文 参考訳(メタデータ) (2024-09-19T07:10:18Z) - OpenVLA: An Open-Source Vision-Language-Action Model [131.74098076670103]
我々は、970kの現実世界のロボットデモの多様なコレクションに基づいて訓練されたオープンソースのVLAであるOpenVLAを紹介した。
OpenVLAは汎用的な操作の強力な結果を示し、RT-2-X (55B) のようなクローズドモデルよりも16.5%高い絶対的なタスク成功率を示した。
モデルチェックポイント、微調整ノートブック、そしてOpen X-Embodimentデータセット上で大規模にVLAをトレーニングするためのビルトインサポートを備えたPyTorchをリリースしています。
論文 参考訳(メタデータ) (2024-06-13T15:46:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。