論文の概要: Pure Vision Language Action (VLA) Models: A Comprehensive Survey
- arxiv url: http://arxiv.org/abs/2509.19012v2
- Date: Thu, 25 Sep 2025 13:59:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 14:16:56.107867
- Title: Pure Vision Language Action (VLA) Models: A Comprehensive Survey
- Title(参考訳): 純粋視覚言語行動(VLA)モデル:包括的調査
- Authors: Dapeng Zhang, Jing Sun, Chenghui Hu, Xiaoyan Wu, Zhenlong Yuan, Rui Zhou, Fei Shen, Qingguo Zhou,
- Abstract要約: ビジョン言語アクション(VLA)モデルの出現は、従来のポリシーベースの制御から一般化されたロボット工学へのパラダイムシフトを表している。
この調査は、明確な分類学と既存の研究の体系的、包括的レビューを提供することを目的として、先進的なVLA手法を探求する。
- 参考スコア(独自算出の注目度): 16.014856048038272
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The emergence of Vision Language Action (VLA) models marks a paradigm shift from traditional policy-based control to generalized robotics, reframing Vision Language Models (VLMs) from passive sequence generators into active agents for manipulation and decision-making in complex, dynamic environments. This survey delves into advanced VLA methods, aiming to provide a clear taxonomy and a systematic, comprehensive review of existing research. It presents a comprehensive analysis of VLA applications across different scenarios and classifies VLA approaches into several paradigms: autoregression-based, diffusion-based, reinforcement-based, hybrid, and specialized methods; while examining their motivations, core strategies, and implementations in detail. In addition, foundational datasets, benchmarks, and simulation platforms are introduced. Building on the current VLA landscape, the review further proposes perspectives on key challenges and future directions to advance research in VLA models and generalizable robotics. By synthesizing insights from over three hundred recent studies, this survey maps the contours of this rapidly evolving field and highlights the opportunities and challenges that will shape the development of scalable, general-purpose VLA methods.
- Abstract(参考訳): ビジョン言語アクション(VLA)モデルの出現は、従来のポリシーベースの制御から一般化されたロボティクスへのパラダイムシフトであり、視覚言語モデル(VLM)を受動シーケンスジェネレータから複雑な動的環境における操作と意思決定のためのアクティブエージェントへと再フレーミングするものである。
この調査は、明確な分類学と既存の研究の体系的、包括的レビューを提供することを目的として、先進的なVLA手法を探求する。
さまざまなシナリオにわたるVLAアプリケーションの包括的な分析を行い、VLAアプローチをいくつかのパラダイムに分類する: 自己回帰ベース、拡散ベース、強化ベース、ハイブリッド、特殊メソッド。
さらに、基礎データセット、ベンチマーク、シミュレーションプラットフォームも導入されている。
現在のVLAの展望に基づいて、このレビューは、VLAモデルと一般化可能なロボット工学の研究を進めるための重要な課題と今後の方向性についての視点をさらに提案する。
300以上の最近の研究から洞察を合成することにより、この急速に発展している分野の輪郭を地図化し、スケーラブルで汎用的なVLA手法の開発を形作る機会と課題を強調します。
関連論文リスト
- Survey of Vision-Language-Action Models for Embodied Manipulation [12.586030711502858]
エンボディード・インテリジェンス・システムは、継続的な環境相互作用を通じてエージェント能力を増強する。
ビジョン・ランゲージ・アクションモデル(Vision-Language-Action model)は、大きな基礎モデルの進歩に触発された、普遍的なロボット制御フレームワークとして機能する。
本調査では,VLAモデルを包括的に検討した。
論文 参考訳(メタデータ) (2025-08-21T03:30:04Z) - Large VLM-based Vision-Language-Action Models for Robotic Manipulation: A Survey [45.10095869091538]
膨大な画像テキストデータセットに基づいて事前訓練されたLarge Vision-Language Models (VLM) 上に構築されたVLAモデルが、トランスフォーメーションパラダイムとして登場した。
この調査は、ロボット操作のための大規模なVLMベースのVLAモデルの、最初の体系的で分類指向のレビューを提供する。
論文 参考訳(メタデータ) (2025-08-18T16:45:48Z) - Vision Language Action Models in Robotic Manipulation: A Systematic Review [1.1767330101986737]
ビジョン言語アクション(VLA)モデルは、ロボット工学の変革的なシフトを表す。
本稿では,VLAパラダイムの包括的で先進的な合成について述べる。
102のVLAモデル、26の基盤データセット、12のシミュレーションプラットフォームを分析します。
論文 参考訳(メタデータ) (2025-07-14T18:00:34Z) - Parallels Between VLA Model Post-Training and Human Motor Learning: Progress, Challenges, and Trends [11.678954304546988]
視覚言語アクション(VLA)モデル拡張視覚言語モデル(VLM)
本稿では,人間の運動学習のレンズによるVLAモデルの訓練戦略についてレビューする。
論文 参考訳(メタデータ) (2025-06-26T03:06:57Z) - Generalizing vision-language models to novel domains: A comprehensive survey [55.97518817219619]
視覚言語事前学習は、視覚とテキストの両モードの強みを統合する変換技術として登場した。
本調査は, VLM文献における一般化設定, 方法論, ベンチマーク, 結果の総合的な要約を目的とする。
論文 参考訳(メタデータ) (2025-06-23T10:56:37Z) - CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z) - VLATest: Testing and Evaluating Vision-Language-Action Models for Robotic Manipulation [7.8735930411335895]
本稿では,VLAモデルをテストするロボット操作シーンを生成するファジィフレームワークであるVLATestを紹介する。
VLATestに基づいて,7つの代表的なVLAモデルの性能評価実験を行った。
論文 参考訳(メタデータ) (2024-09-19T16:33:00Z) - A Survey on Vision-Language-Action Models for Embodied AI [90.99896086619854]
エンボディードAIは、人工知能の重要な要素として広く認識されている。
組込みAIにおける言語条件ロボットタスクに対処するために、マルチモーダルモデルの新たなカテゴリが登場した。
具体的AIのための視覚-言語-アクションモデルに関する第1回調査を示す。
論文 参考訳(メタデータ) (2024-05-23T01:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。