論文の概要: Survey of Vision-Language-Action Models for Embodied Manipulation
- arxiv url: http://arxiv.org/abs/2508.15201v1
- Date: Thu, 21 Aug 2025 03:30:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.16375
- Title: Survey of Vision-Language-Action Models for Embodied Manipulation
- Title(参考訳): 身体操作における視覚・言語・行動モデルの検討
- Authors: Haoran Li, Yuhui Chen, Wenbo Cui, Weiheng Liu, Kai Liu, Mingcai Zhou, Zhengtao Zhang, Dongbin Zhao,
- Abstract要約: エンボディード・インテリジェンス・システムは、継続的な環境相互作用を通じてエージェント能力を増強する。
ビジョン・ランゲージ・アクションモデル(Vision-Language-Action model)は、大きな基礎モデルの進歩に触発された、普遍的なロボット制御フレームワークとして機能する。
本調査では,VLAモデルを包括的に検討した。
- 参考スコア(独自算出の注目度): 12.586030711502858
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Embodied intelligence systems, which enhance agent capabilities through continuous environment interactions, have garnered significant attention from both academia and industry. Vision-Language-Action models, inspired by advancements in large foundation models, serve as universal robotic control frameworks that substantially improve agent-environment interaction capabilities in embodied intelligence systems. This expansion has broadened application scenarios for embodied AI robots. This survey comprehensively reviews VLA models for embodied manipulation. Firstly, it chronicles the developmental trajectory of VLA architectures. Subsequently, we conduct a detailed analysis of current research across 5 critical dimensions: VLA model structures, training datasets, pre-training methods, post-training methods, and model evaluation. Finally, we synthesize key challenges in VLA development and real-world deployment, while outlining promising future research directions.
- Abstract(参考訳): 継続的な環境相互作用を通じてエージェント能力を増強する身体情報システムは、アカデミックと産業の両方から大きな注目を集めている。
ビジョン・ランゲージ・アクションモデル(Vision-Language-Action model)は、大規模な基盤モデルの進歩にインスパイアされた、エージェントと環境の相互作用能力を大幅に改善する普遍的なロボット制御フレームワークとして機能する。
この拡張により、エンボディされたAIロボットのアプリケーションシナリオが拡大された。
本調査では,VLAモデルを包括的に検討した。
第一に、VLAアーキテクチャの発達軌跡を記述している。
次に、VLAモデル構造、トレーニングデータセット、事前学習方法、ポストトレーニング方法、モデル評価の5つの重要な側面について、現在の研究を詳細に分析する。
最後に、将来有望な研究方向性を概説しながら、VLA開発と実世界の展開における重要な課題を合成する。
関連論文リスト
- Edge General Intelligence Through World Models and Agentic AI: Fundamentals, Solutions, and Challenges [87.02855999212817]
エッジ・ジェネラル・インテリジェンス(エッジ・ジェネラル・インテリジェンス、Edge General Intelligence、EGI)は、分散エージェントが自律的に知覚、理性、行動する能力を持つエッジ・コンピューティングの変革的進化を表す。
世界モデルは、将来の軌跡を予測するだけでなく、積極的に想像するプロアクティブな内部シミュレーターとして機能し、不確実性の理由を定め、予見で多段階のアクションを計画する。
この調査は、世界モデルがどのようにエージェント人工知能(AI)システムをエッジで強化できるかを包括的に分析することで、ギャップを埋める。
論文 参考訳(メタデータ) (2025-08-13T07:29:40Z) - Towards Embodied Agentic AI: Review and Classification of LLM- and VLM-Driven Robot Autonomy and Interaction [0.4786416643636131]
大規模言語モデル(LLM)や視覚言語モデル(VLM)を含む基礎モデルは、ロボットの自律性とヒューマンロボットインタフェースに対する新しいアプローチを実現した。
並行して、視覚言語行動モデル(VLA)や大型行動モデル(LBM)は、ロボットシステムのデクスタリティと能力を高めている。
論文 参考訳(メタデータ) (2025-08-07T11:48:03Z) - Parallels Between VLA Model Post-Training and Human Motor Learning: Progress, Challenges, and Trends [11.678954304546988]
視覚言語アクション(VLA)モデル拡張視覚言語モデル(VLM)
本稿では,人間の運動学習のレンズによるVLAモデルの訓練戦略についてレビューする。
論文 参考訳(メタデータ) (2025-06-26T03:06:57Z) - World Models for Cognitive Agents: Transforming Edge Intelligence in Future Networks [55.90051810762702]
本稿では,世界モデルを概観し,そのアーキテクチャ,トレーニングパラダイム,予測,生成,計画,因果推論といった応用を概観する。
ワイヤレスエッジインテリジェンス最適化に適した,新しい世界モデルに基づく強化学習フレームワークであるWireless Dreamerを提案する。
論文 参考訳(メタデータ) (2025-05-31T06:43:00Z) - A Survey of World Models for Autonomous Driving [63.33363128964687]
自律運転の最近の進歩は、堅牢な世界モデリングの進歩によって推進されている。
世界モデルは、マルチセンサーデータ、セマンティックキュー、時間ダイナミクスを統合する駆動環境の高忠実度表現を提供する。
本稿では、自律運転の世界モデルにおける最近の進歩を体系的にレビューする。
論文 参考訳(メタデータ) (2025-01-20T04:00:02Z) - Benchmarking Vision, Language, & Action Models on Robotic Learning Tasks [20.93006455952299]
視覚言語アクション(VLA)モデルは汎用ロボットシステムを開発する上で有望な方向を示す。
VLAモデルを評価するための総合的な評価フレームワークとベンチマークスイートを提案する。
論文 参考訳(メタデータ) (2024-11-04T18:01:34Z) - A Survey on Vision-Language-Action Models for Embodied AI [71.16123093739932]
エンボディードAIは、人工知能の重要な要素として広く認識されている。
組込みAIにおける言語条件ロボットタスクに対処するために、マルチモーダルモデルの新たなカテゴリが登場した。
具体的AIのための視覚-言語-アクションモデルに関する第1回調査を示す。
論文 参考訳(メタデータ) (2024-05-23T01:43:54Z) - Forging Vision Foundation Models for Autonomous Driving: Challenges,
Methodologies, and Opportunities [59.02391344178202]
ビジョンファウンデーションモデル(VFM)は、幅広いAIアプリケーションのための強力なビルディングブロックとして機能する。
総合的なトレーニングデータの不足、マルチセンサー統合の必要性、多様なタスク固有のアーキテクチャは、VFMの開発に重大な障害をもたらす。
本稿では、自動運転に特化したVFMを鍛造する上で重要な課題について述べるとともに、今後の方向性を概説する。
論文 参考訳(メタデータ) (2024-01-16T01:57:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。