論文の概要: Vision Language Action Models in Robotic Manipulation: A Systematic Review
- arxiv url: http://arxiv.org/abs/2507.10672v1
- Date: Mon, 14 Jul 2025 18:00:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 14:40:09.559328
- Title: Vision Language Action Models in Robotic Manipulation: A Systematic Review
- Title(参考訳): ロボットマニピュレーションにおける視覚言語行動モデル
- Authors: Muhayy Ud Din, Waseem Akram, Lyes Saad Saoud, Jan Rosell, Irfan Hussain,
- Abstract要約: ビジョン言語アクション(VLA)モデルは、ロボット工学の変革的なシフトを表す。
本稿では,VLAパラダイムの包括的で先進的な合成について述べる。
102のVLAモデル、26の基盤データセット、12のシミュレーションプラットフォームを分析します。
- 参考スコア(独自算出の注目度): 1.1767330101986737
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Language Action (VLA) models represent a transformative shift in robotics, with the aim of unifying visual perception, natural language understanding, and embodied control within a single learning framework. This review presents a comprehensive and forward-looking synthesis of the VLA paradigm, with a particular emphasis on robotic manipulation and instruction-driven autonomy. We comprehensively analyze 102 VLA models, 26 foundational datasets, and 12 simulation platforms that collectively shape the development and evaluation of VLAs models. These models are categorized into key architectural paradigms, each reflecting distinct strategies for integrating vision, language, and control in robotic systems. Foundational datasets are evaluated using a novel criterion based on task complexity, variety of modalities, and dataset scale, allowing a comparative analysis of their suitability for generalist policy learning. We introduce a two-dimensional characterization framework that organizes these datasets based on semantic richness and multimodal alignment, showing underexplored regions in the current data landscape. Simulation environments are evaluated for their effectiveness in generating large-scale data, as well as their ability to facilitate transfer from simulation to real-world settings and the variety of supported tasks. Using both academic and industrial contributions, we recognize ongoing challenges and outline strategic directions such as scalable pretraining protocols, modular architectural design, and robust multimodal alignment strategies. This review serves as both a technical reference and a conceptual roadmap for advancing embodiment and robotic control, providing insights that span from dataset generation to real world deployment of generalist robotic agents.
- Abstract(参考訳): ビジョン・ランゲージ・アクション(VLA)モデルは、視覚的知覚、自然言語理解、単一の学習フレームワークにおける制御の具体化を目的とした、ロボット工学の変革的なシフトを表している。
本稿では,ロボット操作と命令駆動型自律性に着目した,VLAパラダイムの包括的で先進的な合成について述べる。
102のVLAモデル、26の基盤データセット、12のシミュレーションプラットフォームを包括的に分析し、VLAモデルの開発と評価をまとめる。
これらのモデルは、ロボットシステムにおけるビジョン、言語、制御を統合するための異なる戦略を反映して、重要なアーキテクチャパラダイムに分類される。
基本的データセットは、タスクの複雑さ、様々なモダリティ、データセットスケールに基づいて、新しい基準を用いて評価され、一般政策学習におけるそれらの適合性の比較分析を可能にする。
セマンティック・リッチネスとマルチモーダル・アライメントに基づいてこれらのデータセットを整理する2次元キャラクタリゼーション・フレームワークを導入する。
シミュレーション環境の評価は,大規模なデータ生成の有効性と,シミュレーションから実環境への移行や支援タスクの多種多様さについて評価する。
学術的および産業的貢献の両方を用いて、現在進行中の課題を認識し、スケーラブルな事前トレーニングプロトコル、モジュールアーキテクチャ設計、堅牢なマルチモーダルアライメント戦略などの戦略的方向性を概観する。
このレビューは、エボディメントとロボット制御の進歩のための技術的な基準と概念的なロードマップとして機能し、データセット生成からジェネラリストロボットエージェントの現実的な展開に至るまで、洞察を提供する。
関連論文リスト
- VLA-OS: Structuring and Dissecting Planning Representations and Paradigms in Vision-Language-Action Models [9.376810354990079]
VLA-OSは,様々なタスク計画パラダイムを備えた統一型VLAアーキテクチャシリーズである。
様々な対象カテゴリ(剛体・変形可能)、視覚的モーダル性(2D・3D)、環境(シミュレーション・実世界)、エンドエフェクター(グリッパー・デキスタスハンド)の総合的な実験スイートを設計する。
論文 参考訳(メタデータ) (2025-06-21T03:07:48Z) - World Models for Cognitive Agents: Transforming Edge Intelligence in Future Networks [55.90051810762702]
本稿では,世界モデルを概観し,そのアーキテクチャ,トレーニングパラダイム,予測,生成,計画,因果推論といった応用を概観する。
ワイヤレスエッジインテリジェンス最適化に適した,新しい世界モデルに基づく強化学習フレームワークであるWireless Dreamerを提案する。
論文 参考訳(メタデータ) (2025-05-31T06:43:00Z) - Vision-Language Modeling Meets Remote Sensing: Models, Datasets and Perspectives [36.297745473653166]
視覚言語モデリング(VLM)は、画像と自然言語の間の情報ギャップを埋めることを目的としている。
大規模な画像テキストペアを事前学習し、タスク固有のデータを微調整するという新しいパラダイムの下で、リモートセンシング領域のVLMは大きな進歩を遂げた。
論文 参考訳(メタデータ) (2025-05-20T13:47:40Z) - Vision-Language-Action Models: Concepts, Progress, Applications and Challenges [4.180065442680541]
Vision-Language-Actionモデルは、知覚、自然言語理解、実施された行動を単一の計算フレームワーク内で統一することを目的としている。
この基礎的なレビューは、ビジョン・ランゲージ・アクションモデルにおける最近の進歩の包括的合成を提示する。
主要な進歩分野は、アーキテクチャの革新、パラメータ効率のトレーニング戦略、リアルタイム推論アクセラレーションである。
論文 参考訳(メタデータ) (2025-05-07T19:46:43Z) - A Survey of World Models for Autonomous Driving [63.33363128964687]
自律運転の最近の進歩は、堅牢な世界モデリングの進歩によって推進されている。
世界モデルは、マルチセンサーデータ、セマンティックキュー、時間ダイナミクスを統合する駆動環境の高忠実度表現を提供する。
本稿では、自律運転の世界モデルにおける最近の進歩を体系的にレビューする。
論文 参考訳(メタデータ) (2025-01-20T04:00:02Z) - Benchmarking Vision, Language, & Action Models on Robotic Learning Tasks [20.93006455952299]
視覚言語アクション(VLA)モデルは汎用ロボットシステムを開発する上で有望な方向を示す。
VLAモデルを評価するための総合的な評価フレームワークとベンチマークスイートを提案する。
論文 参考訳(メタデータ) (2024-11-04T18:01:34Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - BEHAVIOR Vision Suite: Customizable Dataset Generation via Simulation [57.40024206484446]
我々は、コンピュータビジョンモデルの体系的評価のために、完全にカスタマイズされた合成データを生成するためのツールと資産のセットであるBEHAVIOR Vision Suite(BVS)を紹介する。
BVSはシーンレベルで多数の調整可能なパラメータをサポートする。
アプリケーションシナリオを3つ紹介する。
論文 参考訳(メタデータ) (2024-05-15T17:57:56Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。