論文の概要: Vision-Language-Action Models for Robotics: A Review Towards Real-World Applications
- arxiv url: http://arxiv.org/abs/2510.07077v1
- Date: Wed, 08 Oct 2025 14:38:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.563298
- Title: Vision-Language-Action Models for Robotics: A Review Towards Real-World Applications
- Title(参考訳): ロボットのためのビジョン・ランゲージ・アクションモデル : 実世界の応用に向けてのレビュー
- Authors: Kento Kawaharazuka, Jihoon Oh, Jun Yamada, Ingmar Posner, Yuke Zhu,
- Abstract要約: VLA(Vision-Language-Action)モデルは、さまざまなタスク、オブジェクト、エボディメント、環境にまたがる一般的なポリシーを学ぶことを目的としている。
この作業は、VLAシステムのソフトウェアコンポーネントとハードウェアコンポーネントを統合する、包括的なフルスタックレビューを提供する。
- 参考スコア(独自算出の注目度): 36.083681915495205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Amid growing efforts to leverage advances in large language models (LLMs) and vision-language models (VLMs) for robotics, Vision-Language-Action (VLA) models have recently gained significant attention. By unifying vision, language, and action data at scale, which have traditionally been studied separately, VLA models aim to learn policies that generalise across diverse tasks, objects, embodiments, and environments. This generalisation capability is expected to enable robots to solve novel downstream tasks with minimal or no additional task-specific data, facilitating more flexible and scalable real-world deployment. Unlike previous surveys that focus narrowly on action representations or high-level model architectures, this work offers a comprehensive, full-stack review, integrating both software and hardware components of VLA systems. In particular, this paper provides a systematic review of VLAs, covering their strategy and architectural transition, architectures and building blocks, modality-specific processing techniques, and learning paradigms. In addition, to support the deployment of VLAs in real-world robotic applications, we also review commonly used robot platforms, data collection strategies, publicly available datasets, data augmentation methods, and evaluation benchmarks. Throughout this comprehensive survey, this paper aims to offer practical guidance for the robotics community in applying VLAs to real-world robotic systems. All references categorized by training approach, evaluation method, modality, and dataset are available in the table on our project website: https://vla-survey.github.io .
- Abstract(参考訳): ロボット工学における大規模言語モデル(LLM)と視覚言語モデル(VLM)の進歩を活用する努力が増えている中、ビジョン・ランゲージ・アクション(VLA)モデルは近年大きな注目を集めている。
伝統的に研究されてきた視覚、言語、行動データを大規模に統一することで、VLAモデルは様々なタスク、オブジェクト、実施環境、環境をまたいで一般化するポリシーを学ぶことを目指している。
この一般化能力により、ロボットは、より柔軟でスケーラブルな現実世界のデプロイメントを促進するために、最小またはそれ以上のタスク固有のデータで、新しい下流タスクを解決できる。
アクション表現や高レベルのモデルアーキテクチャに焦点を絞った以前の調査とは異なり、この研究は、VLAシステムのソフトウェアコンポーネントとハードウェアコンポーネントを統合する、包括的なフルスタックのレビューを提供する。
具体的には,VLAの体系的なレビューを行い,その戦略とアーキテクチャの変遷,アーキテクチャとビルディングブロック,モダリティ固有の処理技術,学習パラダイムについて述べる。
さらに、実世界のロボットアプリケーションにおけるVLAの展開を支援するため、一般的なロボットプラットフォーム、データ収集戦略、公開データセット、データ拡張方法、評価ベンチマークについてもレビューする。
本研究は,VLAを現実のロボットシステムに適用する上で,ロボットコミュニティに実践的なガイダンスを提供することを目的としている。
トレーニングアプローチ、評価方法、モダリティ、データセットによって分類されたすべての参照は、プロジェクトのWebサイトにあるテーブルで利用可能です。
関連論文リスト
- Survey of Vision-Language-Action Models for Embodied Manipulation [12.586030711502858]
エンボディード・インテリジェンス・システムは、継続的な環境相互作用を通じてエージェント能力を増強する。
ビジョン・ランゲージ・アクションモデル(Vision-Language-Action model)は、大きな基礎モデルの進歩に触発された、普遍的なロボット制御フレームワークとして機能する。
本調査では,VLAモデルを包括的に検討した。
論文 参考訳(メタデータ) (2025-08-21T03:30:04Z) - Large VLM-based Vision-Language-Action Models for Robotic Manipulation: A Survey [45.10095869091538]
膨大な画像テキストデータセットに基づいて事前訓練されたLarge Vision-Language Models (VLM) 上に構築されたVLAモデルが、トランスフォーメーションパラダイムとして登場した。
この調査は、ロボット操作のための大規模なVLMベースのVLAモデルの、最初の体系的で分類指向のレビューを提供する。
論文 参考訳(メタデータ) (2025-08-18T16:45:48Z) - Vision Language Action Models in Robotic Manipulation: A Systematic Review [1.1767330101986737]
ビジョン言語アクション(VLA)モデルは、ロボット工学の変革的なシフトを表す。
本稿では,VLAパラダイムの包括的で先進的な合成について述べる。
102のVLAモデル、26の基盤データセット、12のシミュレーションプラットフォームを分析します。
論文 参考訳(メタデータ) (2025-07-14T18:00:34Z) - Benchmarking Vision, Language, & Action Models on Robotic Learning Tasks [20.93006455952299]
視覚言語アクション(VLA)モデルは汎用ロボットシステムを開発する上で有望な方向を示す。
VLAモデルを評価するための総合的な評価フレームワークとベンチマークスイートを提案する。
論文 参考訳(メタデータ) (2024-11-04T18:01:34Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - Toward General-Purpose Robots via Foundation Models: A Survey and Meta-Analysis [82.59451639072073]
汎用ロボットはどんな環境でも、どんな物体でもシームレスに動作し、様々なスキルを使って様々なタスクをこなす。
コミュニティとしては、特定のタスク用に設計し、特定のデータセットでトレーニングし、特定の環境にデプロイすることで、ほとんどのロボットシステムを制約してきました。
ウェブスケールで大規模で大容量の事前学習型モデルの優れたオープンセット性能とコンテンツ生成能力に感銘を受けて,本調査は,汎用ロボティクスに基礎モデルを適用する方法について検討した。
論文 参考訳(メタデータ) (2023-12-14T10:02:55Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。