論文の概要: A Survey on Robotics with Foundation Models: toward Embodied AI
- arxiv url: http://arxiv.org/abs/2402.02385v1
- Date: Sun, 4 Feb 2024 07:55:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 18:44:19.791910
- Title: A Survey on Robotics with Foundation Models: toward Embodied AI
- Title(参考訳): 基礎モデルを用いたロボティクスに関する調査--エンボディードAIに向けて
- Authors: Zhiyuan Xu, Kun Wu, Junjie Wen, Jinming Li, Ning Liu, Zhengping Che,
Jian Tang
- Abstract要約: 近年のコンピュータビジョン,自然言語処理,マルチモーダリティ学習の進歩は,基礎モデルが特定のタスクに対して超人的能力を持つことを示している。
この調査は、ロボット工学の基礎モデルの包括的で最新の概要を提供し、自律的な操作に焦点を当て、高レベルの計画と低レベルの制御を包含することを目的としている。
- 参考スコア(独自算出の注目度): 30.999414445286757
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While the exploration for embodied AI has spanned multiple decades, it
remains a persistent challenge to endow agents with human-level intelligence,
including perception, learning, reasoning, decision-making, control, and
generalization capabilities, so that they can perform general-purpose tasks in
open, unstructured, and dynamic environments. Recent advances in computer
vision, natural language processing, and multi-modality learning have shown
that the foundation models have superhuman capabilities for specific tasks.
They not only provide a solid cornerstone for integrating basic modules into
embodied AI systems but also shed light on how to scale up robot learning from
a methodological perspective. This survey aims to provide a comprehensive and
up-to-date overview of foundation models in robotics, focusing on autonomous
manipulation and encompassing high-level planning and low-level control.
Moreover, we showcase their commonly used datasets, simulators, and benchmarks.
Importantly, we emphasize the critical challenges intrinsic to this field and
delineate potential avenues for future research, contributing to advancing the
frontier of academic and industrial discourse.
- Abstract(参考訳): インボディードAIの探索は数十年にわたって行われてきたが、認知、学習、推論、意思決定、制御、一般化機能など、エージェントに人間レベルの知性を与えることは、オープンで非構造化された動的環境において汎用的なタスクを実行するための永続的な課題である。
近年のコンピュータビジョン,自然言語処理,マルチモーダリティ学習の進歩は,基礎モデルが特定のタスクに対して超人的能力を持つことを示している。
彼らは、基本的なモジュールを具体化されたAIシステムに統合するための確かな基盤を提供するだけでなく、方法論の観点からロボット学習のスケールアップ方法にも光を当てている。
本調査はロボット工学の基礎モデルの包括的かつ最新の概観を提供することを目的としており、自律的な操作と高レベルの計画と低レベルの制御に焦点を当てている。
さらに、よく使われるデータセット、シミュレータ、ベンチマークも紹介する。
重要なのは、この分野に内在する重要な課題を強調し、将来の研究への道筋を明確にし、学術的および産業的な談話のフロンティアを前進させることに寄与している。
関連論文リスト
- $π_0$: A Vision-Language-Action Flow Model for General Robot Control [77.32743739202543]
本稿では,インターネット規模のセマンティック知識を継承するために,事前学習された視覚言語モデル(VLM)上に構築された新しいフローマッチングアーキテクチャを提案する。
我々は,事前訓練後のタスクをゼロショットで実行し,人からの言語指導に追従し,微調整で新たなスキルを習得する能力の観点から,我々のモデルを評価した。
論文 参考訳(メタデータ) (2024-10-31T17:22:30Z) - Grounding Robot Policies with Visuomotor Language Guidance [15.774237279917594]
ロボットポリシーを現在の状況に基盤付けるためのエージェントベースのフレームワークを提案する。
提案するフレームワークは、特定の役割のために設計された会話エージェントのセットで構成されている。
弊社のアプローチは、操作ポリシーを効果的にガイドし、成功率を大幅に向上させることを実証する。
論文 参考訳(メタデータ) (2024-10-09T02:00:37Z) - A Survey on Vision-Language-Action Models for Embodied AI [71.16123093739932]
視覚言語アクションモデル(VLA)はロボット学習の基盤となっている。
汎用性、デキスタリティ、一般化可能性など、様々な手法が提案されている。
VLAは、長い水平タスクを実行可能なサブタスクに分解できるハイレベルなタスクプランナとして機能する。
論文 参考訳(メタデータ) (2024-05-23T01:43:54Z) - Position Paper: Agent AI Towards a Holistic Intelligence [53.35971598180146]
エージェントAI - 大きな基盤モデルをエージェントアクションに統合する具体的システム。
本稿では,エージェント・ファウンデーション・モデル(エージェント・ファウンデーション・モデル)を提案する。
論文 参考訳(メタデータ) (2024-02-28T16:09:56Z) - Toward General-Purpose Robots via Foundation Models: A Survey and Meta-Analysis [82.59451639072073]
汎用ロボットはどんな環境でも、どんな物体でもシームレスに動作し、様々なスキルを使って様々なタスクをこなす。
コミュニティとしては、特定のタスク用に設計し、特定のデータセットでトレーニングし、特定の環境にデプロイすることで、ほとんどのロボットシステムを制約してきました。
ウェブスケールで大規模で大容量の事前学習型モデルの優れたオープンセット性能とコンテンツ生成能力に感銘を受けて,本調査は,汎用ロボティクスに基礎モデルを適用する方法について検討した。
論文 参考訳(メタデータ) (2023-12-14T10:02:55Z) - The Future of Fundamental Science Led by Generative Closed-Loop
Artificial Intelligence [67.70415658080121]
機械学習とAIの最近の進歩は、技術革新、製品開発、社会全体を破壊している。
AIは、科学的な実践とモデル発見のための高品質なデータの大規模なデータセットへのアクセスがより困難であるため、基礎科学にはあまり貢献していない。
ここでは、科学的な発見に対するAI駆動、自動化、クローズドループアプローチの側面を調査し、調査する。
論文 参考訳(メタデータ) (2023-07-09T21:16:56Z) - Towards Generalist Robots: A Promising Paradigm via Generative
Simulation [18.704506851738365]
この文書は、一般のロボットへの潜在的な経路に対する著者のビジョンを概説する位置紙として機能する。
著者らは、提案されたパラダイムは、ロボット工学研究の長年の目標を達成するための、実現可能な道であると信じている。
論文 参考訳(メタデータ) (2023-05-17T02:53:58Z) - WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model [74.4875156387271]
我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。
そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-27T12:25:21Z) - Towards open and expandable cognitive AI architectures for large-scale
multi-agent human-robot collaborative learning [5.478764356647437]
多エージェントLfDロボット学習のための新しい認知アーキテクチャを導入し、オープンでスケーラブルで拡張可能なロボットシステムの信頼性の高い展開を可能にする。
この概念化は、ロボットプラットフォームのネットワークの端ノードで動作する複数のAI駆動の認知プロセスを採用することに依存している。
提案フレームワークの適用性は,実世界の産業ケーススタディの例を用いて説明できる。
論文 参考訳(メタデータ) (2020-12-15T09:49:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。