論文の概要: A Survey on Robotics with Foundation Models: toward Embodied AI
- arxiv url: http://arxiv.org/abs/2402.02385v1
- Date: Sun, 4 Feb 2024 07:55:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 18:44:19.791910
- Title: A Survey on Robotics with Foundation Models: toward Embodied AI
- Title(参考訳): 基礎モデルを用いたロボティクスに関する調査--エンボディードAIに向けて
- Authors: Zhiyuan Xu, Kun Wu, Junjie Wen, Jinming Li, Ning Liu, Zhengping Che,
Jian Tang
- Abstract要約: 近年のコンピュータビジョン,自然言語処理,マルチモーダリティ学習の進歩は,基礎モデルが特定のタスクに対して超人的能力を持つことを示している。
この調査は、ロボット工学の基礎モデルの包括的で最新の概要を提供し、自律的な操作に焦点を当て、高レベルの計画と低レベルの制御を包含することを目的としている。
- 参考スコア(独自算出の注目度): 30.999414445286757
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While the exploration for embodied AI has spanned multiple decades, it
remains a persistent challenge to endow agents with human-level intelligence,
including perception, learning, reasoning, decision-making, control, and
generalization capabilities, so that they can perform general-purpose tasks in
open, unstructured, and dynamic environments. Recent advances in computer
vision, natural language processing, and multi-modality learning have shown
that the foundation models have superhuman capabilities for specific tasks.
They not only provide a solid cornerstone for integrating basic modules into
embodied AI systems but also shed light on how to scale up robot learning from
a methodological perspective. This survey aims to provide a comprehensive and
up-to-date overview of foundation models in robotics, focusing on autonomous
manipulation and encompassing high-level planning and low-level control.
Moreover, we showcase their commonly used datasets, simulators, and benchmarks.
Importantly, we emphasize the critical challenges intrinsic to this field and
delineate potential avenues for future research, contributing to advancing the
frontier of academic and industrial discourse.
- Abstract(参考訳): インボディードAIの探索は数十年にわたって行われてきたが、認知、学習、推論、意思決定、制御、一般化機能など、エージェントに人間レベルの知性を与えることは、オープンで非構造化された動的環境において汎用的なタスクを実行するための永続的な課題である。
近年のコンピュータビジョン,自然言語処理,マルチモーダリティ学習の進歩は,基礎モデルが特定のタスクに対して超人的能力を持つことを示している。
彼らは、基本的なモジュールを具体化されたAIシステムに統合するための確かな基盤を提供するだけでなく、方法論の観点からロボット学習のスケールアップ方法にも光を当てている。
本調査はロボット工学の基礎モデルの包括的かつ最新の概観を提供することを目的としており、自律的な操作と高レベルの計画と低レベルの制御に焦点を当てている。
さらに、よく使われるデータセット、シミュレータ、ベンチマークも紹介する。
重要なのは、この分野に内在する重要な課題を強調し、将来の研究への道筋を明確にし、学術的および産業的な談話のフロンティアを前進させることに寄与している。
関連論文リスト
- Position Paper: Agent AI Towards a Holistic Intelligence [53.35971598180146]
エージェントAI - 大きな基盤モデルをエージェントアクションに統合する具体的システム。
本稿では,エージェント・ファウンデーション・モデル(エージェント・ファウンデーション・モデル)を提案する。
論文 参考訳(メタデータ) (2024-02-28T16:09:56Z) - Toward General-Purpose Robots via Foundation Models: A Survey and
Meta-Analysis [73.89558418030418]
既存のロボットシステムは、特定のタスクのために設計され、特定のデータセットに基づいて訓練され、特定の環境にデプロイされている。
ウェブスケールで大規模で大容量の事前学習型モデルの優れたオープンセット性能とコンテンツ生成能力に感銘を受けて,我々は,基礎モデルをロボット工学に適用する方法を探究した。
論文 参考訳(メタデータ) (2023-12-14T10:02:55Z) - The Future of Fundamental Science Led by Generative Closed-Loop
Artificial Intelligence [67.70415658080121]
機械学習とAIの最近の進歩は、技術革新、製品開発、社会全体を破壊している。
AIは、科学的な実践とモデル発見のための高品質なデータの大規模なデータセットへのアクセスがより困難であるため、基礎科学にはあまり貢献していない。
ここでは、科学的な発見に対するAI駆動、自動化、クローズドループアプローチの側面を調査し、調査する。
論文 参考訳(メタデータ) (2023-07-09T21:16:56Z) - Towards Generalist Robots: A Promising Paradigm via Generative
Simulation [18.704506851738365]
この文書は、一般のロボットへの潜在的な経路に対する著者のビジョンを概説する位置紙として機能する。
著者らは、提案されたパラダイムは、ロボット工学研究の長年の目標を達成するための、実現可能な道であると信じている。
論文 参考訳(メタデータ) (2023-05-17T02:53:58Z) - Abstract Visual Reasoning Enabled by Language [8.627180519837657]
ARCを解くための一般学習型フレームワークを提案する。
タスクをビジョンから言語領域に変換することに集中しています。
言語と視覚のこの構成により、各段階で事前訓練されたモデルを利用することができる。
論文 参考訳(メタデータ) (2023-03-07T17:52:46Z) - World Models and Predictive Coding for Cognitive and Developmental
Robotics: Frontiers and Challenges [51.92834011423463]
我々は世界モデルと予測符号化の2つの概念に焦点を当てる。
神経科学において、予測符号化は、脳がその入力を継続的に予測し、その環境における自身のダイナミクスと制御行動のモデル化に適応するように提案する。
論文 参考訳(メタデータ) (2023-01-14T06:38:14Z) - From Machine Learning to Robotics: Challenges and Opportunities for
Embodied Intelligence [113.06484656032978]
記事は、インテリジェンスが機械学習技術の進歩の鍵を握っていると主張している。
私たちは、インテリジェンスを具体化するための課題と機会を強調します。
本稿では,ロボット学習の最先端性を著しく向上させる研究の方向性を提案する。
論文 参考訳(メタデータ) (2021-10-28T16:04:01Z) - WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model [74.4875156387271]
我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。
そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-27T12:25:21Z) - From SLAM to Situational Awareness: Challenges and Survey [0.0]
複雑なミッションを効率的に安全に遂行する移動ロボットの能力は、環境に関する知識によって制限される。
高度な推論、意思決定、実行スキルにより、知的エージェントは未知の環境で自律的に行動することができる。
本稿では,現状のロボット工学アルゴリズムを網羅し,状況認識の諸側面について考察する。
論文 参考訳(メタデータ) (2021-10-01T09:00:34Z) - Towards open and expandable cognitive AI architectures for large-scale
multi-agent human-robot collaborative learning [5.478764356647437]
多エージェントLfDロボット学習のための新しい認知アーキテクチャを導入し、オープンでスケーラブルで拡張可能なロボットシステムの信頼性の高い展開を可能にする。
この概念化は、ロボットプラットフォームのネットワークの端ノードで動作する複数のAI駆動の認知プロセスを採用することに依存している。
提案フレームワークの適用性は,実世界の産業ケーススタディの例を用いて説明できる。
論文 参考訳(メタデータ) (2020-12-15T09:49:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。