論文の概要: Toward General-Purpose Robots via Foundation Models: A Survey and
Meta-Analysis
- arxiv url: http://arxiv.org/abs/2312.08782v2
- Date: Fri, 15 Dec 2023 18:25:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-18 12:32:57.091733
- Title: Toward General-Purpose Robots via Foundation Models: A Survey and
Meta-Analysis
- Title(参考訳): 基礎モデルによる汎用ロボットに向けて:調査とメタ分析
- Authors: Yafei Hu and Quanting Xie and Vidhi Jain and Jonathan Francis and Jay
Patrikar and Nikhil Keetha and Seungchan Kim and Yaqi Xie and Tianyi Zhang
and Shibo Zhao and Yu Quan Chong and Chen Wang and Katia Sycara and Matthew
Johnson-Roberson and Dhruv Batra and Xiaolong Wang and Sebastian Scherer and
Zsolt Kira and Fei Xia and Yonatan Bisk
- Abstract要約: 既存のロボットシステムは、特定のタスクのために設計され、特定のデータセットに基づいて訓練され、特定の環境にデプロイされている。
ウェブスケールで大規模で大容量の事前学習型モデルの優れたオープンセット性能とコンテンツ生成能力に感銘を受けて,我々は,基礎モデルをロボット工学に適用する方法を探究した。
- 参考スコア(独自算出の注目度): 73.89558418030418
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building general-purpose robots that can operate seamlessly, in any
environment, with any object, and utilizing various skills to complete diverse
tasks has been a long-standing goal in Artificial Intelligence. Unfortunately,
however, most existing robotic systems have been constrained - having been
designed for specific tasks, trained on specific datasets, and deployed within
specific environments. These systems usually require extensively-labeled data,
rely on task-specific models, have numerous generalization issues when deployed
in real-world scenarios, and struggle to remain robust to distribution shifts.
Motivated by the impressive open-set performance and content generation
capabilities of web-scale, large-capacity pre-trained models (i.e., foundation
models) in research fields such as Natural Language Processing (NLP) and
Computer Vision (CV), we devote this survey to exploring (i) how these existing
foundation models from NLP and CV can be applied to the field of robotics, and
also exploring (ii) what a robotics-specific foundation model would look like.
We begin by providing an overview of what constitutes a conventional robotic
system and the fundamental barriers to making it universally applicable. Next,
we establish a taxonomy to discuss current work exploring ways to leverage
existing foundation models for robotics and develop ones catered to robotics.
Finally, we discuss key challenges and promising future directions in using
foundation models for enabling general-purpose robotic systems. We encourage
readers to view our living GitHub repository of resources, including papers
reviewed in this survey as well as related projects and repositories for
developing foundation models for robotics.
- Abstract(参考訳): あらゆる環境において、あらゆる目的のためにシームレスに動作し、様々なスキルを使って多様なタスクを完遂できる汎用ロボットの開発は、人工知能の長年の目標だった。
しかし残念なことに、既存のロボットシステムは、特定のタスク用に設計され、特定のデータセットでトレーニングされ、特定の環境にデプロイされている。
これらのシステムは、通常、広範囲にラベル付けされたデータを必要とし、タスク固有のモデルに依存し、現実世界のシナリオにデプロイする際、多くの一般化の問題を持ち、分散シフトに対する堅牢さを維持するのに苦労している。
自然言語処理(nlp)やコンピュータビジョン(cv)といった研究分野における,web規模,大容量事前学習モデル(財団モデル)の印象的なオープンセットパフォーマンスとコンテンツ生成能力に動機づけられ,この調査を探究にあてる。
(i)nlpおよびcvの既存の基礎モデルがロボット工学の分野にどのように応用され、また探究されるか
(ii)ロボット特有の基礎モデルがどのようなものか。
まず、従来のロボットシステムを構成するものの概要と、それを普遍的に適用するための基本的な障壁を提供することから始める。
次に,既存の基盤モデルをロボット工学に活用し,ロボット工学に精通したモデルを開発する方法について検討する。
最後に,汎用ロボットシステムの実現に向けた基礎モデルの利用における課題と今後の展望について述べる。
この調査でレビューされた論文や、ロボティクスの基礎モデルを開発するための関連プロジェクトやレポジトリなど、リビングgithubのリソースリポジトリの閲覧を読者に勧めています。
関連論文リスト
- $π_0$: A Vision-Language-Action Flow Model for General Robot Control [77.32743739202543]
本稿では,インターネット規模のセマンティック知識を継承するために,事前学習された視覚言語モデル(VLM)上に構築された新しいフローマッチングアーキテクチャを提案する。
我々は,事前訓練後のタスクをゼロショットで実行し,人からの言語指導に追従し,微調整で新たなスキルを習得する能力の観点から,我々のモデルを評価した。
論文 参考訳(メタデータ) (2024-10-31T17:22:30Z) - Robot Utility Models: General Policies for Zero-Shot Deployment in New Environments [26.66666135624716]
ゼロショットロボットポリシーのトレーニングとデプロイのためのフレームワークであるロボットユーティリティモデル(RUM)を提案する。
RUMは微調整なしで新しい環境に一般化できる。
キャビネットドアのオープン、引き出しのオープン、ナプキンのピックアップ、紙袋のピックアップ、転倒物の再配向の5つのユーティリティモデルを訓練する。
論文 参考訳(メタデータ) (2024-09-09T17:59:50Z) - Real-World Robot Applications of Foundation Models: A Review [25.53250085363019]
LLM(Large Language Models)やVLM(Vision-Language Models)のような基盤モデルの最近の発展は、様々なタスクやモダリティにまたがる柔軟な適用を促進する。
本稿では,現実のロボット工学における基礎モデルの実用的応用について概説する。
論文 参考訳(メタデータ) (2024-02-08T15:19:50Z) - A Survey on Robotics with Foundation Models: toward Embodied AI [30.999414445286757]
近年のコンピュータビジョン,自然言語処理,マルチモーダリティ学習の進歩は,基礎モデルが特定のタスクに対して超人的能力を持つことを示している。
この調査は、ロボット工学の基礎モデルの包括的で最新の概要を提供し、自律的な操作に焦点を当て、高レベルの計画と低レベルの制御を包含することを目的としている。
論文 参考訳(メタデータ) (2024-02-04T07:55:01Z) - AutoRT: Embodied Foundation Models for Large Scale Orchestration of Robotic Agents [109.3804962220498]
AutoRTは、人間の監督を最小限に抑えて、完全に見えないシナリオで運用ロボットの展開をスケールアップするシステムである。
われわれはAutoRTが複数の建物にまたがる20以上のロボットに指示を提示し、遠隔操作と自律ロボットポリシーを通じて77万個の実ロボットエピソードを収集するデモを行った。
実験により,AutoRTが収集した「未使用データ」は極めて多種多様であり,AutoRTのLLMを使用することで,人間の好みに合わせることができるデータ収集ロボットの指示が可能であることを実証した。
論文 参考訳(メタデータ) (2024-01-23T18:45:54Z) - RoboGen: Towards Unleashing Infinite Data for Automated Robot Learning via Generative Simulation [68.70755196744533]
RoboGenはジェネレーティブなロボットエージェントで、ジェネレーティブなシミュレーションを通じて、さまざまなロボットのスキルを自動的に学習する。
我々の研究は、大規模モデルに埋め込まれた広範囲で多目的な知識を抽出し、それらをロボット工学の分野に移す試みである。
論文 参考訳(メタデータ) (2023-11-02T17:59:21Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Towards Generalist Robots: A Promising Paradigm via Generative
Simulation [18.704506851738365]
この文書は、一般のロボットへの潜在的な経路に対する著者のビジョンを概説する位置紙として機能する。
著者らは、提案されたパラダイムは、ロボット工学研究の長年の目標を達成するための、実現可能な道であると信じている。
論文 参考訳(メタデータ) (2023-05-17T02:53:58Z) - RT-1: Robotics Transformer for Real-World Control at Scale [98.09428483862165]
我々は,有望なスケーラブルなモデル特性を示す,ロボティクストランスフォーマーと呼ばれるモデルクラスを提示する。
実世界の課題を遂行する実ロボットの大規模データ収集に基づいて,様々なモデルクラスと,データサイズ,モデルサイズ,データの多様性の関数として一般化する能力について検証した。
論文 参考訳(メタデータ) (2022-12-13T18:55:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。