論文の概要: Octo: An Open-Source Generalist Robot Policy
- arxiv url: http://arxiv.org/abs/2405.12213v1
- Date: Mon, 20 May 2024 17:57:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 12:25:40.560459
- Title: Octo: An Open-Source Generalist Robot Policy
- Title(参考訳): Octo: オープンソースのジェネラリストロボットポリシー
- Authors: Octo Model Team, Dibya Ghosh, Homer Walke, Karl Pertsch, Kevin Black, Oier Mees, Sudeep Dasari, Joey Hejna, Tobias Kreiman, Charles Xu, Jianlan Luo, You Liang Tan, Pannag Sanketi, Quan Vuong, Ted Xiao, Dorsa Sadigh, Chelsea Finn, Sergey Levine,
- Abstract要約: ここでは,Open X-Embodimentデータセットから800kトラジェクトリをトレーニングした,大規模なトランスフォーマーベースのポリシであるOctoを紹介する。
標準のGPUでは数時間以内に、新しいセンサー入力とアクションスペースを備えたロボットセットアップに効果的にカスタマイズできる。
また,アーキテクチャからトレーニングデータに至るまで,Octoモデルの設計決定の詳細な説明を行い,汎用ロボットモデルの構築に関する今後の研究を指導する。
- 参考スコア(独自算出の注目度): 88.94563868783978
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large policies pretrained on diverse robot datasets have the potential to transform robotic learning: instead of training new policies from scratch, such generalist robot policies may be finetuned with only a little in-domain data, yet generalize broadly. However, to be widely applicable across a range of robotic learning scenarios, environments, and tasks, such policies need to handle diverse sensors and action spaces, accommodate a variety of commonly used robotic platforms, and finetune readily and efficiently to new domains. In this work, we aim to lay the groundwork for developing open-source, widely applicable, generalist policies for robotic manipulation. As a first step, we introduce Octo, a large transformer-based policy trained on 800k trajectories from the Open X-Embodiment dataset, the largest robot manipulation dataset to date. It can be instructed via language commands or goal images and can be effectively finetuned to robot setups with new sensory inputs and action spaces within a few hours on standard consumer GPUs. In experiments across 9 robotic platforms, we demonstrate that Octo serves as a versatile policy initialization that can be effectively finetuned to new observation and action spaces. We also perform detailed ablations of design decisions for the Octo model, from architecture to training data, to guide future research on building generalist robot models.
- Abstract(参考訳): 多様なロボットデータセットで事前訓練された大規模なポリシーは、ロボット学習を変革する可能性がある。
しかし、さまざまなロボット学習シナリオ、環境、タスクに広く適用するためには、このようなポリシーは多様なセンサーやアクションスペースを扱い、よく使われる様々なロボットプラットフォームに対応し、新しいドメインに簡単かつ効率的に精査する必要がある。
本研究は,ロボット操作のための汎用的ポリシーを,オープンソースで広く適用するための基盤となることを目的としている。
最初のステップとして,これまでで最大のロボット操作データセットであるOpen X-Embodimentデータセットから800kの軌道上でトレーニングされた,大規模なトランスフォーマーベースのポリシであるOctoを紹介した。
言語コマンドやゴールイメージを通じて指示することができ、標準のGPU上で数時間以内に新しい感覚入力とアクションスペースを備えたロボットセットアップに効果的に微調整することができる。
9つのロボットプラットフォームにわたる実験において、Octoは、新しい観測と行動空間に効果的に微調整できる多目的ポリシー初期化として機能することを実証した。
また,アーキテクチャからトレーニングデータに至るまで,Octoモデルの設計決定の詳細な説明を行い,汎用ロボットモデルの構築に関する今後の研究を指導する。
関連論文リスト
- $π_0$: A Vision-Language-Action Flow Model for General Robot Control [77.32743739202543]
本稿では,インターネット規模のセマンティック知識を継承するために,事前学習された視覚言語モデル(VLM)上に構築された新しいフローマッチングアーキテクチャを提案する。
我々は,事前訓練後のタスクをゼロショットで実行し,人からの言語指導に追従し,微調整で新たなスキルを習得する能力の観点から,我々のモデルを評価した。
論文 参考訳(メタデータ) (2024-10-31T17:22:30Z) - Grounding Robot Policies with Visuomotor Language Guidance [15.774237279917594]
ロボットポリシーを現在の状況に基盤付けるためのエージェントベースのフレームワークを提案する。
提案するフレームワークは、特定の役割のために設計された会話エージェントのセットで構成されている。
弊社のアプローチは、操作ポリシーを効果的にガイドし、成功率を大幅に向上させることを実証する。
論文 参考訳(メタデータ) (2024-10-09T02:00:37Z) - Robot Utility Models: General Policies for Zero-Shot Deployment in New Environments [26.66666135624716]
ゼロショットロボットポリシーのトレーニングとデプロイのためのフレームワークであるロボットユーティリティモデル(RUM)を提案する。
RUMは微調整なしで新しい環境に一般化できる。
キャビネットドアのオープン、引き出しのオープン、ナプキンのピックアップ、紙袋のピックアップ、転倒物の再配向の5つのユーティリティモデルを訓練する。
論文 参考訳(メタデータ) (2024-09-09T17:59:50Z) - Scaling Cross-Embodied Learning: One Policy for Manipulation, Navigation, Locomotion and Aviation [49.03165169369552]
さまざまな種類のロボットにまたがって単一のポリシーを訓練することによって、ロボット学習はより広範囲で多様なデータセットを活用することができる。
そこで我々はCrossFormerを提案する。CrossFormerはスケーラブルでフレキシブルなトランスフォーマーベースのポリシーで、どんな実施形態からでもデータを消費できる。
我々は、同じネットワークウェイトがシングルアームとデュアルアームの操作システム、車輪付きロボット、クワッドコプター、四足歩行など、非常に異なるロボットを制御できることを実証した。
論文 参考訳(メタデータ) (2024-08-21T17:57:51Z) - Polybot: Training One Policy Across Robots While Embracing Variability [70.74462430582163]
複数のロボットプラットフォームにデプロイするための単一のポリシーをトレーニングするための重要な設計決定セットを提案する。
われわれのフレームワークは、まず、手首カメラを利用して、我々のポリシーの観察空間と行動空間を具体化して調整する。
6つのタスクと3つのロボットにまたがる60時間以上のデータセットを用いて,関節の形状や大きさの異なるデータセットの評価を行った。
論文 参考訳(メタデータ) (2023-07-07T17:21:16Z) - ExAug: Robot-Conditioned Navigation Policies via Geometric Experience
Augmentation [73.63212031963843]
本研究では,多様な環境における複数のデータセットから異なるロボットプラットフォームを体験するための新しいフレームワークであるExAugを提案する。
トレーニングされたポリシーは、屋内と屋外の障害物のある3つの異なるカメラを備えた2つの新しいロボットプラットフォームで評価される。
論文 参考訳(メタデータ) (2022-10-14T01:32:15Z) - GNM: A General Navigation Model to Drive Any Robot [67.40225397212717]
視覚に基づくナビゲーションのための一般的な目標条件付きモデルは、多くの異なるが構造的に類似したロボットから得られたデータに基づいて訓練することができる。
ロボット間の効率的なデータ共有に必要な設計決定について分析する。
我々は、訓練されたGNMを、下四極子を含む様々な新しいロボットに展開する。
論文 参考訳(メタデータ) (2022-10-07T07:26:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。