論文の概要: GR00T N1: An Open Foundation Model for Generalist Humanoid Robots
- arxiv url: http://arxiv.org/abs/2503.14734v1
- Date: Tue, 18 Mar 2025 21:06:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:24:30.486065
- Title: GR00T N1: An Open Foundation Model for Generalist Humanoid Robots
- Title(参考訳): GR00T N1: 汎用ヒューマノイドロボットのためのオープンファンデーションモデル
- Authors: NVIDIA, Johan Bjorck, Fernando Castañeda, Nikita Cherniadev, Xingye Da, Runyu Ding, Linxi "Jim" Fan, Yu Fang, Dieter Fox, Fengyuan Hu, Spencer Huang, Joel Jang, Zhenyu Jiang, Jan Kautz, Kaushil Kundalia, Lawrence Lao, Zhiqi Li, Zongyu Lin, Kevin Lin, Guilin Liu, Edith Llontop, Loic Magne, Ajay Mandlekar, Avnish Narayan, Soroush Nasiriany, Scott Reed, You Liang Tan, Guanzhi Wang, Zu Wang, Jing Wang, Qi Wang, Jiannan Xiang, Yuqi Xie, Yinzhen Xu, Zhenjia Xu, Seonghyeon Ye, Zhiding Yu, Ao Zhang, Hao Zhang, Yizhou Zhao, Ruijie Zheng, Yuke Zhu,
- Abstract要約: 汎用ロボットには多目的体と知的な心が必要だ。
近年のヒューマノイドロボットの進歩は、汎用的な自律性を構築するためのハードウェアプラットフォームとして大きな可能性を秘めている。
我々はヒューマノイドロボットのオープン基盤モデルであるGR00T N1を紹介する。
- 参考スコア(独自算出の注目度): 133.96914200227656
- License:
- Abstract: General-purpose robots need a versatile body and an intelligent mind. Recent advancements in humanoid robots have shown great promise as a hardware platform for building generalist autonomy in the human world. A robot foundation model, trained on massive and diverse data sources, is essential for enabling the robots to reason about novel situations, robustly handle real-world variability, and rapidly learn new tasks. To this end, we introduce GR00T N1, an open foundation model for humanoid robots. GR00T N1 is a Vision-Language-Action (VLA) model with a dual-system architecture. The vision-language module (System 2) interprets the environment through vision and language instructions. The subsequent diffusion transformer module (System 1) generates fluid motor actions in real time. Both modules are tightly coupled and jointly trained end-to-end. We train GR00T N1 with a heterogeneous mixture of real-robot trajectories, human videos, and synthetically generated datasets. We show that our generalist robot model GR00T N1 outperforms the state-of-the-art imitation learning baselines on standard simulation benchmarks across multiple robot embodiments. Furthermore, we deploy our model on the Fourier GR-1 humanoid robot for language-conditioned bimanual manipulation tasks, achieving strong performance with high data efficiency.
- Abstract(参考訳): 汎用ロボットには多目的体と知的な心が必要だ。
近年のヒューマノイドロボットの進歩は、人間の世界で汎用的な自律性を構築するためのハードウェアプラットフォームとして大きな可能性を秘めている。
巨大で多様なデータソースに基づいてトレーニングされたロボット基盤モデルは、ロボットが新しい状況を推論し、現実世界の変動性をしっかりと処理し、新しいタスクを迅速に学習することを可能にするために不可欠である。
そこで本研究では,ヒューマノイドロボットのオープン基盤モデルであるGR00T N1を紹介する。
GR00T N1はVLA(Vision-Language-Action)モデルである。
視覚言語モジュール(システム2)は、視覚と言語指示を通して環境を解釈する。
その後の拡散変圧器モジュール(システム1)は、流体モータ動作をリアルタイムで生成する。
どちらのモジュールも緊密に結合され、共同で訓練されたエンドツーエンドである。
GR00T N1を実ロボット軌道、人間のビデオ、合成されたデータセットの異種混合で訓練する。
汎用ロボットモデル GR00T N1 は,複数のロボットを対象とする標準的なシミュレーションベンチマークにおいて,最先端の模倣学習ベースラインよりも優れていることを示す。
さらに,Fourier GR-1のヒューマノイドロボットを用いて,言語条件のバイマニュアル操作作業を行い,高いデータ効率で高い性能を実現する。
関連論文リスト
- $π_0$: A Vision-Language-Action Flow Model for General Robot Control [77.32743739202543]
本稿では,インターネット規模のセマンティック知識を継承するために,事前学習された視覚言語モデル(VLM)上に構築された新しいフローマッチングアーキテクチャを提案する。
我々は,事前訓練後のタスクをゼロショットで実行し,人からの言語指導に追従し,微調整で新たなスキルを習得する能力の観点から,我々のモデルを評価した。
論文 参考訳(メタデータ) (2024-10-31T17:22:30Z) - RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation [23.554917579133576]
本稿では,ロボット拡散変換器(RDT)について述べる。
RDTは、マルチモーダリティを効果的に表現するために拡散モデルを構築し、スケーラブルトランスフォーマーの革新的な設計である。
さらに,様々なロボットの動作表現を統一する物理解釈可能な統一行動空間を導入する。
論文 参考訳(メタデータ) (2024-10-10T12:33:46Z) - Bringing the RT-1-X Foundation Model to a SCARA robot [0.0]
従来のロボットシステムは、タスク、環境、ロボットフォームごとに特定のトレーニングデータを必要とする。
機械学習の最近の進歩により、モデルは新しいタスクや環境をまたいで一般化できるようになった。
本研究では,RT-1-Xロボット基礎モデルのトレーニング中に見つからないロボットへの一般化能力について検討した。
論文 参考訳(メタデータ) (2024-09-05T07:09:14Z) - RoboScript: Code Generation for Free-Form Manipulation Tasks across Real
and Simulation [77.41969287400977]
本稿では,コード生成を利用したデプロイ可能なロボット操作パイプラインのためのプラットフォームである textbfRobotScript を提案する。
自由形自然言語におけるロボット操作タスクのためのコード生成ベンチマークも提案する。
我々は,Franka と UR5 のロボットアームを含む,複数のロボットエボディメントにまたがるコード生成フレームワークの適応性を実証した。
論文 参考訳(メタデータ) (2024-02-22T15:12:00Z) - AutoRT: Embodied Foundation Models for Large Scale Orchestration of Robotic Agents [109.3804962220498]
AutoRTは、人間の監督を最小限に抑えて、完全に見えないシナリオで運用ロボットの展開をスケールアップするシステムである。
われわれはAutoRTが複数の建物にまたがる20以上のロボットに指示を提示し、遠隔操作と自律ロボットポリシーを通じて77万個の実ロボットエピソードを収集するデモを行った。
実験により,AutoRTが収集した「未使用データ」は極めて多種多様であり,AutoRTのLLMを使用することで,人間の好みに合わせることができるデータ収集ロボットの指示が可能であることを実証した。
論文 参考訳(メタデータ) (2024-01-23T18:45:54Z) - Toward General-Purpose Robots via Foundation Models: A Survey and Meta-Analysis [82.59451639072073]
汎用ロボットはどんな環境でも、どんな物体でもシームレスに動作し、様々なスキルを使って様々なタスクをこなす。
コミュニティとしては、特定のタスク用に設計し、特定のデータセットでトレーニングし、特定の環境にデプロイすることで、ほとんどのロボットシステムを制約してきました。
ウェブスケールで大規模で大容量の事前学習型モデルの優れたオープンセット性能とコンテンツ生成能力に感銘を受けて,本調査は,汎用ロボティクスに基礎モデルを適用する方法について検討した。
論文 参考訳(メタデータ) (2023-12-14T10:02:55Z) - RT-1: Robotics Transformer for Real-World Control at Scale [98.09428483862165]
我々は,有望なスケーラブルなモデル特性を示す,ロボティクストランスフォーマーと呼ばれるモデルクラスを提示する。
実世界の課題を遂行する実ロボットの大規模データ収集に基づいて,様々なモデルクラスと,データサイズ,モデルサイズ,データの多様性の関数として一般化する能力について検証した。
論文 参考訳(メタデータ) (2022-12-13T18:55:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。