論文の概要: GR-2: A Generative Video-Language-Action Model with Web-Scale Knowledge for Robot Manipulation
- arxiv url: http://arxiv.org/abs/2410.06158v1
- Date: Tue, 8 Oct 2024 16:00:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 10:50:51.608299
- Title: GR-2: A Generative Video-Language-Action Model with Web-Scale Knowledge for Robot Manipulation
- Title(参考訳): GR-2: ロボット操作のためのWebスケール知識を用いた生成ビデオ言語行動モデル
- Authors: Chi-Lam Cheang, Guangzeng Chen, Ya Jing, Tao Kong, Hang Li, Yifeng Li, Yuxiao Liu, Hongtao Wu, Jiafeng Xu, Yichu Yang, Hanbo Zhang, Minzhao Zhu,
- Abstract要約: GR-2は、汎用的で汎用的な操作のための最先端の汎用ロボットエージェントである。
GR-2は、世界のダイナミクスを捉えるために、多数のインターネットビデオで事前訓練されている。
GR-2は印象的なマルチタスク学習能力を示し、100以上のタスクで平均97.7%の成功率を達成した。
- 参考スコア(独自算出の注目度): 21.455124378231957
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present GR-2, a state-of-the-art generalist robot agent for versatile and generalizable robot manipulation. GR-2 is first pre-trained on a vast number of Internet videos to capture the dynamics of the world. This large-scale pre-training, involving 38 million video clips and over 50 billion tokens, equips GR-2 with the ability to generalize across a wide range of robotic tasks and environments during subsequent policy learning. Following this, GR-2 is fine-tuned for both video generation and action prediction using robot trajectories. It exhibits impressive multi-task learning capabilities, achieving an average success rate of 97.7% across more than 100 tasks. Moreover, GR-2 demonstrates exceptional generalization to new, previously unseen scenarios, including novel backgrounds, environments, objects, and tasks. Notably, GR-2 scales effectively with model size, underscoring its potential for continued growth and application. Project page: \url{https://gr2-manipulation.github.io}.
- Abstract(参考訳): 本稿では,多目的で汎用的なロボット操作のための,最先端の汎用ロボットエージェントGR-2を提案する。
GR-2は、世界のダイナミクスを捉えるために、多数のインターネットビデオで事前訓練されている。
3800万のビデオクリップと500億以上のトークンを含むこの大規模な事前トレーニングは、GR-2に、その後のポリシー学習中に幅広いロボットタスクと環境を一般化する能力を備えている。
その後、GR-2はロボット軌道を用いた映像生成と動作予測の両方のために微調整される。
優れたマルチタスク学習能力を示し、100以上のタスクで平均97.7%の成功率を達成した。
さらに、GR-2は、新しい背景、環境、オブジェクト、タスクを含む、以前は目に見えない新しいシナリオに例外的な一般化を示す。
特にGR-2はモデルサイズと効果的にスケールし、継続的な成長と応用の可能性を強調している。
プロジェクトページ: \url{https://gr2-manipulation.github.io}。
関連論文リスト
- Gen2Act: Human Video Generation in Novel Scenarios enables Generalizable Robot Manipulation [74.70013315714336]
Gen2Actは、ゼロショットのヒューマンビデオ生成として言語条件の操作をキャストし、生成したビデオに対して単一のポリシーで実行します。
実世界の多様なシナリオにおいて,Gen2Actがロボットデータに存在しないタスクに対して,未知のオブジェクトタイプを操作したり,新たな動作を実行したりすることができることを示す。
論文 参考訳(メタデータ) (2024-09-24T17:57:33Z) - GRUtopia: Dream General Robots in a City at Scale [65.08318324604116]
本稿では,各種ロボットを対象とした対話型3D社会「GRUtopia」について紹介する。
GRScenesには100万のインタラクティブな微妙な注釈付きシーンが含まれており、都市規模の環境に自由に組み合わせることができる。
GRResidentsはLarge Language Model (LLM)によって駆動されるNon-Player Character (NPC)システムである。
論文 参考訳(メタデータ) (2024-07-15T17:40:46Z) - LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning [50.99807031490589]
LLARVAは,ロボット学習タスク,シナリオ,環境を統一するための,新しい指導指導法で訓練されたモデルである。
我々は,Open X-Embodimentデータセットから8.5Mの画像-視覚的トレースペアを生成し,モデルを事前学習する。
実験によって強い性能が得られ、LLARVAは現代のいくつかのベースラインと比較してよく機能することを示した。
論文 参考訳(メタデータ) (2024-06-17T17:55:29Z) - RH20T-P: A Primitive-Level Robotic Dataset Towards Composable Generalization Agents [107.97394661147102]
ロボット学習の最終的な目標は、包括的で一般化可能なロボットシステムを取得することである。
言語モデルを高レベルプランナとして活用する最近の進歩は,タスクをプリミティブレベルプランに分解することで,タスクの複雑さを低減できることを実証している。
将来性はあるものの、コミュニティはまだ構成可能な一般化エージェントに十分な準備が整っていない。
論文 参考訳(メタデータ) (2024-03-28T17:42:54Z) - Unleashing Large-Scale Video Generative Pre-training for Visual Robot
Manipulation [25.09113607683987]
本稿では,マルチタスク言語を用いた視覚ロボット操作のためのGPTスタイルモデルGR-1を紹介する。
GR-1は、言語命令、観察画像のシーケンス、およびロボット状態のシーケンスを入力する。
ロボットの動作と将来のイメージをエンドツーエンドで予測する。
論文 参考訳(メタデータ) (2023-12-20T16:00:43Z) - Towards Generalizable Zero-Shot Manipulation via Translating Human
Interaction Plans [58.27029676638521]
我々は、人間の受動的ビデオが、そのようなジェネラリストロボットを学習するための豊富なデータ源であることを示す。
我々は、シーンの現在の画像とゴール画像から将来の手やオブジェクトの設定を予測する人間の計画予測器を学習する。
学習システムは、40個のオブジェクトに一般化する16以上の操作スキルを実現できることを示す。
論文 参考訳(メタデータ) (2023-12-01T18:54:12Z) - Learning Generalizable Robotic Reward Functions from "In-The-Wild" Human
Videos [59.58105314783289]
ドメインに依存しないビデオ識別器(DVD)は、2つのビデオが同じタスクを実行しているかどうかを判断するために識別器を訓練することによりマルチタスク報酬関数を学習する。
DVDは、人間のビデオの広いデータセットで少量のロボットデータから学習することで、一般化することができる。
DVDと視覚モデル予測制御を組み合わせることで、実際のWidowX200ロボットのロボット操作タスクを単一の人間のデモから未知の環境で解決できます。
論文 参考訳(メタデータ) (2021-03-31T05:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。