論文の概要: Learning from Massive Human Videos for Universal Humanoid Pose Control
- arxiv url: http://arxiv.org/abs/2412.14172v1
- Date: Wed, 18 Dec 2024 18:59:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 16:49:59.210114
- Title: Learning from Massive Human Videos for Universal Humanoid Pose Control
- Title(参考訳): ユニバーサル・ヒューマノイド・ポーズ制御のための大規模ビデオからの学習
- Authors: Jiageng Mao, Siheng Zhao, Siqi Song, Tianheng Shi, Junjie Ye, Mingtong Zhang, Haoran Geng, Jitendra Malik, Vitor Guizilini, Yue Wang,
- Abstract要約: 本稿では,2000万以上のヒューマノイドロボットの大規模データセットであるHumanoid-Xを紹介する。
我々は、テキスト命令を入力として受け取り、対応する動作を出力してヒューマノイドロボットを制御する、大きなヒューマノイドモデルUH-1を訓練する。
私たちのスケーラブルなトレーニングアプローチは、テキストベースのヒューマノイド制御の優れた一般化につながります。
- 参考スコア(独自算出の注目度): 46.417054298537195
- License:
- Abstract: Scalable learning of humanoid robots is crucial for their deployment in real-world applications. While traditional approaches primarily rely on reinforcement learning or teleoperation to achieve whole-body control, they are often limited by the diversity of simulated environments and the high costs of demonstration collection. In contrast, human videos are ubiquitous and present an untapped source of semantic and motion information that could significantly enhance the generalization capabilities of humanoid robots. This paper introduces Humanoid-X, a large-scale dataset of over 20 million humanoid robot poses with corresponding text-based motion descriptions, designed to leverage this abundant data. Humanoid-X is curated through a comprehensive pipeline: data mining from the Internet, video caption generation, motion retargeting of humans to humanoid robots, and policy learning for real-world deployment. With Humanoid-X, we further train a large humanoid model, UH-1, which takes text instructions as input and outputs corresponding actions to control a humanoid robot. Extensive simulated and real-world experiments validate that our scalable training approach leads to superior generalization in text-based humanoid control, marking a significant step toward adaptable, real-world-ready humanoid robots.
- Abstract(参考訳): ヒューマノイドロボットのスケーラブルな学習は、現実世界のアプリケーションへの展開に不可欠である。
従来のアプローチは主に体全体のコントロールを達成するために強化学習や遠隔操作に頼っているが、シミュレーション環境の多様性とデモコレクションの高コストによって制限されることが多い。
対照的に、人間のビデオはユビキタスであり、ヒューマノイドロボットの一般化能力を大幅に向上させる、意味情報や動き情報の未解決の源となる。
本稿では,2000万以上のヒューマノイドロボットの大規模データセットであるHumanoid-Xを紹介する。
Humanoid-Xは、インターネットからのデータマイニング、ビデオキャプション生成、人間からヒューマノイドロボットへのモーションリターゲティング、現実世界の展開のためのポリシー学習など、包括的なパイプラインを通じてキュレーションされている。
我々は、Humanoid-Xを用いて、テキスト命令を入力として取り、対応する動作を出力してヒューマノイドロボットを制御する、大きなヒューマノイドモデルUH-1をさらに訓練する。
大規模なシミュレーションと実世界の実験により、我々のスケーラブルなトレーニングアプローチがテキストベースのヒューマノイド制御のより優れた一般化につながることが証明された。
関連論文リスト
- HumanPlus: Humanoid Shadowing and Imitation from Humans [82.47551890765202]
ヒューマノイドが人間のデータから動きや自律的なスキルを学ぶためのフルスタックシステムを導入する。
まず、既存の40時間動作データセットを用いて、強化学習によるシミュレーションの低レベルポリシーを訓練する。
次に、自己中心型視覚を用いてスキルポリシーを訓練し、ヒューマノイドが自律的に異なるタスクを完了できるようにする。
論文 参考訳(メタデータ) (2024-06-15T00:41:34Z) - HumanoidBench: Simulated Humanoid Benchmark for Whole-Body Locomotion and Manipulation [50.616995671367704]
そこで本研究では,人型ロボットが器用な手を備えた,高次元シミュレーション型ロボット学習ベンチマークHumanoidBenchを提案する。
その結果,現在最先端の強化学習アルゴリズムがほとんどのタスクに支障をきたすのに対して,階層的学習アプローチはロバストな低レベルポリシーに支えられた場合,優れた性能を達成できることがわかった。
論文 参考訳(メタデータ) (2024-03-15T17:45:44Z) - Learning Human-to-Humanoid Real-Time Whole-Body Teleoperation [34.65637397405485]
本稿では,Human to Humanoid(H2O)について紹介する。H2Oは,RGBカメラのみを搭載したヒューマノイドロボットのリアルタイム遠隔操作を実現するフレームワークである。
我々は、これらの洗練された動きを用いてシミュレーションで頑健なリアルタイムヒューマノイド運動模倣機を訓練し、実ヒューマノイドロボットにゼロショットで転送する。
私たちの知る限りでは、学習に基づくリアルタイムな人型ロボット遠隔操作を実現する最初のデモとなる。
論文 参考訳(メタデータ) (2024-03-07T12:10:41Z) - Expressive Whole-Body Control for Humanoid Robots [20.132927075816742]
我々は、人間の動きをできるだけリアルに模倣するために、人間サイズのロボットで全身制御ポリシーを学習する。
シミュレーションとSim2Real転送のトレーニングにより、私たちのポリシーはヒューマノイドロボットを制御して、さまざまなスタイルで歩いたり、人と握手したり、現実世界で人間と踊ったりできる。
論文 参考訳(メタデータ) (2024-02-26T18:09:24Z) - RealDex: Towards Human-like Grasping for Robotic Dexterous Hand [64.33746404551343]
本稿では,人間の行動パターンを取り入れた手の動きを正確に把握する先駆的データセットであるRealDexを紹介する。
RealDexは、現実のシナリオにおける認識、認識、操作を自動化するためのヒューマノイドロボットを進化させる上で、大きな可能性を秘めている。
論文 参考訳(メタデータ) (2024-02-21T14:59:46Z) - Giving Robots a Hand: Learning Generalizable Manipulation with
Eye-in-Hand Human Video Demonstrations [66.47064743686953]
眼内カメラは、視覚に基づくロボット操作において、より優れたサンプル効率と一般化を可能にすることを約束している。
一方、人間がタスクを行うビデオは、ロボット遠隔操作の専門知識を欠いているため、収集コストがずっと安い。
本研究では,広範にラベルのない人間ビデオによるロボット模倣データセットを拡張し,眼球運動ポリシーの一般化を大幅に促進する。
論文 参考訳(メタデータ) (2023-07-12T07:04:53Z) - HERD: Continuous Human-to-Robot Evolution for Learning from Human
Demonstration [57.045140028275036]
本研究では,マイクロ進化的強化学習を用いて,操作スキルを人間からロボットに伝達可能であることを示す。
本稿では,ロボットの進化経路とポリシーを協調的に最適化する多次元進化経路探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-08T15:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。