論文の概要: ZeroWBC: Learning Natural Visuomotor Humanoid Control Directly from Human Egocentric Video
- arxiv url: http://arxiv.org/abs/2603.09170v1
- Date: Tue, 10 Mar 2026 04:19:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.025339
- Title: ZeroWBC: Learning Natural Visuomotor Humanoid Control Directly from Human Egocentric Video
- Title(参考訳): ZeroWBC:人間中心ビデオから直接自然視運動型ヒューマノイド制御を学習する
- Authors: Haoran Yang, Jiacheng Bao, Yucheng Xin, Haoming Song, Yuyang Tian, Bin Zhao, Dong Wang, Xuelong Li,
- Abstract要約: 我々は、人間中心のビデオから直接、自然なヒューマノイドビジュモータ制御ポリシーを学ぶ新しいフレームワークであるZeroWBCを紹介した。
提案手法はまず視覚言語モデル(VLM)を微調整し,テキスト命令とエゴセントリックな視覚コンテキストに基づく将来の身体全体の動作を予測する。
ユニツリーG1ヒューマノイドロボットの実験では,動作の自然性と汎用性において,本手法がベースラインアプローチより優れていることが示された。
- 参考スコア(独自算出の注目度): 52.78703020909145
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Achieving versatile and naturalistic whole-body control for humanoid robot scene-interaction remains a significant challenge. While some recent works have demonstrated autonomous humanoid interactive control, they are constrained to rigid locomotion patterns and expensive teleoperation data collection, lacking the versatility to execute more human-like natural behaviors such as sitting or kicking. Furthermore, acquiring the necessary real robot teleoperation data is prohibitively expensive and time-consuming. To address these limitations, we introduce ZeroWBC, a novel framework that learns a natural humanoid visuomotor control policy directly from human egocentric videos, eliminating the need for large-scale robot teleoperation data and enabling natural humanoid robot scene-interaction control. Specifically, our approach first fine-tunes a Vision-Language Model (VLM) to predict future whole-body human motions based on text instructions and egocentric visual context, then these generated motions are retargeted to real robot joints and executed via our robust general motion tracking policy for humanoid whole-body control. Extensive experiments on the Unitree G1 humanoid robot demonstrate that our method outperforms baseline approaches in motion naturalness and versatility, successfully establishing a pipeline that eliminates teleoperation data collection overhead for whole-body humanoid control, offering a scalable and efficient paradigm for general humanoid whole-body control.
- Abstract(参考訳): ヒューマノイドロボットのシーンインタラクションのための多目的で自然主義的な全身制御を実現することは、依然として大きな課題である。
近年のいくつかの研究は、自律的なヒューマノイドのインタラクティブな制御を実証しているが、それらは厳格なロコモーションパターンと高価な遠隔操作データ収集に制約されており、座ったり蹴ったりといった人間のような自然な行動を実行するための汎用性が欠如している。
さらに、必要な実際のロボット遠隔操作データを取得することは、極めて高価で時間を要する。
これらの制約に対処するため、ZeroWBCは人間中心のビデオから直接人間型ロボットの視覚運動制御ポリシーを学習し、大規模なロボット遠隔操作データの必要性を排除し、自然型ヒューマノイドロボットのシーン操作制御を可能にする新しいフレームワークである。
具体的には、まず、テキスト命令と自我中心の視覚的コンテキストに基づいて、将来の全身動作を予測するために視覚言語モデル(VLM)を微調整し、これらの動きを実際のロボット関節に再ターゲティングし、ヒューマノイド全身制御のための頑健な一般的なモーショントラッキングポリシーを介して実行する。
このUnitree G1ヒューマノイドロボットの広汎な実験により,本手法は動作の自然性と汎用性においてベースラインアプローチよりも優れており,全身ヒューマノイド制御のための遠隔操作データ収集オーバーヘッドを排除し,汎用ヒューマノイド全体制御のためのスケーラブルで効率的なパラダイムを提供するパイプラインの確立に成功している。
関連論文リスト
- FRoM-W1: Towards General Humanoid Whole-Body Control with Language Instructions [147.04372611893032]
FRoM-W1は、自然言語を用いた一般的なヒューマノイド全体の動作制御を実現するために設計されたオープンソースのフレームワークである。
我々はUnitree H1とG1ロボット上でFRoM-W1を広範囲に評価した。
その結果,HumanML3D-Xベンチマークにおいて,人体全体の動作生成に優れた性能を示した。
論文 参考訳(メタデータ) (2026-01-19T07:59:32Z) - MiVLA: Towards Generalizable Vision-Language-Action Model with Human-Robot Mutual Imitation Pre-training [102.850162490626]
人間のロボットによる相互模倣事前学習による視覚-言語-行動モデルであるMiVLAを提案する。
MiVLAは、最先端のVLAよりも優れた、強力な改良された一般化能力を実現する。
論文 参考訳(メタデータ) (2025-12-17T12:59:41Z) - TWIST: Teleoperated Whole-Body Imitation System [28.597388162969057]
全身動作模倣によるヒューマノイド遠隔操作システムTWISTについて述べる。
我々は,強化学習と行動クローニングを組み合わせた,頑健で適応的で応答性の高い全身制御装置を開発した。
TWISTは、現実世界のヒューマノイドロボットが、前例のない、多目的で、調整された全身運動能力を達成できるようにする。
論文 参考訳(メタデータ) (2025-05-05T17:59:03Z) - Learning from Massive Human Videos for Universal Humanoid Pose Control [46.417054298537195]
本稿では,2000万以上のヒューマノイドロボットの大規模データセットであるHumanoid-Xを紹介する。
我々は、テキスト命令を入力として受け取り、対応する動作を出力してヒューマノイドロボットを制御する、大きなヒューマノイドモデルUH-1を訓練する。
私たちのスケーラブルなトレーニングアプローチは、テキストベースのヒューマノイド制御の優れた一般化につながります。
論文 参考訳(メタデータ) (2024-12-18T18:59:56Z) - Expressive Whole-Body Control for Humanoid Robots [20.132927075816742]
我々は、人間の動きをできるだけリアルに模倣するために、人間サイズのロボットで全身制御ポリシーを学習する。
シミュレーションとSim2Real転送のトレーニングにより、私たちのポリシーはヒューマノイドロボットを制御して、さまざまなスタイルで歩いたり、人と握手したり、現実世界で人間と踊ったりできる。
論文 参考訳(メタデータ) (2024-02-26T18:09:24Z) - Learning a Universal Human Prior for Dexterous Manipulation from Human
Preference [35.54663426598218]
本稿では,ビデオ上での人間の嗜好を直接フィードバックすることで,人類の普遍性を学習するフレームワークを提案する。
多様な警察を反復的に生成し、軌道上の人間の嗜好を収集することにより、タスクに依存しない報酬モデルを訓練する。
提案手法は,ロボットの手の動作を,目に見えないタスクを含む多様なタスクで実証的に示す。
論文 参考訳(メタデータ) (2023-04-10T14:17:33Z) - HERD: Continuous Human-to-Robot Evolution for Learning from Human
Demonstration [57.045140028275036]
本研究では,マイクロ進化的強化学習を用いて,操作スキルを人間からロボットに伝達可能であることを示す。
本稿では,ロボットの進化経路とポリシーを協調的に最適化する多次元進化経路探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-08T15:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。