論文の概要: SUGAR: A Scalable Human-Video-Driven Generalizable Humanoid Loco-Manipulation Learning Framework
- arxiv url: http://arxiv.org/abs/2605.20373v1
- Date: Tue, 19 May 2026 18:24:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.319254
- Title: SUGAR: A Scalable Human-Video-Driven Generalizable Humanoid Loco-Manipulation Learning Framework
- Title(参考訳): SUGAR: スケーラブルなヒューマンビデオ駆動型汎用ヒューマノイドロコマニピュレーション学習フレームワーク
- Authors: Tianshu Wu, Xiangqi Kong, Yue Chen, Qize Yu, Hang Ye, Jia Li, Yizhou Wang, Hao Dong,
- Abstract要約: 現実の世界における全身のロボット操作を一般化できるヒューマノイドロボットの構築は、依然として根本的な課題である。
SuGARは、多様な人間の動画をデプロイ可能なヒューマノイドのロコ操作スキルに変換するスケーラブルなデータ駆動フレームワークである。
シミュレーションと実世界のヒューマノイドハードウェアにおいて,SUGARを6つの代表的ロコ操作タスクで評価する。
- 参考スコア(独自算出の注目度): 27.050974194855964
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building humanoid robots capable of generalizable whole-body loco-manipulation in the real world remains a fundamental challenge. Existing methods either rely on laborious task-specific reward engineering, rigidly replay reference motions that fail to generalize, or depend on costly teleoperation that limits scalability. While human videos capture diverse human behaviors, motion priors inferred from them are inherently imperfect, suffering from occlusion, contact artifacts, and retargeting errors that render them unsuitable for direct policy learning. To address this, we present SUGAR, a scalable data-driven framework that converts diverse human videos into deployable humanoid loco-manipulation skills, without any task-specific reward engineering or reference-motion conditioning at inference. SUGAR proceeds in three stages. First, a fully automated pipeline extracts kinematic interaction priors including human-object motion trajectories and contact labels from unstructured human videos. Second, a privileged physics-based refiner uses a unified mimic reward and progressive state pool to transform imperfect priors into physically feasible, high-fidelity skills. Third, refined skills are distilled into a hierarchical autonomous policy consisting of a command generator and a command tracker. We evaluate SUGAR on six representative loco-manipulation tasks in simulation and real-world humanoid hardware. Our method substantially outperforms reference-tracking baselines, and performance scales clearly with the amount of human video data. It also achieves zero-shot real-world transfer with reliable closed-loop execution, autonomous failure recovery, and stable long-horizon performance under external perturbations. Project Page: https://tianshuwu.github.io/sugar-humanoid/
- Abstract(参考訳): 現実の世界における全身のロボット操作を一般化できるヒューマノイドロボットの構築は、依然として根本的な課題である。
既存の手法は、厳格なタスク固有の報酬工学に依存し、一般化に失敗した参照動作を厳格にリプレイするか、スケーラビリティを制限するコストのかかる遠隔操作に依存している。
人間のビデオは多様な人間の行動を捉えているが、それらから推測される動きの先入観は本質的に不完全であり、閉塞、接触した人工物、そして直接の政策学習には適さないエラーの再ターゲティングに苦しむ。
これを解決するために、SUGARはスケーラブルなデータ駆動型フレームワークで、多様な人間の動画を、タスク固有の報酬工学や推論時の参照動作条件を使わずに、展開可能なヒューマノイドのロコ操作スキルに変換する。
SUGARは3段階で進行する。
まず、完全に自動化されたパイプラインは、人間の物体の動き軌跡や、非構造的な人間のビデオから接触ラベルを含むキネティックな相互作用を抽出する。
第二に、特権を持つ物理学ベースの精錬機は、統一された模倣報酬とプログレッシブステートプールを使用して、不完全な先行を物理的に実現可能な高忠実なスキルに変換する。
第3に、洗練された技術は、コマンドジェネレータとコマンドトラッカーからなる階層的な自律ポリシーに蒸留される。
シミュレーションと実世界のヒューマノイドハードウェアにおいて,SUGARを6つの代表的ロコ操作タスクで評価する。
提案手法は基準追従ベースラインを大幅に上回り,人間の映像データ量で明らかにスケールする。
また、信頼性の高いクローズドループ実行、自律的障害回復、および外部の摂動下での安定したロングホライゾン性能により、ゼロショットの現実世界転送も実現している。
Project Page: https://tianshuwu.github.io/sugar- Humanoid/
関連論文リスト
- $Ψ_0$: An Open Foundation Model Towards Universal Humanoid Loco-Manipulation [39.811210435945924]
本稿では,ヒューマノイドのロコ操作課題に対処するオープン基盤モデルを提案する。
我々の研究は、重要だが見落とされがちなデータレシピを特定します。
高品質な人間操作データに対する事前トレーニングと、ドメイン固有の実世界のヒューマノイド軌道のポストトレーニングにより、優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2026-03-12T17:59:51Z) - ZeroWBC: Learning Natural Visuomotor Humanoid Control Directly from Human Egocentric Video [52.78703020909145]
我々は、人間中心のビデオから直接、自然なヒューマノイドビジュモータ制御ポリシーを学ぶ新しいフレームワークであるZeroWBCを紹介した。
提案手法はまず視覚言語モデル(VLM)を微調整し,テキスト命令とエゴセントリックな視覚コンテキストに基づく将来の身体全体の動作を予測する。
ユニツリーG1ヒューマノイドロボットの実験では,動作の自然性と汎用性において,本手法がベースラインアプローチより優れていることが示された。
論文 参考訳(メタデータ) (2026-03-10T04:19:43Z) - DexImit: Learning Bimanual Dexterous Manipulation from Monocular Human Videos [56.64773686434068]
DexImitは、人間の操作映像を物理的に妥当なロボットデータに変換する自動フレームワークである。
DexImitは、インターネットまたはビデオ生成モデルから、人間のビデオに基づいて大規模なロボットデータを生成することができる。
ツールの使用、長距離タスク、きめ細かい操作を含む多様な操作タスクを処理できる。
論文 参考訳(メタデータ) (2026-02-10T18:59:02Z) - From Generated Human Videos to Physically Plausible Robot Trajectories [103.28274349461607]
ビデオ生成モデルは、人間のアクションを新しい文脈で合成する能力が急速に向上している。
この可能性を実現するために、ヒューマノイドはどうやってゼロショットで生成されたビデオから人間の行動を実行することができるのか?
この課題は、生成されたビデオがしばしばうるさいので、実際のビデオと比べて直接の模倣を困難にする形態的歪みを示すためである。
我々は,3次元キーポイントに条件付き物理対応強化学習政策であるGenMimicを提案し,対称性の正則化とキーポイント重み付きトラッキング報酬を訓練した。
論文 参考訳(メタデータ) (2025-12-04T18:56:03Z) - ResMimic: From General Motion Tracking to Humanoid Whole-body Loco-Manipulation via Residual Learning [59.64325421657381]
ヒューマノイド全体のロコ操作は、日々のサービスや倉庫のタスクにトランスフォーメーション機能を約束する。
ResMimicは、人間の動作データから正確に表現力のあるヒューマノイド制御のための2段階の残差学習フレームワークである。
結果は、強いベースラインよりもタスク成功、トレーニング効率、堅牢性が大幅に向上したことを示している。
論文 参考訳(メタデータ) (2025-10-06T17:47:02Z) - Learning a Universal Human Prior for Dexterous Manipulation from Human
Preference [35.54663426598218]
本稿では,ビデオ上での人間の嗜好を直接フィードバックすることで,人類の普遍性を学習するフレームワークを提案する。
多様な警察を反復的に生成し、軌道上の人間の嗜好を収集することにより、タスクに依存しない報酬モデルを訓練する。
提案手法は,ロボットの手の動作を,目に見えないタスクを含む多様なタスクで実証的に示す。
論文 参考訳(メタデータ) (2023-04-10T14:17:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。