論文の概要: Morphology-Consistent Humanoid Interaction through Robot-Centric Video Synthesis
- arxiv url: http://arxiv.org/abs/2603.19709v2
- Date: Tue, 24 Mar 2026 08:42:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 12:42:17.581773
- Title: Morphology-Consistent Humanoid Interaction through Robot-Centric Video Synthesis
- Title(参考訳): ロボット中心のビデオ合成による形態・持続型ヒューマノイド相互作用
- Authors: Weisheng Xu, Jian Li, Yi Gu, Bin Yang, Haodong Chen, Shuyi Lin, Mingqian Zhou, Jing Tan, Qiwei Wu, Xiangrui Jiang, Taowen Wang, Jiawen Wen, Qiwei Liang, Jiaxi Zhang, Renjing Xu,
- Abstract要約: Dream2Actは、生成ビデオによるゼロショットインタラクションを可能にするロボット中心のフレームワークである。
Dream2Actは、ロボットネイティブ空間内で厳密に動作し、エラーを回避し、タスク固有のポリシートレーニングを取り除く。
- 参考スコア(独自算出の注目度): 25.249184346335557
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Equipping humanoid robots with versatile interaction skills typically requires either extensive policy training or explicit human-to-robot motion retargeting. However, learning-based policies face prohibitive data collection costs. Meanwhile, retargeting relies on human-centric pose estimation (e.g., SMPL), introducing a morphology gap. Skeletal scale mismatches result in severe spatial misalignments when mapped to robots, compromising interaction success. In this work, we propose Dream2Act, a robot-centric framework enabling zero-shot interaction through generative video synthesis. Given a third-person image of the robot and target object, our framework leverages video generation models to envision the robot completing the task with morphology-consistent motion. We employ a high-fidelity pose extraction system to recover physically feasible, robot-native joint trajectories from these synthesized dreams, subsequently executed via a general-purpose whole-body controller. Operating strictly within the robot-native coordinate space, Dream2Act avoids retargeting errors and eliminates task-specific policy training. We evaluate Dream2Act on the Unitree G1 across four whole-body mobile interaction tasks: ball kicking, sofa sitting, bag punching, and box hugging. Dream2Act achieves a 37.5% overall success rate, compared to 0% for conventional retargeting. While retargeting fails to establish correct physical contacts due to the morphology gap (with errors compounded during locomotion), Dream2Act maintains robot-consistent spatial alignment, enabling reliable contact formation and substantially higher task completion.
- Abstract(参考訳): 万能なインタラクションスキルを持つヒューマノイドロボットを入手するには、広範なポリシートレーニングまたは明示的なヒューマン・ロボット・モーション・リターゲティングが必要になる。
しかし、学習ベースのポリシーはデータ収集の禁止コストに直面している。
一方、リターゲティングは人間中心のポーズ推定(SMPLなど)に依存しており、形態的ギャップが生じる。
骨格的スケールのミスマッチは、ロボットにマッピングされた際の空間的ミスアライメントを悪化させ、相互作用の成功を損なう。
本研究では,生成ビデオ合成によるゼロショットインタラクションを実現するロボット中心のフレームワークであるDream2Actを提案する。
ロボットと対象物体の3人称画像が与えられた場合、このフレームワークは映像生成モデルを利用して、形態に一貫性のある動作でタスクを完了することを想定する。
我々は,高忠実性ポーズ抽出システムを用いて,これらの合成された夢から身体的に実現可能な,ロボットネイティブな関節軌道を復元し,その後,汎用的な全身制御装置を用いて実行した。
ロボットネイティブの座標空間内で厳格に運用されているDream2Actは、エラーの再ターゲティングを回避し、タスク固有のポリシートレーニングを排除する。
我々は,Unitree G1のDream2Actを,ボール蹴り,ソファー座,バッグパンチ,ボックスハグの4つのモバイルインタラクションタスクで評価した。
Dream2Actの全体的な成功率は37.5%であり、従来のリターゲティングでは0%である。
リターゲティングは、(移動中に複雑なエラーを伴って)形態的ギャップによって正しい物理的接触を確立するのに失敗するが、Dream2Actはロボットと一貫性のある空間アライメントを維持し、信頼性の高い接触形成を可能にし、タスク完了を大幅に高める。
関連論文リスト
- MiVLA: Towards Generalizable Vision-Language-Action Model with Human-Robot Mutual Imitation Pre-training [102.850162490626]
人間のロボットによる相互模倣事前学習による視覚-言語-行動モデルであるMiVLAを提案する。
MiVLAは、最先端のVLAよりも優れた、強力な改良された一般化能力を実現する。
論文 参考訳(メタデータ) (2025-12-17T12:59:41Z) - H2R-Grounder: A Paired-Data-Free Paradigm for Translating Human Interaction Videos into Physically Grounded Robot Videos [58.006918399913665]
本稿では,通常の人間と物体のインタラクションビデオからモーション一貫性のあるロボット操作ビデオに変換するビデオ間翻訳フレームワークを提案する。
私たちのアプローチでは、ロボットビデオのセットのみをトレーニングするために、ペアの人間ロボットビデオは必要とせず、システムを拡張しやすくしています。
テスト時にも同じプロセスを人間のビデオに適用し、人間の行動を模倣する高品質なロボットビデオを生成する。
論文 参考訳(メタデータ) (2025-12-10T07:59:45Z) - OmniRetarget: Interaction-Preserving Data Generation for Humanoid Whole-Body Loco-Manipulation and Scene Interaction [76.44108003274955]
ヒューマノイドロボットの複雑なスキルを教えるための主要なパラダイムは、強化学習ポリシーの運動学的参照として人間の動きを再ターゲットすることである。
インタラクションメッシュに基づくインタラクション保存データ生成エンジンであるOmniRetargetを紹介する。
人間のメッシュとロボットメッシュの間のラプラシアの変形を最小限にすることで、OmniRetargetは運動学的に実現可能な軌道を生成する。
論文 参考訳(メタデータ) (2025-09-30T17:59:02Z) - DreamGen: Unlocking Generalization in Robot Learning through Video World Models [120.25799361925387]
DreamGenは、ニューラルトラジェクトリを通じて行動や環境を一般化するロボットポリシーをトレーニングするためのパイプラインだ。
私たちの研究は、手作業によるデータ収集を超えて、ロボット学習をスケールするための、有望な新たな軸を確立します。
論文 参考訳(メタデータ) (2025-05-19T04:55:39Z) - IGOR: Image-GOal Representations are the Atomic Control Units for Foundation Models in Embodied AI [28.160367249993318]
Image-Goal Representations (IGOR)は、人間やさまざまなロボットにまたがる統一的で意味的に一貫したアクション空間を学習する。
IGORは大規模ロボットと人間の活動データ間の知識伝達を可能にする。
我々はIGORが人間とロボットの知識伝達と制御の新しい可能性を開くと考えている。
論文 参考訳(メタデータ) (2024-10-17T13:41:16Z) - ImitationNet: Unsupervised Human-to-Robot Motion Retargeting via Shared Latent Space [9.806227900768926]
本稿では,ロボットの動きに対する新しいディープラーニング手法を提案する。
本手法では,新しいロボットへの翻訳を容易にする,人間とロボットのペアデータを必要としない。
我々のモデルは、効率と精度の観点から、人間とロボットの類似性に関する既存の研究よりも優れています。
論文 参考訳(メタデータ) (2023-09-11T08:55:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。