論文の概要: RoboMirror: Understand Before You Imitate for Video to Humanoid Locomotion
- arxiv url: http://arxiv.org/abs/2512.23649v3
- Date: Sun, 04 Jan 2026 07:45:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 14:31:43.717601
- Title: RoboMirror: Understand Before You Imitate for Video to Humanoid Locomotion
- Title(参考訳): RoboMirror:ヒューマノイドのロコモーションにビデオが映る前に理解する
- Authors: Zhe Li, Cheng Chi, Boan Zhu, Yangyang Wei, Shuanghao Bai, Yuheng Ji, Yibo Peng, Tao Huang, Pengwei Wang, Zhongyuan Wang, S. -H. Gary Chan, Chang Xu, Shanghang Zhang,
- Abstract要約: 最先端のヒューマノイド・ロコモーションシステムは、修正されたモーションキャプチャ・トラジェクトリまたはテキストコマンドに依存している。
模倣前の理解」を具現化した最初の自由な動画移動フレームワークであるRoboMirrorを提案する。
- 参考スコア(独自算出の注目度): 59.51253426975907
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans learn locomotion through visual observation, interpreting visual content first before imitating actions. However, state-of-the-art humanoid locomotion systems rely on either curated motion capture trajectories or sparse text commands, leaving a critical gap between visual understanding and control. Text-to-motion methods suffer from semantic sparsity and staged pipeline errors, while video-based approaches only perform mechanical pose mimicry without genuine visual understanding. We propose RoboMirror, the first retargeting-free video-to-locomotion framework embodying "understand before you imitate". Leveraging VLMs, it distills raw egocentric/third-person videos into visual motion intents, which directly condition a diffusion-based policy to generate physically plausible, semantically aligned locomotion without explicit pose reconstruction or retargeting. Extensive experiments validate the effectiveness of RoboMirror, it enables telepresence via egocentric videos, drastically reduces third-person control latency by 80%, and achieves a 3.7% higher task success rate than baselines. By reframing humanoid control around video understanding, we bridge the visual understanding and action gap.
- Abstract(参考訳): 人間は視覚的な観察を通して移動を学び、アクションを模倣する前にまず視覚的な内容を解釈する。
しかし、最先端のヒューマノイド・ロコモーションシステムは、キュレートされたモーションキャプチャ・トラジェクトリーまたはスパーステキスト・コマンドに依存しており、視覚的理解と制御の間に重要なギャップを残している。
テキスト・トゥ・モーション法はセマンティック・スペシャリティとステージ化されたパイプラインエラーに悩まされ、ビデオベースの手法は真の視覚的理解なしに機械的なポーズの模倣を行うのみである。
本稿では,「模倣前に理解」を具現化した最初のリターゲットフリー動画移動フレームワークであるRoboMirrorを提案する。
VLMを活用することで、生のエゴセントリック/サードパーソンビデオから視覚的な動きの意図を抽出し、拡散ベースのポリシーを直接条件にすることで、明示的なポーズの再構築や再ターゲティングなしに、物理的に妥当でセマンティックに整合したロコモーションを生成する。
大規模な実験により、RoboMirrorの有効性が検証され、エゴセントリックなビデオによるテレプレゼンスを可能にし、サードパーティの制御遅延を80%劇的に削減し、ベースラインよりも3.7%高いタスク成功率を達成する。
映像理解に関するヒューマノイド制御を緩和することにより、視覚的理解と行動ギャップを橋渡しする。
関連論文リスト
- Object-centric 3D Motion Field for Robot Learning from Human Videos [56.9436352861611]
本稿では,人間ビデオからのロボット学習の動作を表現するために,物体中心の3次元運動場を提案する。
ゼロショット制御のためのビデオからこの表現を抽出するための新しいフレームワークを提案する。
実験の結果,提案手法は最新の手法に比べて3次元動作推定誤差を50%以上削減できることがわかった。
論文 参考訳(メタデータ) (2025-06-04T17:59:06Z) - Moto: Latent Motion Token as the Bridging Language for Learning Robot Manipulation from Videos [101.26467307473638]
我々はMotoを紹介する。Motoは、映像コンテンツをラテントモーションTokenizerでラテントモーションTokenシーケンスに変換する。
我々は、モーショントークンによるMoto-GPTの事前学習を行い、多様な視覚的動きの知識を捉えることができる。
実際のロボット動作に先立って学習した動きを転送するために、潜伏した動きのトークン予測と実際のロボット制御をシームレスにブリッジするコファインチューニング戦略を実装した。
論文 参考訳(メタデータ) (2024-12-05T18:57:04Z) - Learning Object Manipulation Skills from Video via Approximate
Differentiable Physics [27.923004421974156]
我々はロボットに、単一のビデオデモを見て、シンプルなオブジェクト操作タスクを実行するように教える。
識別可能なシーンは、3Dシーンと2Dビデオの間の知覚的忠実性を保証する。
我々は,54のデモ映像からなる3次元再構成作業に対するアプローチを評価した。
論文 参考訳(メタデータ) (2022-08-03T10:21:47Z) - Look Closer: Bridging Egocentric and Third-Person Views with
Transformers for Robotic Manipulation [15.632809977544907]
視覚フィードバックから精度に基づく操作タスクを解くことは、従来のロボットシステムに必要なエンジニアリング労力を大幅に削減する可能性がある。
ロボットの手首に装着した3人称カメラと自我中心カメラの両方から視覚フィードバックを受けるロボット操作のための設定を提案する。
また,両カメラの視覚情報を効果的に融合するために,クロスビューアテンション機構を備えたトランスフォーマーを提案する。
論文 参考訳(メタデータ) (2022-01-19T18:39:03Z) - Understanding Action Sequences based on Video Captioning for
Learning-from-Observation [14.467714234267307]
本稿では,人間の実演映像を言語指示で分割理解し,正確な動作シーケンスを抽出できる,観察からの学習フレームワークを提案する。
分割は、人間の日常行動と対象中心の顔接触遷移を一致させる手速の局所的最小点に基づいて行われる。
人間の意図を正しく理解し,動画内の意図しない動作を無視するために,動作記述と言語指示を一致させる。
論文 参考訳(メタデータ) (2020-12-09T05:22:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。