論文の概要: H2R-Grounder: A Paired-Data-Free Paradigm for Translating Human Interaction Videos into Physically Grounded Robot Videos
- arxiv url: http://arxiv.org/abs/2512.09406v1
- Date: Wed, 10 Dec 2025 07:59:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.442781
- Title: H2R-Grounder: A Paired-Data-Free Paradigm for Translating Human Interaction Videos into Physically Grounded Robot Videos
- Title(参考訳): H2R-Grounder:人間のインタラクション映像を物理的に接地したロボットビデオに変換するためのペア化されたデータフリーパラダイム
- Authors: Hai Ci, Xiaokang Liu, Pei Yang, Yiren Song, Mike Zheng Shou,
- Abstract要約: 本稿では,通常の人間と物体のインタラクションビデオからモーション一貫性のあるロボット操作ビデオに変換するビデオ間翻訳フレームワークを提案する。
私たちのアプローチでは、ロボットビデオのセットのみをトレーニングするために、ペアの人間ロボットビデオは必要とせず、システムを拡張しやすくしています。
テスト時にも同じプロセスを人間のビデオに適用し、人間の行動を模倣する高品質なロボットビデオを生成する。
- 参考スコア(独自算出の注目度): 58.006918399913665
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robots that learn manipulation skills from everyday human videos could acquire broad capabilities without tedious robot data collection. We propose a video-to-video translation framework that converts ordinary human-object interaction videos into motion-consistent robot manipulation videos with realistic, physically grounded interactions. Our approach does not require any paired human-robot videos for training only a set of unpaired robot videos, making the system easy to scale. We introduce a transferable representation that bridges the embodiment gap: by inpainting the robot arm in training videos to obtain a clean background and overlaying a simple visual cue (a marker and arrow indicating the gripper's position and orientation), we can condition a generative model to insert the robot arm back into the scene. At test time, we apply the same process to human videos (inpainting the person and overlaying human pose cues) and generate high-quality robot videos that mimic the human's actions. We fine-tune a SOTA video diffusion model (Wan 2.2) in an in-context learning manner to ensure temporal coherence and leveraging of its rich prior knowledge. Empirical results demonstrate that our approach achieves significantly more realistic and grounded robot motions compared to baselines, pointing to a promising direction for scaling up robot learning from unlabeled human videos. Project page: https://showlab.github.io/H2R-Grounder/
- Abstract(参考訳): 日常の人間のビデオから操作スキルを学ぶロボットは、面倒なロボットデータを集めることなく、幅広い能力を獲得することができる。
本研究では,通常の人間と物体の対話映像をリアルで物理的に接地された対話映像に変換するビデオ間翻訳フレームワークを提案する。
私たちのアプローチでは、ロボットビデオのセットのみをトレーニングするために、ペアの人間ロボットビデオは必要とせず、システムを拡張しやすくしています。
ロボットアームをトレーニングビデオに貼り付けてクリーンな背景を取得し、単純な視覚的キュー(握手の位置と向きを示すマーカーと矢印)をオーバーレイすることで、生成モデルを条件としてロボットアームを現場に戻すことができる。
テスト時にも同じプロセスを人間のビデオに適用し、人間の行動を模倣する高品質なロボットビデオを生成する。
我々は,SOTAビデオ拡散モデル(Wan 2.2)を文脈内学習方式で微調整し,時間的コヒーレンスを確保し,その豊富な事前知識を活用する。
実験の結果,本手法はベースラインよりもはるかに現実的で接地的なロボット動作を実現し,ラベルのない人間のビデオからロボット学習をスケールアップする上で有望な方向性を示している。
プロジェクトページ: https://showlab.github.io/H2R-Grounder/
関連論文リスト
- X-Humanoid: Robotize Human Videos to Generate Humanoid Videos at Scale [59.36026074638773]
X-Humanoidは、強力なWan 2.2モデルをビデオ間構造に適応させ、人-人-人-翻訳タスクに微調整する生成的ビデオ編集手法である。
トレーニングされたモデルを60時間のEgo-Exo4Dビデオに適用し,360万以上の“ロボット化された”ヒューマノイドビデオフレームからなる,新たな大規模データセットの生成とリリースを行います。
論文 参考訳(メタデータ) (2025-12-04T07:34:08Z) - Vid2Robot: End-to-end Video-conditioned Policy Learning with Cross-Attention Transformers [36.497624484863785]
Vid2Robotは、人間のビデオで操作タスクを入力として表現し、ロボットアクションを生成する、エンドツーエンドのビデオ条件付きポリシーである。
我々のモデルは、ビデオから人間とロボットのアクションの統一表現を学習するために、プロンプトロボット軌道対の大規模なデータセットを用いて訓練されている。
実世界のロボット上でのVid2Robotの評価を行い、人間のプロンプトビデオを用いた場合、BC-Zよりも20%以上の改善が見られた。
論文 参考訳(メタデータ) (2024-03-19T17:47:37Z) - Learning an Actionable Discrete Diffusion Policy via Large-Scale Actionless Video Pre-Training [69.54948297520612]
ジェネラリストの具体化エージェントを学ぶことは、主にアクションラベル付きロボットデータセットの不足に起因して、課題を提起する。
これらの課題に対処するための新しい枠組みを導入し、人間のビデオにおける生成前トレーニングと、少数のアクションラベル付きロボットビデオのポリシー微調整を組み合わせるために、統一された離散拡散を利用する。
提案手法は, 従来の最先端手法と比較して, 高忠実度な今後の計画ビデオを生成し, 細調整されたポリシーを強化する。
論文 参考訳(メタデータ) (2024-02-22T09:48:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。