Fugu-MT 論文翻訳(概要): H2R-Grounder: A Paired-Data-Free Paradigm for Translating Human Interaction Videos into Physically Grounded Robot Videos

論文の概要: H2R-Grounder: A Paired-Data-Free Paradigm for Translating Human Interaction Videos into Physically Grounded Robot Videos

arxiv url: http://arxiv.org/abs/2512.09406v1
Date: Wed, 10 Dec 2025 07:59:45 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-11 15:14:53.442781
Title: H2R-Grounder: A Paired-Data-Free Paradigm for Translating Human Interaction Videos into Physically Grounded Robot Videos
Title（参考訳）: H2R-Grounder:人間のインタラクション映像を物理的に接地したロボットビデオに変換するためのペア化されたデータフリーパラダイム
Authors: Hai Ci, Xiaokang Liu, Pei Yang, Yiren Song, Mike Zheng Shou,
Abstract要約: 本稿では,通常の人間と物体のインタラクションビデオからモーション一貫性のあるロボット操作ビデオに変換するビデオ間翻訳フレームワークを提案する。私たちのアプローチでは、ロボットビデオのセットのみをトレーニングするために、ペアの人間ロボットビデオは必要とせず、システムを拡張しやすくしています。テスト時にも同じプロセスを人間のビデオに適用し、人間の行動を模倣する高品質なロボットビデオを生成する。
参考スコア（独自算出の注目度）: 58.006918399913665
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Robots that learn manipulation skills from everyday human videos could acquire broad capabilities without tedious robot data collection. We propose a video-to-video translation framework that converts ordinary human-object interaction videos into motion-consistent robot manipulation videos with realistic, physically grounded interactions. Our approach does not require any paired human-robot videos for training only a set of unpaired robot videos, making the system easy to scale. We introduce a transferable representation that bridges the embodiment gap: by inpainting the robot arm in training videos to obtain a clean background and overlaying a simple visual cue (a marker and arrow indicating the gripper's position and orientation), we can condition a generative model to insert the robot arm back into the scene. At test time, we apply the same process to human videos (inpainting the person and overlaying human pose cues) and generate high-quality robot videos that mimic the human's actions. We fine-tune a SOTA video diffusion model (Wan 2.2) in an in-context learning manner to ensure temporal coherence and leveraging of its rich prior knowledge. Empirical results demonstrate that our approach achieves significantly more realistic and grounded robot motions compared to baselines, pointing to a promising direction for scaling up robot learning from unlabeled human videos. Project page: https://showlab.github.io/H2R-Grounder/
Abstract（参考訳）: 日常の人間のビデオから操作スキルを学ぶロボットは、面倒なロボットデータを集めることなく、幅広い能力を獲得することができる。本研究では,通常の人間と物体の対話映像をリアルで物理的に接地された対話映像に変換するビデオ間翻訳フレームワークを提案する。私たちのアプローチでは、ロボットビデオのセットのみをトレーニングするために、ペアの人間ロボットビデオは必要とせず、システムを拡張しやすくしています。ロボットアームをトレーニングビデオに貼り付けてクリーンな背景を取得し、単純な視覚的キュー(握手の位置と向きを示すマーカーと矢印)をオーバーレイすることで、生成モデルを条件としてロボットアームを現場に戻すことができる。テスト時にも同じプロセスを人間のビデオに適用し、人間の行動を模倣する高品質なロボットビデオを生成する。我々は,SOTAビデオ拡散モデル(Wan 2.2)を文脈内学習方式で微調整し,時間的コヒーレンスを確保し,その豊富な事前知識を活用する。実験の結果,本手法はベースラインよりもはるかに現実的で接地的なロボット動作を実現し,ラベルのない人間のビデオからロボット学習をスケールアップする上で有望な方向性を示している。プロジェクトページ: https://showlab.github.io/H2R-Grounder/

関連論文リスト

X-Humanoid: Robotize Human Videos to Generate Humanoid Videos at Scale [59.36026074638773]
X-Humanoidは、強力なWan 2.2モデルをビデオ間構造に適応させ、人-人-人-翻訳タスクに微調整する生成的ビデオ編集手法である。トレーニングされたモデルを60時間のEgo-Exo4Dビデオに適用し,360万以上の“ロボット化された”ヒューマノイドビデオフレームからなる,新たな大規模データセットの生成とリリースを行います。
論文参考訳（メタデータ） (2025-12-04T07:34:08Z)
MimicDreamer: Aligning Human and Robot Demonstrations for Scalable VLA Training [40.45924128424013]
低コストな人間によるデモンストレーションをロボットで使用可能な監視に変換するフレームワークであるMimicDreamerを提案する。視覚的アライメントのために,高忠実度ロボットデモビデオを生成するビデオ拡散モデルH2R Alignerを提案する。視点安定化のためにEgoStabilizerを提案する。動作アライメントのために,人間の手の動きをロボットフレームにマッピングし,制約付き逆運動学解法を適用する。
論文参考訳（メタデータ） (2025-09-26T11:05:10Z)
VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。 VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文参考訳（メタデータ） (2025-03-10T10:04:58Z)
Vid2Robot: End-to-end Video-conditioned Policy Learning with Cross-Attention Transformers [36.497624484863785]
Vid2Robotは、人間のビデオで操作タスクを入力として表現し、ロボットアクションを生成する、エンドツーエンドのビデオ条件付きポリシーである。我々のモデルは、ビデオから人間とロボットのアクションの統一表現を学習するために、プロンプトロボット軌道対の大規模なデータセットを用いて訓練されている。実世界のロボット上でのVid2Robotの評価を行い、人間のプロンプトビデオを用いた場合、BC-Zよりも20%以上の改善が見られた。
論文参考訳（メタデータ） (2024-03-19T17:47:37Z)
Learning an Actionable Discrete Diffusion Policy via Large-Scale Actionless Video Pre-Training [69.54948297520612]
ジェネラリストの具体化エージェントを学ぶことは、主にアクションラベル付きロボットデータセットの不足に起因して、課題を提起する。これらの課題に対処するための新しい枠組みを導入し、人間のビデオにおける生成前トレーニングと、少数のアクションラベル付きロボットビデオのポリシー微調整を組み合わせるために、統一された離散拡散を利用する。提案手法は, 従来の最先端手法と比較して, 高忠実度な今後の計画ビデオを生成し, 細調整されたポリシーを強化する。
論文参考訳（メタデータ） (2024-02-22T09:48:47Z)
Learning Video-Conditioned Policies for Unseen Manipulation Tasks [83.2240629060453]
ビデオ条件付きポリシー学習は、以前は目に見えないタスクの人間のデモをロボット操作スキルにマッピングする。我々は,現在のシーン観察と対象課題のビデオから適切なアクションを生成するためのポリシーを学習する。われわれは,多タスクロボット操作環境の課題と,技術面における性能の面から,そのアプローチを検証した。
論文参考訳（メタデータ） (2023-05-10T16:25:42Z)
Affordances from Human Videos as a Versatile Representation for Robotics [31.248842798600606]
我々は、人間がどこでどのように対話するかを推定する視覚的余裕モデルを訓練する。これらの行動割当の構造は、ロボットが多くの複雑なタスクを直接実行できるようにする。私たちは、VRBと呼ばれる4つの現実世界環境、10以上のタスクと2つのロボットプラットフォームにおいて、私たちのアプローチの有効性を示します。
論文参考訳（メタデータ） (2023-04-17T17:59:34Z)
Zero-Shot Robot Manipulation from Passive Human Videos [59.193076151832145]
我々は,人間の映像からエージェント非依存の行動表現を抽出するフレームワークを開発した。我々の枠組みは、人間の手の動きを予測することに基づいている。トレーニングされたモデルゼロショットを物理ロボット操作タスクにデプロイする。
論文参考訳（メタデータ） (2023-02-03T21:39:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。