論文の概要: Mitty: Diffusion-based Human-to-Robot Video Generation
- arxiv url: http://arxiv.org/abs/2512.17253v1
- Date: Fri, 19 Dec 2025 05:52:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.255532
- Title: Mitty: Diffusion-based Human-to-Robot Video Generation
- Title(参考訳): Mitty: 拡散に基づく人間とロボットのビデオ生成
- Authors: Yiren Song, Cheng Liu, Weijia Mao, Mike Zheng Shou,
- Abstract要約: 我々は,Human2Robotビデオ生成のためのビデオインコンテクスト学習を可能にする拡散変換器であるMittyを提案する。
事前訓練されたビデオ拡散モデルに基づいて構築されたMittyは、強い視覚的時間的事前情報を利用して、人間のデモをアクションラベルや中間抽象化なしでロボット実行ビデオに変換する。
Human2RobotとEPIC-Kitchensの実験によると、Mittyは最先端の結果、目に見えない環境への強力な一般化、人間の観察からスケーラブルなロボット学習のための新たな洞察を提供する。
- 参考スコア(独自算出の注目度): 57.494785199352975
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Learning directly from human demonstration videos is a key milestone toward scalable and generalizable robot learning. Yet existing methods rely on intermediate representations such as keypoints or trajectories, introducing information loss and cumulative errors that harm temporal and visual consistency. We present Mitty, a Diffusion Transformer that enables video In-Context Learning for end-to-end Human2Robot video generation. Built on a pretrained video diffusion model, Mitty leverages strong visual-temporal priors to translate human demonstrations into robot-execution videos without action labels or intermediate abstractions. Demonstration videos are compressed into condition tokens and fused with robot denoising tokens through bidirectional attention during diffusion. To mitigate paired-data scarcity, we also develop an automatic synthesis pipeline that produces high-quality human-robot pairs from large egocentric datasets. Experiments on Human2Robot and EPIC-Kitchens show that Mitty delivers state-of-the-art results, strong generalization to unseen environments, and new insights for scalable robot learning from human observations.
- Abstract(参考訳): 人間のデモビデオから直接学ぶことは、スケーラブルで一般化可能なロボット学習にとって重要なマイルストーンだ。
しかし、既存の手法はキーポイントや軌跡などの中間表現に依存しており、時間的・視覚的な一貫性を損なう情報損失や累積誤差を導入している。
我々は,Human2Robotビデオ生成のためのビデオインコンテクスト学習を可能にする拡散変換器であるMittyを提案する。
事前訓練されたビデオ拡散モデルに基づいて構築されたMittyは、強い視覚的時間的事前情報を利用して、人間のデモをアクションラベルや中間抽象化なしでロボット実行ビデオに変換する。
デモビデオは条件付きトークンに圧縮され、拡散中に双方向の注意を通してトークンを認知するロボットと融合する。
また、ペアデータ不足を軽減するために、大規模なエゴセントリックなデータセットから高品質な人間とロボットのペアを生成する自動合成パイプラインを開発する。
Human2RobotとEPIC-Kitchensの実験によると、Mittyは最先端の結果、目に見えない環境への強力な一般化、人間の観察からスケーラブルなロボット学習のための新たな洞察を提供する。
関連論文リスト
- MimicDreamer: Aligning Human and Robot Demonstrations for Scalable VLA Training [40.45924128424013]
低コストな人間によるデモンストレーションをロボットで使用可能な監視に変換するフレームワークであるMimicDreamerを提案する。
視覚的アライメントのために,高忠実度ロボットデモビデオを生成するビデオ拡散モデルH2R Alignerを提案する。
視点安定化のためにEgoStabilizerを提案する。
動作アライメントのために,人間の手の動きをロボットフレームにマッピングし,制約付き逆運動学解法を適用する。
論文 参考訳(メタデータ) (2025-09-26T11:05:10Z) - VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。
VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文 参考訳(メタデータ) (2025-03-10T10:04:58Z) - Learning an Actionable Discrete Diffusion Policy via Large-Scale Actionless Video Pre-Training [69.54948297520612]
ジェネラリストの具体化エージェントを学ぶことは、主にアクションラベル付きロボットデータセットの不足に起因して、課題を提起する。
これらの課題に対処するための新しい枠組みを導入し、人間のビデオにおける生成前トレーニングと、少数のアクションラベル付きロボットビデオのポリシー微調整を組み合わせるために、統一された離散拡散を利用する。
提案手法は, 従来の最先端手法と比較して, 高忠実度な今後の計画ビデオを生成し, 細調整されたポリシーを強化する。
論文 参考訳(メタデータ) (2024-02-22T09:48:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。