Fugu-MT 論文翻訳(概要): Bridging the Embodiment Gap: Disentangled Cross-Embodiment Video Editing

論文の概要: Bridging the Embodiment Gap: Disentangled Cross-Embodiment Video Editing

arxiv url: http://arxiv.org/abs/2605.03637v1
Date: Tue, 05 May 2026 11:09:41 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-06 19:35:43.91125
Title: Bridging the Embodiment Gap: Disentangled Cross-Embodiment Video Editing
Title（参考訳）: 身体のギャップを埋める:斜めのクロス・エボディメント・ビデオ編集
Authors: Zhiyuan Li, Wenyan Yang, Wenshuai Zhao, Yue Ma, Yuanpeng Tu, Pekka Marttinen, Joni Pajarinen,
Abstract要約: 本稿では,クロス・エボディメント・ビデオ編集のための生成フレームワークを提案する。本手法は,2つの競合対象を強制することにより,実演映像を2つの潜在空間に分解する。パラメータ効率の良いアダプタは、これらの潜伏コードを凍結ビデオ拡散モデルに注入し、コヒーレントロボット実行ビデオの合成を可能にする。
参考スコア（独自算出の注目度）: 35.3765036136913
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Learning robotic manipulation from human videos is a promising solution to the data bottleneck in robotics, but the distribution shift between humans and robots remains a critical challenge. Existing approaches often produce entangled representations, where task-relevant information is coupled with human-specific kinematics, limiting their adaptability. We propose a generative framework for cross-embodiment video editing that directly addresses this by learning explicitly disentangled task and embodiment representations. Our method factorizes a demonstration video into two orthogonal latent spaces by enforcing a dual contrastive objective: it minimizes mutual information between the spaces to ensure independence while maximizing intra-space consistency to create stable representations. A parameter-efficient adapter injects these latent codes into a frozen video diffusion model, enabling the synthesis of a coherent robot execution video from a single human demonstration, without requiring paired cross-embodiment data. Experiments show our approach generates temporally consistent and morphologically accurate robot demonstrations, offering a scalable solution to leverage internet-scale human video for robot learning.
Abstract（参考訳）: 人間のビデオからロボット操作を学ぶことは、ロボット工学におけるデータのボトルネックに対する有望な解決策だが、人間とロボットの間の分散シフトは依然として重要な課題だ。既存のアプローチはしばしば絡み合った表現を生み出し、そこではタスク関連情報が人間固有の運動学と結合され、適応性が制限される。そこで本研究では,非拘束なタスクやエンボディメント表現を学習することで,直接的にこの問題に対処する,クロス・エボディメント・ビデオ編集のための生成フレームワークを提案する。本手法は,空間間の相互情報を最小化し,空間内一貫性を最大化し,安定な表現を生成する。パラメータ効率の良いアダプタは、これらの潜伏コードを凍結ビデオ拡散モデルに注入し、ペアのクロスエボディメントデータを必要とせず、単一の人間のデモンストレーションからコヒーレントロボット実行ビデオの合成を可能にする。実験により、我々のアプローチは時間的に一貫性があり、形態的に正確なロボットデモを生成し、ロボット学習にインターネットスケールの人間ビデオを活用するスケーラブルなソリューションを提供する。

関連論文リスト

Mitty: Diffusion-based Human-to-Robot Video Generation [57.494785199352975]
我々は,Human2Robotビデオ生成のためのビデオインコンテクスト学習を可能にする拡散変換器であるMittyを提案する。事前訓練されたビデオ拡散モデルに基づいて構築されたMittyは、強い視覚的時間的事前情報を利用して、人間のデモをアクションラベルや中間抽象化なしでロボット実行ビデオに変換する。 Human2RobotとEPIC-Kitchensの実験によると、Mittyは最先端の結果、目に見えない環境への強力な一般化、人間の観察からスケーラブルなロボット学習のための新たな洞察を提供する。
論文参考訳（メタデータ） (2025-12-19T05:52:15Z)
AnchorDream: Repurposing Video Diffusion for Embodiment-Aware Robot Data Synthesis [33.90053396451562]
AnchorDreamは、ロボットデータ合成のための事前学習されたビデオ拡散モデルを再利用した、エンボディメントを意識した世界モデルである。本手法は,環境モデリングを必要とせず,大規模で多様な高品質なデータセットにスケールする。実験の結果、生成されたデータは下流の政策学習において一貫した改善をもたらし、シミュレータのベンチマークでは36.4%、現実世界の研究ではほぼ2倍の性能を示した。
論文参考訳（メタデータ） (2025-12-12T18:59:45Z)
RoboSwap: A GAN-driven Video Diffusion Framework For Unsupervised Robot Arm Swapping [28.283462013493928]
RoboSwapは多様な環境からの未ペアデータで動作する。私たちはロボットアームを彼らのバックグラウンドから切り離し、片方のロボットアームをもう片方のロボットアームに翻訳するために、無人のGANモデルを訓練します。実験の結果,RoboSwapは3つのベンチマークで最先端のビデオや画像編集モデルより優れていることがわかった。
論文参考訳（メタデータ） (2025-06-10T09:46:07Z)
VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。 VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文参考訳（メタデータ） (2025-03-10T10:04:58Z)
Learning an Actionable Discrete Diffusion Policy via Large-Scale Actionless Video Pre-Training [69.54948297520612]
ジェネラリストの具体化エージェントを学ぶことは、主にアクションラベル付きロボットデータセットの不足に起因して、課題を提起する。これらの課題に対処するための新しい枠組みを導入し、人間のビデオにおける生成前トレーニングと、少数のアクションラベル付きロボットビデオのポリシー微調整を組み合わせるために、統一された離散拡散を利用する。提案手法は, 従来の最先端手法と比較して, 高忠実度な今後の計画ビデオを生成し, 細調整されたポリシーを強化する。
論文参考訳（メタデータ） (2024-02-22T09:48:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。