論文の概要: X-Diffusion: Training Diffusion Policies on Cross-Embodiment Human Demonstrations
- arxiv url: http://arxiv.org/abs/2511.04671v1
- Date: Thu, 06 Nov 2025 18:56:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.579782
- Title: X-Diffusion: Training Diffusion Policies on Cross-Embodiment Human Demonstrations
- Title(参考訳): X-Diffusion: クロス・エボディメント・ヒューマン・デモにおける拡散政策のトレーニング
- Authors: Maximus A. Pace, Prithwish Dan, Chuanruo Ning, Atiksh Bhardwaj, Audrey Du, Edward W. Duan, Wei-Chiu Ma, Kushal Kedia,
- Abstract要約: X-拡散(X-Diffusion)は、拡散政策を訓練するための原則的なフレームワークである。
動的に実現不可能な動作を学習することなく、人間のデータを最大限活用する。
X拡散は最良ベースラインよりも平均成功率が16%高い。
- 参考スコア(独自算出の注目度): 12.375737659812344
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human videos can be recorded quickly and at scale, making them an appealing source of training data for robot learning. However, humans and robots differ fundamentally in embodiment, resulting in mismatched action execution. Direct kinematic retargeting of human hand motion can therefore produce actions that are physically infeasible for robots. Despite these low-level differences, human demonstrations provide valuable motion cues about how to manipulate and interact with objects. Our key idea is to exploit the forward diffusion process: as noise is added to actions, low-level execution differences fade while high-level task guidance is preserved. We present X-Diffusion, a principled framework for training diffusion policies that maximally leverages human data without learning dynamically infeasible motions. X-Diffusion first trains a classifier to predict whether a noisy action is executed by a human or robot. Then, a human action is incorporated into policy training only after adding sufficient noise such that the classifier cannot discern its embodiment. Actions consistent with robot execution supervise fine-grained denoising at low noise levels, while mismatched human actions provide only coarse guidance at higher noise levels. Our experiments show that naive co-training under execution mismatches degrades policy performance, while X-Diffusion consistently improves it. Across five manipulation tasks, X-Diffusion achieves a 16% higher average success rate than the best baseline. The project website is available at https://portal-cornell.github.io/X-Diffusion/.
- Abstract(参考訳): 人間のビデオは迅速かつ大規模に記録できるため、ロボット学習のためのトレーニングデータの魅力的なソースとなる。
しかし、人間とロボットは基本的に実施形態が異なり、不一致の行動実行となる。
したがって、人間の手の動きの直接的キネマティック・リターゲティングは、ロボットにとって物理的に不可能な行動を生み出すことができる。
これらの低レベルな違いにもかかわらず、人間のデモは、オブジェクトの操作と操作に関する貴重な動きの手がかりを提供する。
ノイズがアクションに追加されるにつれて、ハイレベルなタスクガイダンスが保存されている間、低レベルな実行差が消える。
動的に実現不可能な動作を学習することなく、人間のデータを最大限活用する拡散政策を訓練するための原則的フレームワークであるX-Diffusionを提案する。
X拡散はまず分類器を訓練し、人間またはロボットによってノイズのある動作が実行されるかどうかを予測する。
そして、分類器がその実施形態を識別できないような十分なノイズを付加した後のみ、人的行為を政策訓練に組み込む。
ロボットの実行と整合した動作は、低騒音レベルにおいてきめ細かいデノーミングを監督する一方、不一致な人間の行動は、より高い騒音レベルにおいて粗いガイダンスを提供するのみである。
実験の結果,実行ミスマッチ下での自然な協調訓練はポリシー性能を低下させるが,X-Diffusionは一貫して改善することがわかった。
5つの操作タスクで、X-Diffusionは最高のベースラインよりも平均16%高い成功率を達成する。
プロジェクトのWebサイトはhttps://portal-cornell.github.io/X-Diffusion/.comで公開されている。
関連論文リスト
- MimicDreamer: Aligning Human and Robot Demonstrations for Scalable VLA Training [40.45924128424013]
低コストな人間によるデモンストレーションをロボットで使用可能な監視に変換するフレームワークであるMimicDreamerを提案する。
視覚的アライメントのために,高忠実度ロボットデモビデオを生成するビデオ拡散モデルH2R Alignerを提案する。
視点安定化のためにEgoStabilizerを提案する。
動作アライメントのために,人間の手の動きをロボットフレームにマッピングし,制約付き逆運動学解法を適用する。
論文 参考訳(メタデータ) (2025-09-26T11:05:10Z) - DemoDiffusion: One-Shot Human Imitation using pre-trained Diffusion Policy [33.18108154271181]
ロボットが自然環境下で操作タスクを実行できるシンプルでスケーラブルな方法であるDemoDiffusionを提案する。
まず、人間の実演における手の動きは、ロボットのエンドエフェクター軌道に有用な事前情報を提供する。
第二に、この再ターゲティングされた動きはタスクの全体構造をキャプチャするが、コンテキスト内でのもっともらしいロボットの動作とうまく一致しないかもしれない。
論文 参考訳(メタデータ) (2025-06-25T17:59:01Z) - One-Shot Imitation under Mismatched Execution [7.060120660671016]
人間のデモは、ロボットに長距離操作のタスクをプログラムするための強力な方法だ。
これらのデモをロボット実行可能なアクションに変換することは、運動スタイルや身体能力のミスマッチの実行による重大な課題を呈する。
シーケンスレベルの最適輸送コスト関数を用いて,人間とロボットの軌道を自動的にペアリングする新しいフレームワークRHyMEを提案する。
論文 参考訳(メタデータ) (2024-09-10T16:11:57Z) - Learning an Actionable Discrete Diffusion Policy via Large-Scale Actionless Video Pre-Training [69.54948297520612]
ジェネラリストの具体化エージェントを学ぶことは、主にアクションラベル付きロボットデータセットの不足に起因して、課題を提起する。
これらの課題に対処するための新しい枠組みを導入し、人間のビデオにおける生成前トレーニングと、少数のアクションラベル付きロボットビデオのポリシー微調整を組み合わせるために、統一された離散拡散を利用する。
提案手法は, 従来の最先端手法と比較して, 高忠実度な今後の計画ビデオを生成し, 細調整されたポリシーを強化する。
論文 参考訳(メタデータ) (2024-02-22T09:48:47Z) - Learning Video-Conditioned Policies for Unseen Manipulation Tasks [83.2240629060453]
ビデオ条件付きポリシー学習は、以前は目に見えないタスクの人間のデモをロボット操作スキルにマッピングする。
我々は,現在のシーン観察と対象課題のビデオから適切なアクションを生成するためのポリシーを学習する。
われわれは,多タスクロボット操作環境の課題と,技術面における性能の面から,そのアプローチを検証した。
論文 参考訳(メタデータ) (2023-05-10T16:25:42Z) - Zero-Shot Robot Manipulation from Passive Human Videos [59.193076151832145]
我々は,人間の映像からエージェント非依存の行動表現を抽出するフレームワークを開発した。
我々の枠組みは、人間の手の動きを予測することに基づいている。
トレーニングされたモデルゼロショットを物理ロボット操作タスクにデプロイする。
論文 参考訳(メタデータ) (2023-02-03T21:39:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。