論文の概要: Trajectory Conditioned Cross-embodiment Skill Transfer
- arxiv url: http://arxiv.org/abs/2510.07773v1
- Date: Thu, 09 Oct 2025 04:26:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.862979
- Title: Trajectory Conditioned Cross-embodiment Skill Transfer
- Title(参考訳): 軌道条件付きクロス・エボディメント・スキル・トランスファー
- Authors: YuHang Tang, Yixuan Lou, Pengfei Han, Haoming Song, Xinyi Ye, Dong Wang, Bin Zhao,
- Abstract要約: TrajSkillは、Trajectory Conditioned Cross-Embodiment Skill Transferのフレームワークである。
トラジスキルは最先端技術と比較してFVDを39.6%、KVDを36.6%削減することを示した。
- 参考スコア(独自算出の注目度): 17.361383693716643
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning manipulation skills from human demonstration videos presents a promising yet challenging problem, primarily due to the significant embodiment gap between human body and robot manipulators. Existing methods rely on paired datasets or hand-crafted rewards, which limit scalability and generalization. We propose TrajSkill, a framework for Trajectory Conditioned Cross-embodiment Skill Transfer, enabling robots to acquire manipulation skills directly from human demonstration videos. Our key insight is to represent human motions as sparse optical flow trajectories, which serve as embodiment-agnostic motion cues by removing morphological variations while preserving essential dynamics. Conditioned on these trajectories together with visual and textual inputs, TrajSkill jointly synthesizes temporally consistent robot manipulation videos and translates them into executable actions, thereby achieving cross-embodiment skill transfer. Extensive experiments are conducted, and the results on simulation data (MetaWorld) show that TrajSkill reduces FVD by 39.6\% and KVD by 36.6\% compared with the state-of-the-art, and improves cross-embodiment success rate by up to 16.7\%. Real-robot experiments in kitchen manipulation tasks further validate the effectiveness of our approach, demonstrating practical human-to-robot skill transfer across embodiments.
- Abstract(参考訳): 人間のデモビデオからの操作スキルの習得は、主に人体とロボットマニピュレータの間の大きな具体化のギャップのために、有望だが挑戦的な問題を示している。
既存の方法は、スケーラビリティと一般化を制限する、ペア化されたデータセットや手作りの報酬に依存している。
本稿では,ロボットが人間の実演ビデオから直接操作スキルを取得可能な,軌道条件付きクロスボディーメントスキルトランスファーのためのフレームワークであるTrajSkillを提案する。
我々の重要な洞察は、人間の動きをスパースな光学的流れの軌跡として表現することであり、それは、必須の力学を保ちながら形態的変化を除去することで、エンボディメントに依存しない運動の手がかりとして機能する。
TrajSkillは、これらの軌跡と視覚的入力とテキスト入力を併用して、時間的に一貫したロボット操作ビデオを共同で合成し、実行可能なアクションに変換することで、クロス・エボデーメントのスキル伝達を実現する。
大規模な実験を行い、シミュレーションデータ(MetaWorld)の結果、TrajSkillは最先端技術と比較してFVDを39.6\%、KVDを36.6\%削減し、クロスエボディメントの成功率を最大16.7\%改善した。
キッチン操作タスクにおける実ロボット実験は、我々のアプローチの有効性をさらに検証し、実施形態をまたいだ実践的な人間とロボットのスキル伝達を実証する。
関連論文リスト
- From Human Hands to Robot Arms: Manipulation Skills Transfer via Trajectory Alignment [36.08997778717271]
現実世界のロボットの多様な操作スキルを学ぶことは、高価でスケールの難しい遠隔操作によるデモンストレーションに依存することでボトルネックとなる。
本稿では,操作終端の3次元軌跡を統一中間表現として利用することにより,この実施ギャップを橋渡しする新しいフレームワークであるTraj2Actionを紹介する。
我々の方針はまず,人間とロボットの両方のデータを活用することで,高レベルの運動計画を形成する粗い軌道を生成することを学習する。
論文 参考訳(メタデータ) (2025-10-01T04:21:12Z) - CEDex: Cross-Embodiment Dexterous Grasp Generation at Scale from Human-like Contact Representations [53.37721117405022]
クロス・エボディメント・デキスタラス・グリップ合成(Cross-Embodiment dexterous grasp synthesis)とは、様々なロボットハンドのグリップを適応的に生成し、最適化することである。
そこで我々は,CEDexを提案する。
これまでで最大のクロス・エボディメント・グラウンド・データセットを構築し、合計20万のグリップを持つ4つのタイプにまたがる500万のオブジェクトからなる。
論文 参考訳(メタデータ) (2025-09-29T12:08:04Z) - FreeAction: Training-Free Techniques for Enhanced Fidelity of Trajectory-to-Video Generation [50.39748673817223]
本稿では,ロボットビデオ生成における明示的な動作パラメータを完全に活用する2つのトレーニング不要な推論時間手法を提案する。
第一に、アクションスケールの分類器フリーガイダンスは、動作の大きさに比例して誘導強度を動的に調整し、運動強度に対する制御性を高める。
第二に、アクションスケールノイズトランケーションは、初期サンプルノイズの分布を調整し、所望の運動力学とよりよく一致させる。
論文 参考訳(メタデータ) (2025-09-29T03:30:40Z) - Physical Autoregressive Model for Robotic Manipulation without Action Pretraining [65.8971623698511]
我々は、自己回帰ビデオ生成モデルを構築し、物理自己回帰モデル(PAR)を提案する。
PARは、アクション事前トレーニングを必要とせず、物理力学を理解するために、ビデオ事前トレーニングに埋め込まれた世界の知識を活用する。
ManiSkillベンチマークの実験は、PARがPushCubeタスクで100%の成功率を達成したことを示している。
論文 参考訳(メタデータ) (2025-08-13T13:54:51Z) - H-RDT: Human Manipulation Enhanced Bimanual Robotic Manipulation [27.585828712261232]
H-RDT(Human to Robotics Diffusion Transformer)は、人間の操作データを利用してロボット操作能力を向上する新しいアプローチである。
私たちの重要な洞察は、大規模なエゴセントリックな人間操作ビデオとペアの3Dハンドポーズアノテーションが、自然な操作戦略を捉えたリッチな行動優先を提供するということです。
本研究では,(1)大規模な人間操作データに対する事前トレーニング,(2)モジュール型アクションエンコーダとデコーダを用いたロボット固有のデータに対するクロスエボディメント微調整という2段階の訓練パラダイムを導入する。
論文 参考訳(メタデータ) (2025-07-31T13:06:59Z) - Is Diversity All You Need for Scalable Robotic Manipulation? [50.747150672933316]
ロボット学習におけるデータ多様性の役割について,従来の「より多様な方がよい」という直観に固執する3つの重要な次元(タスク),実施形態(ロボットの使用方法),専門家(専門家)を用いて検討する。
タスクの多様性は、タスクごとのデモンストレーション量よりも重要であり、多様な事前学習タスクから新しい下流シナリオへの移行に有効であることを示す。
本稿では,速度のあいまいさを緩和する分散デバイアス法を提案する。GO-1-Proは,2.5倍の事前学習データを用いて,15%の性能向上を実現している。
論文 参考訳(メタデータ) (2025-07-08T17:52:44Z) - Sim-to-Real Reinforcement Learning for Vision-Based Dexterous Manipulation on Humanoids [56.892520712892804]
本稿では,ヒューマノイドロボットを訓練して3つの巧妙な操作を行う,実用的なシミュレート・トゥ・リアルなRLレシピを提案する。
未確認のオブジェクトやロバストで適応的な政策行動に対して高い成功率を示す。
論文 参考訳(メタデータ) (2025-02-27T18:59:52Z) - Human-Humanoid Robots Cross-Embodiment Behavior-Skill Transfer Using Decomposed Adversarial Learning from Demonstration [9.42179962375058]
本稿では,デジタル人間モデルを共通プロトタイプとして使用することにより,データのボトルネックを低減するための転送可能なフレームワークを提案する。
このモデルは、人間による実演から、敵対的な模倣を通して行動プリミティブを学習し、複雑なロボット構造を機能的な構成要素に分解する。
本フレームワークは,多種多様な構成のヒューマノイドロボット5体を用いて検証した。
論文 参考訳(メタデータ) (2024-12-19T18:41:45Z) - One-Shot Imitation under Mismatched Execution [7.060120660671016]
人間のデモは、ロボットに長距離操作のタスクをプログラムするための強力な方法だ。
これらのデモをロボット実行可能なアクションに変換することは、運動スタイルや身体能力のミスマッチの実行による重大な課題を呈する。
シーケンスレベルの最適輸送コスト関数を用いて,人間とロボットの軌道を自動的にペアリングする新しいフレームワークRHyMEを提案する。
論文 参考訳(メタデータ) (2024-09-10T16:11:57Z) - Domain Adaptive Robotic Gesture Recognition with Unsupervised
Kinematic-Visual Data Alignment [60.31418655784291]
本稿では,マルチモダリティ知識,すなわちキネマティックデータとビジュアルデータを同時にシミュレータから実ロボットに伝達できる,教師なしドメイン適応フレームワークを提案する。
ビデオの時間的手がかりと、ジェスチャー認識に対するマルチモーダル固有の相関を用いて、トランスファー可能な機能を強化したドメインギャップを修復する。
その結果, 本手法は, ACCでは最大12.91%, F1scoreでは20.16%と, 実際のロボットではアノテーションを使わずに性能を回復する。
論文 参考訳(メタデータ) (2021-03-06T09:10:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。