論文の概要: Demo-JEPA: Joint-Embedding Predictive Architecture for One-shot Cross-Embodiment Imitation
- arxiv url: http://arxiv.org/abs/2605.20811v1
- Date: Wed, 20 May 2026 07:05:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.542554
- Title: Demo-JEPA: Joint-Embedding Predictive Architecture for One-shot Cross-Embodiment Imitation
- Title(参考訳): Demo-JEPA: ワンショット・クロス・エボディメント・シミュエーションのための共同組込み予測アーキテクチャ
- Authors: Jingyang He, Guangrun Li, Jieyu Zhang, Chengkai Hou, Zhengping Che, Shanghang Zhang,
- Abstract要約: Demo-JEPAは、エボデーメント固有の実行からデモインテントを分離する、クロスボデーメントの模倣フレームワークである。
JEPAベースの世界モデルに基づいて構築されたDemo-JEPAは、ソースの視覚的なデモンストレーションを、共有予測表現空間内のターゲット互換な将来の潜在軌道に変換する。
Demo-JEPAはアクションレベルの対応を回避し、視覚的なデモンストレーションとターゲットエージェント自身のインタラクションエクスペリエンスのみを必要とするため、異種エンボディメント間のフレキシブルな模倣をサポートする。
- 参考スコア(独自算出の注目度): 46.14987262895696
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robotic imitation learning is often treated as reproducing demonstrated actions, but actions are inherently embodiment-specific. When demonstrations come from humans or robots with different morphology, kinematics, or action spaces, this action-centric view requires shared action spaces, heuristic retargeting, or large-scale multi-embodiment co-training. We instead view demonstrations as implicit specifications of future goals: the target agent should infer what state the demonstrator is trying to realize, rather than how the demonstrator executes it. We propose Demo-JEPA, a cross-embodiment imitation framework that decouples demonstration intent from embodiment-specific execution. Built on a JEPA-based world model, Demo-JEPA translates source visual demonstrations into target-compatible future latent trajectories in a shared predictive representation space. The target agent then uses these latent trajectories as subgoals and realizes them through planning under its own learned forward dynamics. Because Demo-JEPA avoids action-level correspondence and requires only visual demonstrations plus the target agent's own interaction experience, it supports flexible imitation across heterogeneous embodiments. Experiments on RLBench and real-world manipulation tasks show that Demo-JEPA matches specialized in-domain planners and generalizes to unseen tasks and embodiment configurations where prior methods fail.
- Abstract(参考訳): ロボット模倣学習は、しばしば実演行動の再現として扱われるが、行動は本質的に具体化固有のものである。
異なる形態、運動学、行動空間を持つ人間やロボットがデモを行う場合、このアクション中心の視点は共有アクション空間、ヒューリスティック・リターゲティング、大規模なマルチ・エボディメント・コトレーニングを必要とする。
私たちは代わりに、デモを将来の目標の暗黙の仕様として見ている: ターゲットエージェントは、デモエータがそれをどのように実行するかではなく、デモエータが実現しようとしている状態を予測するべきである。
本稿では,実証意図を具体化固有の実行から切り離す,クロスボデーメントの模倣フレームワークであるDemo-JEPAを提案する。
JEPAベースの世界モデルに基づいて構築されたDemo-JEPAは、ソースの視覚的なデモンストレーションを、共有予測表現空間内のターゲット互換な将来の潜在軌道に変換する。
ターゲットエージェントは、これらの潜在軌道をサブゴールとして使用し、学習された前進力学の下での計画を通じて実現する。
Demo-JEPAはアクションレベルの対応を回避し、視覚的なデモンストレーションとターゲットエージェント自身のインタラクションエクスペリエンスのみを必要とするため、異種エンボディメント間のフレキシブルな模倣をサポートする。
RLBenchと実世界の操作タスクの実験では、Demo-JEPAはドメイン内プランナに特化して、前のメソッドが失敗する未確認タスクや実施設定に一般化されている。
関連論文リスト
- From Imagined Futures to Executable Actions: Mixture of Latent Actions for Robot Manipulation [88.39072412680633]
将来の映像を実行可能な表現に変換する制御指向インタフェースであるMoLAを提案する。
我々は,シミュレーションベンチマークと実世界のロボット操作タスクに対するアプローチを評価した。
論文 参考訳(メタデータ) (2026-05-12T14:15:16Z) - From Pixels to Tokens: A Systematic Study of Latent Action Supervision for Vision-Language-Action Models [14.109112325287208]
本研究は,2つの視点から潜時行動監視に関する研究である。 (i) 画像に基づく潜時行動による軌道の規則化, (ii) 行動に基づく潜時行動による目標空間の統一である。
以上の結果より, 動作に基づく潜在動作は複雑な運動調整において優れるが, 定式化タスク対応は明らかである。
論文 参考訳(メタデータ) (2026-05-06T09:27:07Z) - MOTIF: Learning Action Motifs for Few-shot Cross-Embodiment Transfer [55.982504915794514]
クロス・エボディメント・ポリシーは一般的に共有プライベート・アーキテクチャに依存している。
本報告では,MOTIFを効率よく数発のクロスボディーメントトランスファーに適用する。
我々はMOTIFが数発の転送シナリオにおいて強いベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2026-02-14T13:21:40Z) - The Cognitive Bandwidth Bottleneck: Shifting Long-Horizon Agent from Planning with Actions to Planning with Schemas [56.62286434195321]
本稿では2つの異なる行動表現の有効性を体系的に研究する。
本稿では,その違いを質的に理解するための概念的枠組みとして,認知的帯域幅の観点を提案する。
より有能なPwSエージェントを構築するための実用的なガイドを提供する。
論文 参考訳(メタデータ) (2025-10-08T14:47:40Z) - Dexplore: Scalable Neural Control for Dexterous Manipulation from Reference-Scoped Exploration [58.4036440289082]
ハンドオブジェクトモーションキャプチャ(MoCap)は、大規模でコンタクトに富んだデモと、器用なロボットスコープの約束を提供する。
Dexploreは、リポジトリとトラッキングを実行し、MoCapから直接ロボット制御ポリシーを学習する、統一された単一ループ最適化である。
論文 参考訳(メタデータ) (2025-09-11T17:59:07Z) - One-Shot Imitation under Mismatched Execution [7.060120660671016]
人間のデモは、ロボットに長距離操作のタスクをプログラムするための強力な方法だ。
これらのデモをロボット実行可能なアクションに変換することは、運動スタイルや身体能力のミスマッチの実行による重大な課題を呈する。
シーケンスレベルの最適輸送コスト関数を用いて,人間とロボットの軌道を自動的にペアリングする新しいフレームワークRHyMEを提案する。
論文 参考訳(メタデータ) (2024-09-10T16:11:57Z) - Make a Donut: Hierarchical EMD-Space Planning for Zero-Shot Deformable Manipulation with Tools [14.069149456110676]
本研究では,複雑な長期タスクに対処可能な実証自由階層型計画手法を提案する。
我々は,大規模言語モデル (LLMs) を用いて,特定のタスクに対応する高レベルステージ・バイ・ステージ・プランを記述している。
我々は、実世界のロボットプラットフォームの実験的な試行で、我々のアプローチをさらに裏付ける。
論文 参考訳(メタデータ) (2023-11-05T22:43:29Z) - Imitator Learning: Achieve Out-of-the-Box Imitation Ability in Variable
Environments [45.213059639254475]
我々は、模倣学習(ItorL)と呼ばれる新しいトピックを提案する。
これは、非常に限られた専門家のデモンストレーションに基づいて模倣ポリシーを再構築できる模倣モジュールを導出することを目的としている。
自律的な模倣ポリシー構築のために、我々は模倣ポリシーのためのデモベースアテンションアーキテクチャを設計する。
論文 参考訳(メタデータ) (2023-10-09T13:35:28Z) - Inferring Versatile Behavior from Demonstrations by Matching Geometric
Descriptors [72.62423312645953]
人間は直感的にタスクを多目的に解決し、軌道に基づく計画や個々のステップの行動を変化させる。
現在のImitation Learningアルゴリズムは、通常、単調な専門家によるデモンストレーションのみを考慮し、状態アクションベースの設定で行動する。
代わりに、移動プリミティブの混合と分布マッチングの目的を組み合わせることで、専門家の行動と汎用性にマッチする多目的行動を学ぶ。
論文 参考訳(メタデータ) (2022-10-17T16:42:59Z) - Learning intuitive physics and one-shot imitation using
state-action-prediction self-organizing maps [0.0]
人間は探索と模倣によって学び、世界の因果モデルを構築し、両方を使って新しいタスクを柔軟に解決する。
このような特徴を生み出す単純だが効果的な教師なしモデルを提案する。
エージェントがアクティブな推論スタイルで柔軟に解決する、複数の関連するが異なる1ショットの模倣タスクに対して、その性能を示す。
論文 参考訳(メタデータ) (2020-07-03T12:29:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。