論文の概要: CEI: A Unified Interface for Cross-Embodiment Visuomotor Policy Learning in 3D Space
- arxiv url: http://arxiv.org/abs/2601.09163v1
- Date: Wed, 14 Jan 2026 05:07:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.774649
- Title: CEI: A Unified Interface for Cross-Embodiment Visuomotor Policy Learning in 3D Space
- Title(参考訳): CEI:3次元空間におけるクロス・エボディメント・バイスモータ・ポリシー学習のための統一インターフェース
- Authors: Tong Wu, Shoujie Li, Junhao Gong, Changqing Guo, Xingting Li, Shilong Mu, Wenbo Ding,
- Abstract要約: クロス・エボデーメント・インタフェース(CEI)は、クロス・エボデーメント・ラーニングのためのフレームワークである。
CEIは勾配に基づく最適化を通じてロボットの軌道を整列させ、その後、目に見えないロボットアームとエンドエフェクターの観察とアクションを合成する。
実験では、CEIはシミュレーションにおいて、データとポリシーをFranka Pandaロボットからtextbf16の異なる実施形態に転送する。
- 参考スコア(独自算出の注目度): 7.985647150826696
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robotic foundation models trained on large-scale manipulation datasets have shown promise in learning generalist policies, but they often overfit to specific viewpoints, robot arms, and especially parallel-jaw grippers due to dataset biases. To address this limitation, we propose Cross-Embodiment Interface (\CEI), a framework for cross-embodiment learning that enables the transfer of demonstrations across different robot arm and end-effector morphologies. \CEI introduces the concept of \textit{functional similarity}, which is quantified using Directional Chamfer Distance. Then it aligns robot trajectories through gradient-based optimization, followed by synthesizing observations and actions for unseen robot arms and end-effectors. In experiments, \CEI transfers data and policies from a Franka Panda robot to \textbf{16} different embodiments across \textbf{3} tasks in simulation, and supports bidirectional transfer between a UR5+AG95 gripper robot and a UR5+Xhand robot across \textbf{6} real-world tasks, achieving an average transfer ratio of 82.4\%. Finally, we demonstrate that \CEI can also be extended with spatial generalization and multimodal motion generation capabilities using our proposed techniques. Project website: https://cross-embodiment-interface.github.io/
- Abstract(参考訳): 大規模な操作データセットに基づいてトレーニングされたロボット基礎モデルは、一般的なポリシーを学ぶ上で有望であるが、データセットバイアスによる特定の視点、ロボットアーム、特にパラレルジャウグリップパーに過度に適合することが多い。
この制限に対処するために、異なるロボットアームとエンドエフェクタ形態間でのデモンストレーションの伝達を可能にするクロスエボディメント学習のためのフレームワークであるクロスエボディメントインタフェース(\CEI)を提案する。
\CEI は、方向チェムファー距離を用いて定量化される \textit{functional similarity} の概念を導入している。
そして、勾配に基づく最適化によってロボットの軌道を調整し、その後、目に見えないロボットアームとエンドエフェクターの観察とアクションを合成する。
実験では、CEIは、Franka Pandaロボットから、シミュレーション中の \textbf{3} タスク間の異なる実施形態にデータとポリシーを転送し、UR5+AG95 グリップパーロボットと UR5+Xhand ロボットと、実際のタスク間での双方向転送をサポートし、平均転送比 82.4\% を達成する。
最後に,提案手法を用いて,空間一般化とマルチモーダルモーション生成機能により,<CEI>を拡張できることを実証した。
プロジェクトウェブサイト:https://cross-embodiment-interface.github.io/
関連論文リスト
- UltraDexGrasp: Learning Universal Dexterous Grasping for Bimanual Robots with Synthetic Data [70.96218513410454]
両面ロボットを用いた普遍的デクスタラスグリップのためのフレームワークであるUltraDexGraspを紹介する。
提案したデータ生成パイプラインは、最適化に基づくグリップ合成と計画に基づくデモ生成を統合する。
我々はUltraDexGrasp-20Mに基づいて、点雲を入力とし、一方向の注意を通してシーン特徴を集約し、制御コマンドを予測する、シンプルで効果的な把握ポリシーを開発した。
論文 参考訳(メタデータ) (2026-03-05T15:54:21Z) - Being-H0.5: Scaling Human-Centric Robot Learning for Cross-Embodiment Generalization [38.20385682344082]
本稿では,多様なロボットプラットフォームにまたがる堅牢なクロスエボディメント一般化を目的とした,基礎的なビジョン・ランゲージ・アクションモデルであるBeing-H0.5を紹介する。
今回紹介するUniHand-2.0は、これまでで最大で、3万5000時間以上のマルチモーダルデータを、30の異なるロボットエボディメントに展開する。
Be-H0.5 は LIBERO (98.9%) や RoboCasa (53.9%) のようなシミュレートされたベンチマークで最先端の結果を得る
論文 参考訳(メタデータ) (2026-01-19T12:20:38Z) - MiVLA: Towards Generalizable Vision-Language-Action Model with Human-Robot Mutual Imitation Pre-training [102.850162490626]
人間のロボットによる相互模倣事前学習による視覚-言語-行動モデルであるMiVLAを提案する。
MiVLAは、最先端のVLAよりも優れた、強力な改良された一般化能力を実現する。
論文 参考訳(メタデータ) (2025-12-17T12:59:41Z) - OXE-AugE: A Large-Scale Robot Augmentation of OXE for Scaling Cross-Embodiment Policy Learning [22.05043551465852]
移動と一般化のために既存のロボットデータを拡張できることが示される。
OXE-AugEは440万以上の軌道を提供しており、オリジナルのOXEの3倍以上の大きさである。
その結果,多様なアームとグリップでデータセットを増強することで,政策性能が向上することが示唆された。
論文 参考訳(メタデータ) (2025-12-15T08:57:15Z) - CEDex: Cross-Embodiment Dexterous Grasp Generation at Scale from Human-like Contact Representations [53.37721117405022]
クロス・エボディメント・デキスタラス・グリップ合成(Cross-Embodiment dexterous grasp synthesis)とは、様々なロボットハンドのグリップを適応的に生成し、最適化することである。
そこで我々は,CEDexを提案する。
これまでで最大のクロス・エボディメント・グラウンド・データセットを構築し、合計20万のグリップを持つ4つのタイプにまたがる500万のオブジェクトからなる。
論文 参考訳(メタデータ) (2025-09-29T12:08:04Z) - The One RING: a Robotic Indoor Navigation Generalist [58.30694487843546]
RING (Robotic Indoor Navigation Generalist) は、あらゆる移動ロボットを効果的な屋内セマンティックナビゲータに変えるための具体的方針である。
完全にシミュレーションで訓練されたRingは、ロボットによる大規模なランダム化を利用して、多くの現実世界のプラットフォームに堅牢な一般化を可能にする。
論文 参考訳(メタデータ) (2024-12-18T23:15:41Z) - Autoregressive Action Sequence Learning for Robotic Manipulation [32.9580007141312]
既存の自己回帰型アーキテクチャは、言語モデリングにおいて単語トークンとして順次、エンドエフェクタ・ウェイポイントを生成する。
我々は、因果変換器の単一トークン予測を拡張し、単一のステップで可変数のトークンを予測する。
本稿では,ハイブリッドなアクションシーケンスを生成することで操作タスクを解消するAutoregressive Policyアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-10-04T04:07:15Z) - One-Shot Imitation under Mismatched Execution [7.060120660671016]
人間のデモは、ロボットに長距離操作のタスクをプログラムするための強力な方法だ。
これらのデモをロボット実行可能なアクションに変換することは、運動スタイルや身体能力のミスマッチの実行による重大な課題を呈する。
シーケンスレベルの最適輸送コスト関数を用いて,人間とロボットの軌道を自動的にペアリングする新しいフレームワークRHyMEを提案する。
論文 参考訳(メタデータ) (2024-09-10T16:11:57Z) - IRASim: A Fine-Grained World Model for Robot Manipulation [24.591694756757278]
本稿では,ロボットとオブジェクトのインタラクションの詳細を詳細に表現したビデオを生成する新しい世界モデルIRASimを提案する。
拡散変圧器を訓練し、各変圧器ブロック内に新しいフレームレベル動作条件モジュールを導入し、アクションフレームアライメントを明示的にモデル化し強化する。
論文 参考訳(メタデータ) (2024-06-20T17:50:16Z) - RoboScript: Code Generation for Free-Form Manipulation Tasks across Real
and Simulation [77.41969287400977]
本稿では,コード生成を利用したデプロイ可能なロボット操作パイプラインのためのプラットフォームである textbfRobotScript を提案する。
自由形自然言語におけるロボット操作タスクのためのコード生成ベンチマークも提案する。
我々は,Franka と UR5 のロボットアームを含む,複数のロボットエボディメントにまたがるコード生成フレームワークの適応性を実証した。
論文 参考訳(メタデータ) (2024-02-22T15:12:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。