論文の概要: UniBYD: A Unified Framework for Learning Robotic Manipulation Across Embodiments Beyond Imitation of Human Demonstrations
- arxiv url: http://arxiv.org/abs/2512.11609v2
- Date: Tue, 10 Mar 2026 15:25:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.303274
- Title: UniBYD: A Unified Framework for Learning Robotic Manipulation Across Embodiments Beyond Imitation of Human Demonstrations
- Title(参考訳): UniBYD:人間デモの模倣以外の身体のロボット操作を学習するための統一フレームワーク
- Authors: Tingyu Yuan, Biaoliang Guan, Wen Ye, Ziyan Tian, Yi Yang, Weijie Zhou, Zhaowen Li, Yan Huang, Peng Wang, Chaoyang Zhao, Jinqiao Wang,
- Abstract要約: インボディードインテリジェンスでは、ロボットと人間の手の間のエンボディーメントギャップは、人間のデモンストレーションから学ぶ上で大きな課題をもたらします。
動的強化学習アルゴリズムを用いて,ロボットの物理的特性に適合した操作ポリシーを検出する統一フレームワークUniBYDを提案する。
UniBYDを評価するために,多種多様なロボット形態にまたがるクロスボデーメント操作のための最初のベンチマークであるUniManipを提案する。
- 参考スコア(独自算出の注目度): 35.77665515297785
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In embodied intelligence, the embodiment gap between robotic and human hands brings significant challenges for learning from human demonstrations. Although some studies have attempted to bridge this gap using reinforcement learning, they remain confined to merely reproducing human manipulation, resulting in limited task performance. Moreover, current methods struggle to support diverse robotic hand configurations. In this paper, we propose UniBYD, a unified framework that uses a dynamic reinforcement learning algorithm to discover manipulation policies aligned with the robot's physical characteristics. To enable consistent modeling across diverse robotic hand morphologies, UniBYD incorporates a unified morphological representation (UMR). Building on UMR, we design a dynamic PPO with an annealed reward schedule, enabling reinforcement learning to transition from offline-informed imitation of human demonstrations to online-adaptive exploration of policies better adapted to diverse robotic morphologies, thereby going beyond mere imitation of human hands. To address the severe state drift caused by the incapacity of early-stage policies, we design a hybrid Markov-based shadow engine that provides fine-grained guidance to anchor the imitation within the expert's manifold. To evaluate UniBYD, we propose UniManip, the first benchmark for cross-embodiment manipulation spanning diverse robotic morphologies. Experiments demonstrate a 44.08% average improvement in success rate over the current state-of-the-art. Upon acceptance, we will release our code and benchmark.
- Abstract(参考訳): インボディードインテリジェンスでは、ロボットと人間の手の間のエンボディーメントギャップは、人間のデモンストレーションから学ぶ上で大きな課題をもたらします。
強化学習を用いてこのギャップを埋めようとする研究もあるが、それらは単に人間の操作を再現することに限られており、タスクのパフォーマンスが制限される。
さらに、現在の手法は多様なロボットハンドの構成をサポートするのに苦労している。
本論文では,動的強化学習アルゴリズムを用いて,ロボットの身体特性に適合した操作ポリシーを検出する統一フレームワークUniBYDを提案する。
多様なロボットハンド形態を一貫したモデリングを可能にするため、UniBYDは統一形態素表現(UMR)を取り入れている。
UMRをベースとした動的PPOをアニールした報酬スケジュールで設計し、強化学習により、人間のデモのオフラインでインフォームされた模倣から、多様なロボット形態に適応したポリシーのオンライン適応的な探索へと移行し、人間の手による模倣を超えることができる。
初期政策の不完全性に起因する深刻な状態漂流に対処するため,我々はマルコフをベースとしたハイブリッドシャドウエンジンを設計し,専門家の多様体内に模倣を固定するためのきめ細かいガイダンスを提供する。
UniBYDを評価するために,多種多様なロボット形態にまたがるクロスボデーメント操作のための最初のベンチマークであるUniManipを提案する。
実験では、現在の最先端よりも44.08%の成功率の平均的な改善が示されている。
受け入れられたら、コードとベンチマークをリリースします。
関連論文リスト
- Generalizable Geometric Prior and Recurrent Spiking Feature Learning for Humanoid Robot Manipulation [90.90219129619344]
本稿では,スパイキング機能を備えたR-prior-S, Recurrent Geometric-priormodal Policyを提案する。
物理的現実の高レベル推論を基礎として、軽量な2次元幾何学的帰納バイアスを利用する。
ロボット行動生成におけるデータ効率問題に対して,再帰的適応スパイクネットワークを導入する。
論文 参考訳(メタデータ) (2026-01-13T23:36:30Z) - MiVLA: Towards Generalizable Vision-Language-Action Model with Human-Robot Mutual Imitation Pre-training [102.850162490626]
人間のロボットによる相互模倣事前学習による視覚-言語-行動モデルであるMiVLAを提案する。
MiVLAは、最先端のVLAよりも優れた、強力な改良された一般化能力を実現する。
論文 参考訳(メタデータ) (2025-12-17T12:59:41Z) - UniPrototype: Humn-Robot Skill Learning with Uniform Prototypes [4.338344229716167]
UniPrototypeは、共有モーションプリミティブを介して人間からロボットドメインへの効果的な知識伝達を可能にする新しいフレームワークである。
この結果から,UniPrototypeは人間の操作知識をロボットに伝達し,学習効率とタスク性能を大幅に向上させることができた。
論文 参考訳(メタデータ) (2025-09-27T00:33:39Z) - DIRIGENt: End-To-End Robotic Imitation of Human Demonstrations Based on a Diffusion Model [16.26334759935617]
本研究では,人間の実演の観察から共同価値を生成するための新しいエンドツーエンド拡散手法であるDIRIGENtを紹介する。
我々は、人間がロボットを模倣するデータセットを作成し、この収集されたデータを使って、ロボットが人間を模倣できる拡散モデルを訓練する。
論文 参考訳(メタデータ) (2025-01-28T09:05:03Z) - One-Shot Imitation under Mismatched Execution [7.060120660671016]
人間のデモは、ロボットに長距離操作のタスクをプログラムするための強力な方法だ。
これらのデモをロボット実行可能なアクションに変換することは、運動スタイルや身体能力のミスマッチの実行による重大な課題を呈する。
シーケンスレベルの最適輸送コスト関数を用いて,人間とロボットの軌道を自動的にペアリングする新しいフレームワークRHyMEを提案する。
論文 参考訳(メタデータ) (2024-09-10T16:11:57Z) - HumanoidBench: Simulated Humanoid Benchmark for Whole-Body Locomotion and Manipulation [50.616995671367704]
そこで本研究では,人型ロボットが器用な手を備えた,高次元シミュレーション型ロボット学習ベンチマークHumanoidBenchを提案する。
その結果,現在最先端の強化学習アルゴリズムがほとんどのタスクに支障をきたすのに対して,階層的学習アプローチはロバストな低レベルポリシーに支えられた場合,優れた性能を達成できることがわかった。
論文 参考訳(メタデータ) (2024-03-15T17:45:44Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。