論文の概要: EGM: Efficiently Learning General Motion Tracking Policy for High Dynamic Humanoid Whole-Body Control
- arxiv url: http://arxiv.org/abs/2512.19043v1
- Date: Mon, 22 Dec 2025 05:25:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.461984
- Title: EGM: Efficiently Learning General Motion Tracking Policy for High Dynamic Humanoid Whole-Body Control
- Title(参考訳): EGM:ハイダイナミックヒューマノイド全体制御のためのジェネラルモーショントラッキングポリシーを効果的に学習する
- Authors: Chao Yang, Yingkai Sun, Peng Ye, Xin Chen, Chong Yu, Tao Chen,
- Abstract要約: EGMは、一般的なモーショントラッキングポリシーの効率的な学習を可能にするフレームワークである。
本研究では,障害に対する政策の堅牢性を高めるために,3段階のカリキュラムトレーニングフローを開発する。
わずか4.08時間のデータのトレーニングにもかかわらず、EGMは49.25時間の試験動作で頑強に一般化し、ルーチンと非常にダイナミックなタスクのベースラインを上回った。
- 参考スコア(独自算出の注目度): 26.475304854903516
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning a general motion tracking policy from human motions shows great potential for versatile humanoid whole-body control. Conventional approaches are not only inefficient in data utilization and training processes but also exhibit limited performance when tracking highly dynamic motions. To address these challenges, we propose EGM, a framework that enables efficient learning of a general motion tracking policy. EGM integrates four core designs. Firstly, we introduce a Bin-based Cross-motion Curriculum Adaptive Sampling strategy to dynamically orchestrate the sampling probabilities based on tracking error of each motion bin, eficiently balancing the training process across motions with varying dificulty and durations. The sampled data is then processed by our proposed Composite Decoupled Mixture-of-Experts (CDMoE) architecture, which efficiently enhances the ability to track motions from different distributions by grouping experts separately for upper and lower body and decoupling orthogonal experts from shared experts to separately handle dedicated features and general features. Central to our approach is a key insight we identified: for training a general motion tracking policy, data quality and diversity are paramount. Building on these designs, we develop a three-stage curriculum training flow to progressively enhance the policy's robustness against disturbances. Despite training on only 4.08 hours of data, EGM generalized robustly across 49.25 hours of test motions, outperforming baselines on both routine and highly dynamic tasks.
- Abstract(参考訳): 人間の動きから一般的な動作追跡ポリシーを学習することは、多目的なヒューマノイド全体の制御に大きな可能性を示す。
従来のアプローチは、データ利用とトレーニングプロセスにおいて非効率であるだけでなく、高度にダイナミックな動作を追跡する際には、限られた性能を示す。
これらの課題に対処するために,一般的な動作追跡ポリシーの効率的な学習を可能にするフレームワークであるEMGを提案する。
EGMは4つのコア設計を統合している。
まず,各動作ビンの追従誤差に基づいてサンプリング確率を動的にオーケストレーションし,各動作の多様さと持続時間でトレーニングプロセスのバランスをとるために,Binベースのクロスモーションカリキュラム適応サンプリング戦略を導入する。
サンプルデータは,提案したCDMoEアーキテクチャによって処理され,上半身と下半身の専門家を別々にグループ化し,直交専門家を共有専門家から切り離して,専用特徴と一般特徴を別々に扱うことにより,異なる分布からの運動の追跡を効率的に行うことができる。
一般的なモーショントラッキングポリシをトレーニングするためには、データ品質と多様性が最重要である。
これらの設計に基づいて、3段階のカリキュラム・トレーニング・フローを構築し、障害に対する政策の堅牢性を徐々に強化する。
わずか4.08時間のデータのトレーニングにもかかわらず、EGMは49.25時間の試験動作で頑強に一般化し、ルーチンと非常にダイナミックなタスクのベースラインを上回った。
関連論文リスト
- Towards Generalizable Robotic Manipulation in Dynamic Environments [48.77270850350943]
VLA(Vision-Language-Action)モデルは静的な操作では優れているが、動いた軌跡を持つ動的環境では困難である。
本稿では、大規模なデータセットと一般的な動的操作のためのベンチマークであるDOMINOを紹介する。
また、動的に認識可能なVLAアーキテクチャPUMAを提案する。
論文 参考訳(メタデータ) (2026-03-16T17:59:57Z) - UniMotion: A Unified Motion Framework for Simulation, Prediction and Planning [60.55873455475112]
動作タスク間の共有構造をキャプチャする統合モーションフレームワークUniMotionを提案する。
UniMotionは、これらの動作タスクを同時にサポートするために、専用のインタラクションモードと調整されたトレーニング戦略を採用している。
さらなる微調整により、UniMotionはさまざまな動作タスクにおける最先端のパフォーマンスを達成し、自動運転のための汎用的でスケーラブルなソリューションとして確立する。
論文 参考訳(メタデータ) (2026-01-31T07:12:26Z) - One-shot Humanoid Whole-body Motion Learning [18.375746497945023]
通常、動作カテゴリごとに複数のトレーニングサンプルを必要とする。
本研究では,1つの非歩行目標運動サンプルのみを用いて,効果的なヒューマノイド運動ポリシーを訓練する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-10-29T07:48:10Z) - Curriculum Imitation Learning of Distributed Multi-Robot Policies [5.376095069606724]
マルチロボットシステムの学習制御ポリシは,長期的調整と現実的なトレーニングデータ取得の難しさから,大きな課題である。
そこで本研究では,訓練中の専門的軌跡の長さを徐々に増加させるカリキュラム戦略を提案する。
また,各ロボットの自我中心的知覚を,第三者によるグローバルなデモンストレーションのみを用いて近似する手法も導入した。
論文 参考訳(メタデータ) (2025-09-29T17:31:48Z) - UserRL: Training Interactive User-Centric Agent via Reinforcement Learning [104.63494870852894]
強化学習(Reinforcement Learning, RL)は、動的多ターン相互作用に関わるエージェントモデルのトレーニングにおいて有望であることを示す。
我々は,標準化された体育環境を通じて,ユーザ中心の能力のトレーニングと評価を行う統一的なフレームワークであるUserRLを提案する。
論文 参考訳(メタデータ) (2025-09-24T03:33:20Z) - Is Diversity All You Need for Scalable Robotic Manipulation? [50.747150672933316]
ロボット学習におけるデータ多様性の役割について,従来の「より多様な方がよい」という直観に固執する3つの重要な次元(タスク),実施形態(ロボットの使用方法),専門家(専門家)を用いて検討する。
タスクの多様性は、タスクごとのデモンストレーション量よりも重要であり、多様な事前学習タスクから新しい下流シナリオへの移行に有効であることを示す。
本稿では,速度のあいまいさを緩和する分散デバイアス法を提案する。GO-1-Proは,2.5倍の事前学習データを用いて,15%の性能向上を実現している。
論文 参考訳(メタデータ) (2025-07-08T17:52:44Z) - QuadrupedGPT: Towards a Versatile Quadruped Agent in Open-ended Worlds [51.05639500325598]
ペットに匹敵するアジリティで多様なコマンドに従うように設計されたQuadrupedGPTを紹介します。
エージェントは多種多様なタスクを処理し,複雑な指示を行う能力を示し,多種多様四重化エージェントの開発に向けた重要な一歩である。
論文 参考訳(メタデータ) (2024-06-24T12:14:24Z) - LocoMuJoCo: A Comprehensive Imitation Learning Benchmark for Locomotion [20.545058017790428]
模倣学習は、エンボディエージェントでアジャイルの移動を可能にするための大きな約束を持っています。
本稿では,ILアルゴリズムの厳密な評価と比較を容易にするための新しいベンチマークを提案する。
このベンチマークは四足歩行、二足歩行、筋骨格人体モデルを含む多様な環境を含む。
論文 参考訳(メタデータ) (2023-11-04T19:41:50Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。