論文の概要: HybridMimic: Hybrid RL-Centroidal Control for Humanoid Motion Mimicking
- arxiv url: http://arxiv.org/abs/2603.06775v1
- Date: Fri, 06 Mar 2026 17:58:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:42.007508
- Title: HybridMimic: Hybrid RL-Centroidal Control for Humanoid Motion Mimicking
- Title(参考訳): Hybrid Mimic: ヒューマノイド運動模倣のためのハイブリッドRL-センタロイド制御
- Authors: Ludwig Chee-Ying Tay, I-Chia Chang, Yan Gu,
- Abstract要約: HybridMimicは、学習ポリシーがセントロイドモデルベースのコントローラを動的に変調するフレームワークである。
最先端のRLベースラインと比較して平均ベース位置追跡誤差を13%削減する。
- 参考スコア(独自算出の注目度): 3.446278503007937
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motion mimicking, i.e., encouraging the control policy to mimic human motion, facilitates the learning of complex tasks via reinforcement learning (RL) for humanoid robots. Although standard RL frameworks demonstrate impressive locomotion agility, they often bypass explicit reasoning about robot dynamics during deployment, which is a design choice that can lead to physically infeasible commands when the robot encounters out-of-distribution environments. By integrating model-based principles, hybrid approaches can improve performance; however, existing methods typically rely on predefined contact timing, limiting their versatility. This paper introduces HybridMimic, a framework in which a learned policy dynamically modulates a centroidal-model-based controller by predicting continuous contact states and desired centroidal velocities. This architecture exploits the physical grounding of centroidal dynamics to generate feedforward torques that remain feasible even under domain shift. Using physics-informed rewards, the policy is trained to efficiently utilize the centroidal controller's optimization by outputting precise control targets and reference torques. Through hardware experiments on the Booster T1 humanoid, HybridMimic reduces the average base position tracking error by 13\% compared to a state-of-the-art RL baseline, demonstrating the robustness of dynamics-aware deployment.
- Abstract(参考訳): 動作模倣(英: Motion mimicking)とは、人間の動きを模倣する制御ポリシーを奨励し、人間型ロボットのための強化学習(RL)を通して複雑なタスクの学習を促進することである。
標準的なRLフレームワークは、印象的なロコモーションの俊敏性を示しているが、ロボットがアウトオブディストリビューション環境に遭遇したときには、物理的に不可能なコマンドに繋がる設計選択である、デプロイメント中のロボットダイナミクスに関する明示的な推論を回避していることが多い。
モデルベースの原則を統合することで、ハイブリッドアプローチはパフォーマンスを改善することができるが、既存の手法は通常、事前に定義された接触タイミングに依存し、その汎用性を制限する。
本稿では,学習ポリシーが連続的な接触状態と所望の遠心速度を予測することによって,遠心モデルに基づく制御を動的に調節するフレームワークであるHybridMimicを紹介する。
このアーキテクチャは、中心運動力学の物理的接地を利用して、ドメインシフトの下でも実現可能なフィードフォワードトルクを生成する。
物理インフォームド報酬を用いて、このポリシーは、正確な制御目標と基準トルクを出力することで、遠心制御器の最適化を効率的に活用するように訓練されている。
Booster T1ヒューマノイドのハードウェア実験を通じて、HybridMimicは、最先端のRLベースラインと比較して平均ベース位置追跡誤差を13倍に削減し、ダイナミックス対応デプロイメントの堅牢性を示している。
関連論文リスト
- ACLM: ADMM-Based Distributed Model Predictive Control for Collaborative Loco-Manipulation [9.708461585583791]
重荷のロコ操作による共同輸送は、脚のあるロボットにとって難しいが必須の能力である。
本研究は,ロコマニピュレーションのための分散モデル予測制御フレームワークであるマルチプライアの交互方向法を提案する。
論文 参考訳(メタデータ) (2026-03-07T08:06:51Z) - Dual-Agent Multiple-Model Reinforcement Learning for Event-Triggered Human-Robot Co-Adaptation in Decoupled Task Spaces [3.349003999623489]
本稿では,カスタム6自由度上肢ロボットのための共有制御型リハビリテーションポリシーを提案する。
患者は二進法で一次到達方向を制御し、ロボットは自律的に矯正動作を管理する。
論文 参考訳(メタデータ) (2026-03-06T11:15:10Z) - ULTRA: Unified Multimodal Control for Autonomous Humanoid Whole-Body Loco-Manipulation [55.467742403416175]
本稿では,大規模モーションキャプチャをヒューマノイドに変換する物理駆動型ニューラルネットワークを提案する。
我々は高密度参照とスパースタスク仕様の両方をサポートする統合マルチモーダルコントローラを学習する。
その結果,ULTRAは自我中心の知覚から,自律的,目標条件付き全体ロコ操作に一般化することが示された。
論文 参考訳(メタデータ) (2026-03-03T18:59:29Z) - SPACeR: Self-Play Anchoring with Centralized Reference Models [50.55045557371374]
Simエージェントポリシーは、現実的で、人間らしく、高速で、マルチエージェント設定でスケーラブルである。
大規模な拡散モデルやトークン化モデルを用いた模倣学習の最近の進歩は、人間の運転データから直接行動を把握することができることを示している。
本研究では,事前訓練されたトークン化自己回帰運動モデルを利用したSPACeRを提案する。
論文 参考訳(メタデータ) (2025-10-20T19:53:02Z) - AMO: Adaptive Motion Optimization for Hyper-Dexterous Humanoid Whole-Body Control [14.403489342466049]
本研究では,実時間で適応的な全身制御を実現するために,sim-to-real強化学習とトラジェクトリ最適化を統合したフレームワークを提案する。
AMOの一貫性のある性能は、模倣学習による自律的なタスク実行をサポートすることを示す。
論文 参考訳(メタデータ) (2025-05-06T17:59:51Z) - Reinforcement Learning for Versatile, Dynamic, and Robust Bipedal Locomotion Control [106.32794844077534]
本稿では,二足歩行ロボットのための動的移動制御系を構築するために,深層強化学習を用いた研究について述べる。
本研究では、周期歩行やランニングから周期ジャンプや立位に至るまで、様々な動的二足歩行技術に使用できる汎用的な制御ソリューションを開発する。
この研究は、二足歩行ロボットの俊敏性の限界を、現実世界での広範な実験を通じて押し上げる。
論文 参考訳(メタデータ) (2024-01-30T10:48:43Z) - Combining model-predictive control and predictive reinforcement learning
for stable quadrupedal robot locomotion [0.0]
モデル予測型と予測型強化型学習コントローラの組み合わせによりこれを実現できるかを検討する。
本研究では,両制御手法を組み合わせて,四足歩行ロボットの安定ゲート生成問題に対処する。
論文 参考訳(メタデータ) (2023-07-15T09:22:37Z) - Nonprehensile Riemannian Motion Predictive Control [57.295751294224765]
本稿では,リアル・ツー・シムの報酬分析手法を導入し,リアルなロボット・プラットフォームに対する行動の可能性を確実に予測する。
連続的なアクション空間でオブジェクトを反応的にプッシュするクローズドループコントローラを作成します。
我々は,RMPCが乱雑な環境だけでなく,乱雑な環境においても頑健であり,ベースラインよりも優れていることを観察した。
論文 参考訳(メタデータ) (2021-11-15T18:50:04Z) - An Adaptable Approach to Learn Realistic Legged Locomotion without
Examples [38.81854337592694]
本研究は,バネ装荷逆振り子モデルを用いて学習プロセスを導くことで,移動における現実性を保証するための汎用的アプローチを提案する。
モデルのない設定であっても、2足歩行ロボットと4足歩行ロボットに対して、学習したポリシーが現実的でエネルギー効率のよい移動歩行を生成できることを示す実験結果を示す。
論文 参考訳(メタデータ) (2021-10-28T10:14:47Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。