論文の概要: HuMam: Humanoid Motion Control via End-to-End Deep Reinforcement Learning with Mamba
- arxiv url: http://arxiv.org/abs/2509.18046v1
- Date: Mon, 22 Sep 2025 17:19:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.534999
- Title: HuMam: Humanoid Motion Control via End-to-End Deep Reinforcement Learning with Mamba
- Title(参考訳): HuMam:Mambaを用いたエンド・ツー・エンド深層強化学習によるヒューマノイド運動制御
- Authors: Yinuo Wang, Yuanyang Qi, Jinzhao Zhou, Gavin Tao,
- Abstract要約: We present HuMam, a state-centric end-to-end RL framework that using a single-layer Mamba encoder to fuse robot-centric state with oriented footstep target and a continuous phase clock。
mc-mujocoのJVRC-1ヒューマノイドでは、HuMamは学習効率、トレーニング安定性、全体的なタスクパフォーマンスを継続的に改善する。
- 参考スコア(独自算出の注目度): 2.024495736316935
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: End-to-end reinforcement learning (RL) for humanoid locomotion is appealing for its compact perception-action mapping, yet practical policies often suffer from training instability, inefficient feature fusion, and high actuation cost. We present HuMam, a state-centric end-to-end RL framework that employs a single-layer Mamba encoder to fuse robot-centric states with oriented footstep targets and a continuous phase clock. The policy outputs joint position targets tracked by a low-level PD loop and is optimized with PPO. A concise six-term reward balances contact quality, swing smoothness, foot placement, posture, and body stability while implicitly promoting energy saving. On the JVRC-1 humanoid in mc-mujoco, HuMam consistently improves learning efficiency, training stability, and overall task performance over a strong feedforward baseline, while reducing power consumption and torque peaks. To our knowledge, this is the first end-to-end humanoid RL controller that adopts Mamba as the fusion backbone, demonstrating tangible gains in efficiency, stability, and control economy.
- Abstract(参考訳): ヒューマノイド移動のためのエンドツーエンド強化学習(RL)は、そのコンパクトな知覚行動マッピングにアピールしているが、実践的な政策は、しばしばトレーニング不安定、非効率な特徴融合、高いアクティベーションコストに悩まされる。
We present HuMam, a state-centric end-to-end RL framework that using a single-layer Mamba encoder to fuse robot-centric state with oriented footstep target and a continuous phase clock。
このポリシーは、低レベルPDループで追跡された関節位置目標を出力し、PPOで最適化する。
簡潔な6長期報酬は、エネルギー節約を暗黙的に推進しながら、接触品質、揺動滑らか性、足位、姿勢、体安定性のバランスをとる。
mc-mujocoのJVRC-1ヒューマノイドでは、HuMamは、電力消費とトルクピークを低減しつつ、強力なフィードフォワードベースライン上での学習効率、トレーニング安定性、全体的なタスクパフォーマンスを継続的に改善する。
我々の知る限り、これはMambaを核融合のバックボーンとして採用し、効率、安定性、制御経済の明確な向上を示す最初のエンドツーエンドのヒューマノイドRLコントローラである。
関連論文リスト
- AMO: Adaptive Motion Optimization for Hyper-Dexterous Humanoid Whole-Body Control [14.403489342466049]
本研究では,実時間で適応的な全身制御を実現するために,sim-to-real強化学習とトラジェクトリ最適化を統合したフレームワークを提案する。
AMOの一貫性のある性能は、模倣学習による自律的なタスク実行をサポートすることを示す。
論文 参考訳(メタデータ) (2025-05-06T17:59:51Z) - FLAM: Foundation Model-Based Body Stabilization for Humanoid Locomotion and Manipulation [24.485893922136633]
強化学習(Reinforcement Learning, RL)は、ヒューマノイドロボットの体全体を制御するための主要な方法の1つである。
ヒューマノイド・ロコモーション・アンド・マニピュレーション(FLAM)のための基礎モデルに基づく手法を提案する。
論文 参考訳(メタデータ) (2025-03-28T09:02:32Z) - Mobile-TeleVision: Predictive Motion Priors for Humanoid Whole-Body Control [18.269588421166503]
ヒューマノイドロボットは頑丈な下半身移動と正確な上半身操作を必要とする。
最近の強化学習アプローチは、全身のロコ操作ポリシーを提供するが、正確な操作はしていない。
Inverses (IK) と Motion を用いた高体力制御を導入し, 高精度な操作を行う。
CVAEは安定性とロバスト性に重要な特徴であり,RLによる全身制御よりも高い精度で操作できることが示唆された。
論文 参考訳(メタデータ) (2024-12-10T18:59:50Z) - Reinforcement Learning for Versatile, Dynamic, and Robust Bipedal Locomotion Control [106.32794844077534]
本稿では,二足歩行ロボットのための動的移動制御系を構築するために,深層強化学習を用いた研究について述べる。
本研究では、周期歩行やランニングから周期ジャンプや立位に至るまで、様々な動的二足歩行技術に使用できる汎用的な制御ソリューションを開発する。
この研究は、二足歩行ロボットの俊敏性の限界を、現実世界での広範な実験を通じて押し上げる。
論文 参考訳(メタデータ) (2024-01-30T10:48:43Z) - Grow Your Limits: Continuous Improvement with Real-World RL for Robotic
Locomotion [66.69666636971922]
本稿では,ロボットの学習過程における探索を調節するポリシー正規化フレームワークであるAPRLを提案する。
APRLは四足歩行ロボットを、数分で完全に現実世界を歩けるように効率よく学習する。
論文 参考訳(メタデータ) (2023-10-26T17:51:46Z) - Reaching the Limit in Autonomous Racing: Optimal Control versus
Reinforcement Learning [66.10854214036605]
ロボット工学における中心的な問題は、アジャイルなモバイルロボットの制御システムをどうやって設計するかである。
本稿では、強化学習(RL)で訓練されたニューラルネットワークコントローラが最適制御(OC)法より優れていることを示す。
その結果、アジャイルドローンを最大性能に押し上げることができ、最大加速速度は重力加速度の12倍以上、ピーク速度は時速108kmに達しました。
論文 参考訳(メタデータ) (2023-10-17T02:40:27Z) - Combining model-predictive control and predictive reinforcement learning
for stable quadrupedal robot locomotion [0.0]
モデル予測型と予測型強化型学習コントローラの組み合わせによりこれを実現できるかを検討する。
本研究では,両制御手法を組み合わせて,四足歩行ロボットの安定ゲート生成問題に対処する。
論文 参考訳(メタデータ) (2023-07-15T09:22:37Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。