論文の概要: Entropy-Controlled Intrinsic Motivation Reinforcement Learning for Quadruped Robot Locomotion in Complex Terrains
- arxiv url: http://arxiv.org/abs/2512.06486v2
- Date: Sat, 13 Dec 2025 15:11:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.169969
- Title: Entropy-Controlled Intrinsic Motivation Reinforcement Learning for Quadruped Robot Locomotion in Complex Terrains
- Title(参考訳): 複雑な地形における四足歩行ロボットのエントロピー制御型固有運動強化学習
- Authors: Wanru Gong, Xinyi Zheng, Yuan Hui, Zhongjun Li, Weiqiang Wang, Xiaoqing Zhu,
- Abstract要約: 本稿では,PPOシリーズとは対照的なエントロピーに基づく強化学習アルゴリズムであるEntropy-Controlled Intrinsic Motivation (ECIM)を紹介する。
実験では、他のベースラインと平行にするため、アイザック・ガイムで6つの地形カテゴリに適用することにしました。
我々のモデルECIMは、四足歩行のための異なる地形間の安定性を向上し、同時にエネルギーコストを低減します。
- 参考スコア(独自算出の注目度): 12.116524717676212
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Learning is the basis of both biological and artificial systems when it comes to mimicking intelligent behaviors. From the classical PPO (Proximal Policy Optimization), there is a series of deep reinforcement learning algorithms which are widely used in training locomotion policies for quadrupedal robots because of their stability and sample efficiency. However, among all these variants, experiments and simulations often converge prematurely, leading to suboptimal locomotion and reduced task performance. Therefore, in this paper, we introduce Entropy-Controlled Intrinsic Motivation (ECIM), an entropy-based reinforcement learning algorithm in contrast with the PPO series, that can reduce premature convergence by combining intrinsic motivation with adaptive exploration. For experiments, in order to parallel with other baselines, we chose to apply it in Isaac Gym across six terrain categories: upward slopes, downward slopes, uneven rough terrain, ascending stairs, descending stairs, and flat ground as widely used. For comparison, our experiments consistently achieve better performance: task rewards increase by 4--12%, peak body pitch oscillation is reduced by 23--29%, joint acceleration decreases by 20--32%, and joint torque consumption declines by 11--20%. Overall, our model ECIM, by combining entropy control and intrinsic motivation control, achieves better results in stability across different terrains for quadrupedal locomotion, and at the same time reduces energetic cost and makes it a practical choice for complex robotic control tasks.
- Abstract(参考訳): 学習は、知的行動の模倣に関して、生物学的システムと人工システムの両方の基礎である。
古典的なPPO (Proximal Policy Optimization) から, 四足歩行ロボットのロコモーションポリシーの訓練に広く用いられている, 安定性とサンプル効率の点で, 一連の強化学習アルゴリズムが存在する。
しかしながら、これらの変種の中で、実験とシミュレーションはしばしば早めに収束し、最適下移動とタスク性能の低下につながる。
そこで本稿では,PPOシリーズとは対照的なエントロピーに基づく強化学習アルゴリズムであるEntropy-Controlled Intrinsic Motivation (ECIM)を導入する。
実験では、他のベースラインと平行するために、Isaac Gymで、上り坂、下り坂、不均一な荒れた地形、上り階段、下り階段、平らな地面の6つのカテゴリで適用することにしました。
課題報酬は4~12%増加し,ピークボディーピッチの振動は23~29%減少し,関節加速度は20~32%減少し,関節トルク消費は11~20%減少する。
全体として、我々のモデルECIMは、エントロピー制御と本質的なモチベーション制御を組み合わせることで、四足歩行のための異なる地形間の安定性を向上し、同時にエネルギーコストを低減し、複雑なロボット制御タスクの実践的な選択となる。
関連論文リスト
- Data-Driven Physics Embedded Dynamics with Predictive Control and Reinforcement Learning for Quadrupeds [2.85987101794478]
モデル予測制御(MPC)と強化学習(RL)を統合した4次手法の現状
ラグランジアンニューラルネットワーク(LNN)をRL MPCフレームワークに統合することで、これらの問題に対処する。
サンプル効率の向上,長軸誤差の低減,非構造的ニューラルダイナミクスよりも高速なリアルタイム計画法を示す。
論文 参考訳(メタデータ) (2026-03-15T11:52:14Z) - Diff-Muscle: Efficient Learning for Musculoskeletal Robotic Table Tennis [21.901628569185515]
筋骨格型ロボット制御アルゴリズムであるDiff-Muscleを提案する。
具体的には、K-MAC(Kinematics-based muscle Actuation Controller)と高次軌道計画を統合した階層型強化学習フレームワークを提案する。
実験の結果,Diff-Muscleは筋肉の活性化を最小限に抑えつつ,成功率において最先端のベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2026-03-09T17:00:28Z) - RobotDancing: Residual-Action Reinforcement Learning Enables Robust Long-Horizon Humanoid Motion Tracking [50.200035833530876]
RobotDancingはシンプルでスケーラブルなフレームワークで、残留する関節の目標を予測して、ダイナミックスの不一致を明示的に修正する。
複数分間の高エネルギー動作(ジャンプ、スピン、カートホイール)をトラッキングし、高いモーショントラッキング品質のハードウェアにゼロショットをデプロイする。
論文 参考訳(メタデータ) (2025-09-25T03:30:34Z) - Bipedalism for Quadrupedal Robots: Versatile Loco-Manipulation through Risk-Adaptive Reinforcement Learning [21.938067330028066]
四足歩行ロボットに二足歩行を導入し,前肢を開放し,環境との多目的インタラクションを実現する。
後肢を歩行する四足歩行ロボットを対象としたリスク適応型分散強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-27T18:51:34Z) - Deep Learning for Human Locomotion Analysis in Lower-Limb Exoskeletons: A Comparative Study [1.3569491184708433]
本稿では,8つのディープニューラルネットワークのバックボーンによる高レベル移動パラメータの予測実験を行った。
LSTMは高い地形分類精度(0.94 +- 0.04)と正確な傾斜斜面(1.95 +- 0.58deg)、CNN-LSTMは階段の高さ(15.65 +- 7.40 mm)を達成した。
システムは2ミリ秒の推論時間で動作し、リアルタイムアプリケーションをサポートする。
論文 参考訳(メタデータ) (2025-03-21T07:12:44Z) - Humanoid Whole-Body Locomotion on Narrow Terrain via Dynamic Balance and Reinforcement Learning [54.26816599309778]
動的バランスと強化学習(RL)に基づく新しい全身移動アルゴリズムを提案する。
具体的には,ZMP(Zero-Moment Point)駆動の報酬とタスク駆動の報酬を,全身のアクター批判的枠組みで拡張した尺度を活用することで,動的バランス機構を導入する。
フルサイズのUnitree H1-2ロボットによる実験により、非常に狭い地形でのバランスを維持するための手法の有効性が検証された。
論文 参考訳(メタデータ) (2025-02-24T14:53:45Z) - Reinforcement Learning for Versatile, Dynamic, and Robust Bipedal Locomotion Control [106.32794844077534]
本稿では,二足歩行ロボットのための動的移動制御系を構築するために,深層強化学習を用いた研究について述べる。
本研究では、周期歩行やランニングから周期ジャンプや立位に至るまで、様々な動的二足歩行技術に使用できる汎用的な制御ソリューションを開発する。
この研究は、二足歩行ロボットの俊敏性の限界を、現実世界での広範な実験を通じて押し上げる。
論文 参考訳(メタデータ) (2024-01-30T10:48:43Z) - Latent Exploration for Reinforcement Learning [87.42776741119653]
強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。
LATent TIme-Correlated Exploration (Lattice)を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:40:43Z) - Ensemble plasticity and network adaptability in SNNs [0.726437825413781]
人工スパイキングニューラルネットワーク(ASNN)は、離散的なイベントベース(スパイク)計算のため、より優れた情報処理効率を約束する。
本研究では,スパイク活動のみを用いたエントロピーとネットワークアクティベーションに基づく新しいアンサンブル学習手法を提案する。
その結果, スパイクレートの低いニューロンクラスターを刈り取ると, 一般化や性能の低下が予想されることがわかった。
論文 参考訳(メタデータ) (2022-03-11T01:14:51Z) - First Steps: Latent-Space Control with Semantic Constraints for
Quadruped Locomotion [73.37945453998134]
従来の四重化制御のアプローチでは、単純化された手作りのモデルが採用されている。
これにより、有効な運動範囲が縮小されているため、ロボットの能力が大幅に低下する。
この研究において、これらの課題は、構造化潜在空間における最適化として四重化制御をフレーミングすることによって解決される。
深い生成モデルは、実現可能な関節構成の統計的表現を捉え、一方、複雑な動的および終端的制約は高レベルな意味的指標によって表現される。
実世界とシミュレーションの両方で最適化された移動軌跡の実現可能性を検証する。
論文 参考訳(メタデータ) (2020-07-03T07:04:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。