論文の概要: Jump-Start Reinforcement Learning with Self-Evolving Priors for Extreme Monopedal Locomotion
- arxiv url: http://arxiv.org/abs/2507.01243v1
- Date: Tue, 01 Jul 2025 23:31:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.961449
- Title: Jump-Start Reinforcement Learning with Self-Evolving Priors for Extreme Monopedal Locomotion
- Title(参考訳): 超単足歩行における自己進化前駆体を用いたジャンプスタート強化学習
- Authors: Ziang Zheng, Guojian Zhan, Shiqi Liu, Yao Lyu, Tao Zhang, Shengbo Eben Li,
- Abstract要約: 本稿では,政策学習を複雑化の複数の段階に構造化するRLトレーニングフレームワークJumpERを提案する。
自己進化の先行を動的に生成することにより、JumpERは徐々に洗練され、ガイダンスが向上し、探索とポリシーの最適化が安定化される。
その結果得られた政策は、60cmまでの広い隙間、不規則な間隔の階段、距離15cmから35cmの階段石など、従来の方法が征服に苦慮する難題を効果的に処理する。
- 参考スコア(独自算出の注目度): 11.692916662706361
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reinforcement learning (RL) has shown great potential in enabling quadruped robots to perform agile locomotion. However, directly training policies to simultaneously handle dual extreme challenges, i.e., extreme underactuation and extreme terrains, as in monopedal hopping tasks, remains highly challenging due to unstable early-stage interactions and unreliable reward feedback. To address this, we propose JumpER (jump-start reinforcement learning via self-evolving priors), an RL training framework that structures policy learning into multiple stages of increasing complexity. By dynamically generating self-evolving priors through iterative bootstrapping of previously learned policies, JumpER progressively refines and enhances guidance, thereby stabilizing exploration and policy optimization without relying on external expert priors or handcrafted reward shaping. Specifically, when integrated with a structured three-stage curriculum that incrementally evolves action modality, observation space, and task objective, JumpER enables quadruped robots to achieve robust monopedal hopping on unpredictable terrains for the first time. Remarkably, the resulting policy effectively handles challenging scenarios that traditional methods struggle to conquer, including wide gaps up to 60 cm, irregularly spaced stairs, and stepping stones with distances varying from 15 cm to 35 cm. JumpER thus provides a principled and scalable approach for addressing locomotion tasks under the dual challenges of extreme underactuation and extreme terrains.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、四足歩行ロボットにアジャイルな移動を可能にする大きな可能性を示している。
しかし、一方的なホッピングタスクのように極度の不動と極度の地形を同時に扱うための政策を直接訓練することは、不安定な初期段階の相互作用と信頼できない報酬フィードバックのために非常に難しいままである。
そこで本稿では,政策学習を複雑化の複数の段階に構造化するRLトレーニングフレームワークであるJumpERを提案する。
予め学習したポリシーの反復的ブートストラップによって、自己進化の事前を動的に生成することにより、JumpERは徐々に洗練され、ガイダンスが向上し、外部の専門家の事前や手作りの報酬形成に頼ることなく、探索と政策最適化の安定化が図られる。
具体的には、アクションモダリティ、観察空間、タスク目標を漸進的に進化させる構造化された3段階のカリキュラムと統合した場合、JumpERは4足歩行ロボットが予測不能な地形での堅牢なモノペダルホッピングを初めて達成することを可能にする。
注目すべきは、従来の方法が征服に苦しむ挑戦的なシナリオを効果的に扱うことであり、60cmまでの広い隙間、不規則な間隔の階段、距離が15cmから35cmまで変化するステッピングストーンなどがある。
そこでJumpERは、極端不動と極端な地形という2つの課題の下で、ロコモーションタスクに対処するための原則的かつスケーラブルなアプローチを提供する。
関連論文リスト
- BeamDojo: Learning Agile Humanoid Locomotion on Sparse Footholds [35.62230804783507]
既存の学習ベースのアプローチは、足場不足や非効率な学習プロセスのために、複雑な地形で苦労することが多い。
BeamDojoはアジャイルなヒューマノイドの移動を可能にするための強化学習フレームワークです。
BeamDojoはシミュレーションで効率的な学習を実現し、現実世界の狭い足場に正確な足場を配置してアジャイルの移動を可能にする。
論文 参考訳(メタデータ) (2025-02-14T18:42:42Z) - Reinforcement Learning for Versatile, Dynamic, and Robust Bipedal Locomotion Control [106.32794844077534]
本稿では,二足歩行ロボットのための動的移動制御系を構築するために,深層強化学習を用いた研究について述べる。
本研究では、周期歩行やランニングから周期ジャンプや立位に至るまで、様々な動的二足歩行技術に使用できる汎用的な制御ソリューションを開発する。
この研究は、二足歩行ロボットの俊敏性の限界を、現実世界での広範な実験を通じて押し上げる。
論文 参考訳(メタデータ) (2024-01-30T10:48:43Z) - Grow Your Limits: Continuous Improvement with Real-World RL for Robotic
Locomotion [66.69666636971922]
本稿では,ロボットの学習過程における探索を調節するポリシー正規化フレームワークであるAPRLを提案する。
APRLは四足歩行ロボットを、数分で完全に現実世界を歩けるように効率よく学習する。
論文 参考訳(メタデータ) (2023-10-26T17:51:46Z) - Robust and Versatile Bipedal Jumping Control through Reinforcement
Learning [141.56016556936865]
この研究は、トルク制御された二足歩行ロボットが実世界で頑丈で多目的なダイナミックジャンプを行えるようにすることで、二足歩行ロボットの機敏さの限界を推し進めることを目的としている。
本稿では,ロボットが様々な場所や方向へジャンプするなど,さまざまなジャンプタスクを達成するための強化学習フレームワークを提案する。
我々は,ロボットの長期入出力(I/O)履歴を符号化し,短期I/O履歴への直接アクセスを可能にする新しいポリシー構造を開発する。
論文 参考訳(メタデータ) (2023-02-19T01:06:09Z) - Reinforcement Learning with Evolutionary Trajectory Generator: A General
Approach for Quadrupedal Locomotion [29.853927354893656]
進化的足跡生成器を含む新しいRLに基づくアプローチを提案する。
ジェネレータは、与えられたタスクの出力軌跡の形状を継続的に最適化し、ポリシー学習のガイドとなる多様な動作前を提供する。
我々は,12-DoF四足歩行ロボットのシミュレーションで学習したコントローラをデプロイし,効率の良い歩行で挑戦的なシナリオを横切ることに成功した。
論文 参考訳(メタデータ) (2021-09-14T02:51:50Z) - Learning Agile Locomotion via Adversarial Training [59.03007947334165]
本稿では,四足歩行ロボット(主人公)が他のロボット(敵)を追いかけるのを学習し,後者が逃げることを学習するマルチエージェント学習システムを提案する。
この敵対的なトレーニングプロセスは、アジャイルの振る舞いを促進するだけでなく、退屈な環境設計の努力を効果的に軽減します。
1つの敵のみを使用した以前の作品とは対照的に、異なる逃走戦略を専門とする敵のアンサンブルを訓練することは、主人公がアジリティを習得するために不可欠である。
論文 参考訳(メタデータ) (2020-08-03T01:20:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。