論文の概要: Reinforcement Learning with Evolutionary Trajectory Generator: A General
Approach for Quadrupedal Locomotion
- arxiv url: http://arxiv.org/abs/2109.06409v1
- Date: Tue, 14 Sep 2021 02:51:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-16 03:46:57.616075
- Title: Reinforcement Learning with Evolutionary Trajectory Generator: A General
Approach for Quadrupedal Locomotion
- Title(参考訳): 進化的軌道発生器を用いた強化学習:四足歩行の一般的なアプローチ
- Authors: Haojie Shi, Bo Zhou, Hongsheng Zeng, Fan Wang, Yueqiang Dong,
Jiangyong Li, Kang Wang, Hao Tian, Max Q.-H. Meng
- Abstract要約: 進化的足跡生成器を含む新しいRLに基づくアプローチを提案する。
ジェネレータは、与えられたタスクの出力軌跡の形状を継続的に最適化し、ポリシー学習のガイドとなる多様な動作前を提供する。
我々は,12-DoF四足歩行ロボットのシミュレーションで学習したコントローラをデプロイし,効率の良い歩行で挑戦的なシナリオを横切ることに成功した。
- 参考スコア(独自算出の注目度): 29.853927354893656
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently reinforcement learning (RL) has emerged as a promising approach for
quadrupedal locomotion, which can save the manual effort in conventional
approaches such as designing skill-specific controllers. However, due to the
complex nonlinear dynamics in quadrupedal robots and reward sparsity, it is
still difficult for RL to learn effective gaits from scratch, especially in
challenging tasks such as walking over the balance beam. To alleviate such
difficulty, we propose a novel RL-based approach that contains an evolutionary
foot trajectory generator. Unlike prior methods that use a fixed trajectory
generator, the generator continually optimizes the shape of the output
trajectory for the given task, providing diversified motion priors to guide the
policy learning. The policy is trained with reinforcement learning to output
residual control signals that fit different gaits. We then optimize the
trajectory generator and policy network alternatively to stabilize the training
and share the exploratory data to improve sample efficiency. As a result, our
approach can solve a range of challenging tasks in simulation by learning from
scratch, including walking on a balance beam and crawling through the cave. To
further verify the effectiveness of our approach, we deploy the controller
learned in the simulation on a 12-DoF quadrupedal robot, and it can
successfully traverse challenging scenarios with efficient gaits.
- Abstract(参考訳): 近年、強化学習 (RL) が四足歩行の有望なアプローチとして登場し、熟練型コントローラの設計などの従来の手法では手作業の節約が期待できる。
しかし、四足歩行ロボットの複雑な非線形ダイナミクスと報酬空間のため、特にバランスビームの上を歩くような困難な作業において、RLがスクラッチから効果的な歩行を学習することは依然として困難である。
このような困難を緩和するために,進化的足跡生成器を含む新しいRLベースのアプローチを提案する。
固定軌道生成器を使用する従来の方法とは異なり、ジェネレータは与えられたタスクの出力軌道の形状を継続的に最適化し、ポリシー学習を導くための多様な動作前を提供する。
この方針は、異なる歩行に適合する残留制御信号を出力する強化学習で訓練されている。
次に、軌道生成器とポリシーネットワークを最適化し、トレーニングを安定させ、探索データを共有し、サンプル効率を向上させる。
その結果,本手法は,平均台の上を歩いたり,洞窟をクロールしたりすることで,スクラッチから学習することで,シミュレーション上のさまざまな課題を解決することができる。
提案手法の有効性をさらに検証するため,12-DoF四足歩行ロボットにシミュレーションで学習したコントローラを配置し,効率の良い歩行で難解なシナリオを横断することに成功した。
関連論文リスト
- Multi-Objective Algorithms for Learning Open-Ended Robotic Problems [1.0124625066746598]
四足歩行は、自動運転車の普及に不可欠な複雑でオープンな問題である。
従来の強化学習アプローチは、トレーニングの不安定性とサンプルの非効率のため、しばしば不足する。
自動カリキュラム学習機構として多目的進化アルゴリズムを活用する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-11T16:26:42Z) - Grow Your Limits: Continuous Improvement with Real-World RL for Robotic
Locomotion [66.69666636971922]
本稿では,ロボットの学習過程における探索を調節するポリシー正規化フレームワークであるAPRLを提案する。
APRLは四足歩行ロボットを、数分で完全に現実世界を歩けるように効率よく学習する。
論文 参考訳(メタデータ) (2023-10-26T17:51:46Z) - DTC: Deep Tracking Control [16.2850135844455]
本研究では,両世界の強靭性,フット配置精度,地形の一般化を両世界の利点と組み合わせたハイブリッド制御アーキテクチャを提案する。
深層ニューラルネットワークポリシは、最適化された足場を追跡することを目的として、シミュレーションでトレーニングされている。
モデルベースに比べて滑りやすい地盤や変形可能な地盤が存在する場合の強靭性を示す。
論文 参考訳(メタデータ) (2023-09-27T07:57:37Z) - Combining model-predictive control and predictive reinforcement learning
for stable quadrupedal robot locomotion [0.0]
モデル予測型と予測型強化型学習コントローラの組み合わせによりこれを実現できるかを検討する。
本研究では,両制御手法を組み合わせて,四足歩行ロボットの安定ゲート生成問題に対処する。
論文 参考訳(メタデータ) (2023-07-15T09:22:37Z) - Decision S4: Efficient Sequence-Based RL via State Spaces Layers [87.3063565438089]
我々は、S4モデルの訓練効率を維持しつつ、軌道で機能する非政治的な訓練手順を提案する。
反復的に訓練され、長距離依存の恩恵を受け、新しい安定したアクター・クリティカルなメカニズムをベースとした、オンデマンドのトレーニング手順。
論文 参考訳(メタデータ) (2023-06-08T13:03:53Z) - Continuous Trajectory Generation Based on Two-Stage GAN [50.55181727145379]
本稿では,道路網上の連続軌道を生成するために,新たな2段階生成対向フレームワークを提案する。
具体的には、A*アルゴリズムの人間の移動性仮説に基づいてジェネレータを構築し、人間の移動性について学習する。
判別器では, 逐次報酬と移動ヤウ報酬を組み合わせることで, 発電機の有効性を高める。
論文 参考訳(メタデータ) (2023-01-16T09:54:02Z) - Learning to Exploit Elastic Actuators for Quadruped Locomotion [7.9585932082270014]
足の移動におけるスプリングベースのアクチュエータは、エネルギー効率と性能の向上を提供するが、コントローラ設計の難しさは増す。
実ロボットでモデルフリーのコントローラを直接学習することを提案する。
提案手法をDLR弾性四重項ベルトに適用した。
論文 参考訳(メタデータ) (2022-09-15T09:43:17Z) - Training and Evaluation of Deep Policies using Reinforcement Learning
and Generative Models [67.78935378952146]
GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。
強化学習と潜在変数生成モデルの組み合わせを利用する。
最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
論文 参考訳(メタデータ) (2022-04-18T22:02:32Z) - RLOC: Terrain-Aware Legged Locomotion using Reinforcement Learning and
Optimal Control [6.669503016190925]
四元計画と制御のためのモデルベースとデータ駆動の統一的アプローチを提案する。
センサ情報と所望のベース速度コマンドを、強化学習ポリシーを用いて足踏み計画にマッピングする。
我々は、複雑な四足歩行システムであるANYmal Bの枠組みを訓練し、再訓練を必要とせず、より大きく重いロボットであるANYmal Cへの移動性を示す。
論文 参考訳(メタデータ) (2020-12-05T18:30:23Z) - Continuous Transition: Improving Sample Efficiency for Continuous
Control Problems via MixUp [119.69304125647785]
本稿では,連続的遷移を構築するための簡潔かつ強力な手法を提案する。
具体的には、連続的な遷移を線形に補間することにより、トレーニングのための新しい遷移を合成することを提案する。
また, 建設過程を自動案内する判別器を開発した。
論文 参考訳(メタデータ) (2020-11-30T01:20:23Z) - ReLMoGen: Leveraging Motion Generation in Reinforcement Learning for
Mobile Manipulation [99.2543521972137]
ReLMoGenは、サブゴールを予測するための学習されたポリシーと、これらのサブゴールに到達するために必要な動作を計画し実行するためのモーションジェネレータを組み合わせたフレームワークである。
本手法は,フォトリアリスティック・シミュレーション環境における7つのロボットタスクの多種多様なセットをベンチマークする。
ReLMoGenは、テスト時に異なるモーションジェネレータ間で顕著な転送可能性を示し、実際のロボットに転送する大きな可能性を示している。
論文 参考訳(メタデータ) (2020-08-18T08:05:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。