Fugu-MT 論文翻訳(概要): Reinforcement Learning with Evolutionary Trajectory Generator: A General Approach for Quadrupedal Locomotion

論文の概要: Reinforcement Learning with Evolutionary Trajectory Generator: A General Approach for Quadrupedal Locomotion

arxiv url: http://arxiv.org/abs/2109.06409v1
Date: Tue, 14 Sep 2021 02:51:50 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-16 03:46:57.616075
Title: Reinforcement Learning with Evolutionary Trajectory Generator: A General Approach for Quadrupedal Locomotion
Title（参考訳）: 進化的軌道発生器を用いた強化学習:四足歩行の一般的なアプローチ
Authors: Haojie Shi, Bo Zhou, Hongsheng Zeng, Fan Wang, Yueqiang Dong, Jiangyong Li, Kang Wang, Hao Tian, Max Q.-H. Meng
Abstract要約: 進化的足跡生成器を含む新しいRLに基づくアプローチを提案する。ジェネレータは、与えられたタスクの出力軌跡の形状を継続的に最適化し、ポリシー学習のガイドとなる多様な動作前を提供する。我々は,12-DoF四足歩行ロボットのシミュレーションで学習したコントローラをデプロイし,効率の良い歩行で挑戦的なシナリオを横切ることに成功した。
参考スコア（独自算出の注目度）: 29.853927354893656
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recently reinforcement learning (RL) has emerged as a promising approach for quadrupedal locomotion, which can save the manual effort in conventional approaches such as designing skill-specific controllers. However, due to the complex nonlinear dynamics in quadrupedal robots and reward sparsity, it is still difficult for RL to learn effective gaits from scratch, especially in challenging tasks such as walking over the balance beam. To alleviate such difficulty, we propose a novel RL-based approach that contains an evolutionary foot trajectory generator. Unlike prior methods that use a fixed trajectory generator, the generator continually optimizes the shape of the output trajectory for the given task, providing diversified motion priors to guide the policy learning. The policy is trained with reinforcement learning to output residual control signals that fit different gaits. We then optimize the trajectory generator and policy network alternatively to stabilize the training and share the exploratory data to improve sample efficiency. As a result, our approach can solve a range of challenging tasks in simulation by learning from scratch, including walking on a balance beam and crawling through the cave. To further verify the effectiveness of our approach, we deploy the controller learned in the simulation on a 12-DoF quadrupedal robot, and it can successfully traverse challenging scenarios with efficient gaits.
Abstract（参考訳）: 近年、強化学習 (RL) が四足歩行の有望なアプローチとして登場し、熟練型コントローラの設計などの従来の手法では手作業の節約が期待できる。しかし、四足歩行ロボットの複雑な非線形ダイナミクスと報酬空間のため、特にバランスビームの上を歩くような困難な作業において、RLがスクラッチから効果的な歩行を学習することは依然として困難である。このような困難を緩和するために,進化的足跡生成器を含む新しいRLベースのアプローチを提案する。固定軌道生成器を使用する従来の方法とは異なり、ジェネレータは与えられたタスクの出力軌道の形状を継続的に最適化し、ポリシー学習を導くための多様な動作前を提供する。この方針は、異なる歩行に適合する残留制御信号を出力する強化学習で訓練されている。次に、軌道生成器とポリシーネットワークを最適化し、トレーニングを安定させ、探索データを共有し、サンプル効率を向上させる。その結果,本手法は,平均台の上を歩いたり,洞窟をクロールしたりすることで,スクラッチから学習することで,シミュレーション上のさまざまな課題を解決することができる。提案手法の有効性をさらに検証するため,12-DoF四足歩行ロボットにシミュレーションで学習したコントローラを配置し,効率の良い歩行で難解なシナリオを横断することに成功した。

関連論文リスト

Action Flow Matching for Continual Robot Learning [57.698553219660376]
ロボット工学における継続的な学習は、変化する環境やタスクに常に適応できるシステムを求める。本稿では,オンラインロボット力学モデルアライメントのためのフローマッチングを利用した生成フレームワークを提案する。ロボットは,不整合モデルで探索するのではなく,行動自体を変換することで,より効率的に情報収集を行う。
論文参考訳（メタデータ） (2025-04-25T16:26:15Z)
Training Directional Locomotion for Quadrupedal Low-Cost Robotic Systems via Deep Reinforcement Learning [4.669957449088593]
現実世界における低コスト四足歩行ロボットの方向移動の深層強化学習訓練について述べる。我々は、動作状態遷移の探索を促進するためにロボットが従わなければならない方向のランダム化を利用する。エピソードの先頭のリセットを現在のヨーと通常の分布から引き出されたランダムな値に変更すると、複雑な軌跡に従うことができるポリシーが得られる。
論文参考訳（メタデータ） (2025-03-14T03:53:01Z)
Multi-Objective Algorithms for Learning Open-Ended Robotic Problems [1.0124625066746598]
四足歩行は、自動運転車の普及に不可欠な複雑でオープンな問題である。従来の強化学習アプローチは、トレーニングの不安定性とサンプルの非効率のため、しばしば不足する。自動カリキュラム学習機構として多目的進化アルゴリズムを活用する新しい手法を提案する。
論文参考訳（メタデータ） (2024-11-11T16:26:42Z)
Grow Your Limits: Continuous Improvement with Real-World RL for Robotic Locomotion [66.69666636971922]
本稿では,ロボットの学習過程における探索を調節するポリシー正規化フレームワークであるAPRLを提案する。 APRLは四足歩行ロボットを、数分で完全に現実世界を歩けるように効率よく学習する。
論文参考訳（メタデータ） (2023-10-26T17:51:46Z)
DTC: Deep Tracking Control [16.2850135844455]
本研究では,両世界の強靭性,フット配置精度,地形の一般化を両世界の利点と組み合わせたハイブリッド制御アーキテクチャを提案する。深層ニューラルネットワークポリシは、最適化された足場を追跡することを目的として、シミュレーションでトレーニングされている。モデルベースに比べて滑りやすい地盤や変形可能な地盤が存在する場合の強靭性を示す。
論文参考訳（メタデータ） (2023-09-27T07:57:37Z)
Combining model-predictive control and predictive reinforcement learning for stable quadrupedal robot locomotion [0.0]
モデル予測型と予測型強化型学習コントローラの組み合わせによりこれを実現できるかを検討する。本研究では,両制御手法を組み合わせて,四足歩行ロボットの安定ゲート生成問題に対処する。
論文参考訳（メタデータ） (2023-07-15T09:22:37Z)
Decision S4: Efficient Sequence-Based RL via State Spaces Layers [87.3063565438089]
我々は、S4モデルの訓練効率を維持しつつ、軌道で機能する非政治的な訓練手順を提案する。反復的に訓練され、長距離依存の恩恵を受け、新しい安定したアクター・クリティカルなメカニズムをベースとした、オンデマンドのトレーニング手順。
論文参考訳（メタデータ） (2023-06-08T13:03:53Z)
Continuous Trajectory Generation Based on Two-Stage GAN [50.55181727145379]
本稿では,道路網上の連続軌道を生成するために,新たな2段階生成対向フレームワークを提案する。具体的には、A*アルゴリズムの人間の移動性仮説に基づいてジェネレータを構築し、人間の移動性について学習する。判別器では, 逐次報酬と移動ヤウ報酬を組み合わせることで, 発電機の有効性を高める。
論文参考訳（メタデータ） (2023-01-16T09:54:02Z)
Learning to Exploit Elastic Actuators for Quadruped Locomotion [7.9585932082270014]
足の移動におけるスプリングベースのアクチュエータは、エネルギー効率と性能の向上を提供するが、コントローラ設計の難しさは増す。実ロボットでモデルフリーのコントローラを直接学習することを提案する。提案手法をDLR弾性四重項ベルトに適用した。
論文参考訳（メタデータ） (2022-09-15T09:43:17Z)
Training and Evaluation of Deep Policies using Reinforcement Learning and Generative Models [67.78935378952146]
GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。強化学習と潜在変数生成モデルの組み合わせを利用する。最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
論文参考訳（メタデータ） (2022-04-18T22:02:32Z)
RLOC: Terrain-Aware Legged Locomotion using Reinforcement Learning and Optimal Control [6.669503016190925]
四元計画と制御のためのモデルベースとデータ駆動の統一的アプローチを提案する。センサ情報と所望のベース速度コマンドを、強化学習ポリシーを用いて足踏み計画にマッピングする。我々は、複雑な四足歩行システムであるANYmal Bの枠組みを訓練し、再訓練を必要とせず、より大きく重いロボットであるANYmal Cへの移動性を示す。
論文参考訳（メタデータ） (2020-12-05T18:30:23Z)
Continuous Transition: Improving Sample Efficiency for Continuous Control Problems via MixUp [119.69304125647785]
本稿では,連続的遷移を構築するための簡潔かつ強力な手法を提案する。具体的には、連続的な遷移を線形に補間することにより、トレーニングのための新しい遷移を合成することを提案する。また, 建設過程を自動案内する判別器を開発した。
論文参考訳（メタデータ） (2020-11-30T01:20:23Z)
ReLMoGen: Leveraging Motion Generation in Reinforcement Learning for Mobile Manipulation [99.2543521972137]
ReLMoGenは、サブゴールを予測するための学習されたポリシーと、これらのサブゴールに到達するために必要な動作を計画し実行するためのモーションジェネレータを組み合わせたフレームワークである。本手法は,フォトリアリスティック・シミュレーション環境における7つのロボットタスクの多種多様なセットをベンチマークする。 ReLMoGenは、テスト時に異なるモーションジェネレータ間で顕著な転送可能性を示し、実際のロボットに転送する大きな可能性を示している。
論文参考訳（メタデータ） (2020-08-18T08:05:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。