論文の概要: Robust Deep Reinforcement Learning for Quadcopter Control
- arxiv url: http://arxiv.org/abs/2111.03915v1
- Date: Sat, 6 Nov 2021 16:35:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-10 11:11:22.616403
- Title: Robust Deep Reinforcement Learning for Quadcopter Control
- Title(参考訳): クワッドコプター制御のためのロバスト深層強化学習
- Authors: Aditya M. Deshpande, Ali A. Minai, Manish Kumar
- Abstract要約: 本研究では、ロバスト・マルコフ決定プロセス(RMDP)を用いてドローン制御ポリシーを訓練する。
それは、ある環境から別の環境への政策移行の間の潜在的なギャップを扱うための悲観的な最適化を選択する。
訓練された制御ポリシーは、クワッドコプターの位置制御のタスクでテストされる。
- 参考スコア(独自算出の注目度): 0.8687092759073857
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep reinforcement learning (RL) has made it possible to solve complex
robotics problems using neural networks as function approximators. However, the
policies trained on stationary environments suffer in terms of generalization
when transferred from one environment to another. In this work, we use Robust
Markov Decision Processes (RMDP) to train the drone control policy, which
combines ideas from Robust Control and RL. It opts for pessimistic optimization
to handle potential gaps between policy transfer from one environment to
another. The trained control policy is tested on the task of quadcopter
positional control. RL agents were trained in a MuJoCo simulator. During
testing, different environment parameters (unseen during the training) were
used to validate the robustness of the trained policy for transfer from one
environment to another. The robust policy outperformed the standard agents in
these environments, suggesting that the added robustness increases generality
and can adapt to non-stationary environments.
Codes: https://github.com/adipandas/gym_multirotor
- Abstract(参考訳): deep reinforcement learning (rl)は、ニューラルネットワークを近似関数として使用することで、複雑なロボティクス問題を解決することができる。
しかし,定置環境において訓練された政策は,ある環境から別の環境へ移行した場合の一般化に苦しむ。
本研究では,ロバストなマルコフ決定プロセス(rmdp)を用いて,ロバスト制御とrlのアイデアを組み合わせたドローン制御ポリシを訓練する。
悲観的な最適化を選択して、ある環境から別の環境へのポリシー移行の間の潜在的なギャップを処理します。
訓練された制御ポリシーは、クワッドコプターの位置制御のタスクでテストされる。
RLエージェントはMuJoCoシミュレーターで訓練された。
テスト中、異なる環境パラメータ(トレーニング中に見えない)を使用して、ある環境から別の環境へ移行するための訓練されたポリシーの堅牢性を検証する。
ロバストポリシは、これらの環境における標準エージェントよりも優れており、堅牢性の追加は、汎用性を高め、非定常環境に適応できることを示唆している。
コード: https://github.com/adipandas/gym_multirotor
関連論文リスト
- Survival of the Fittest: Evolutionary Adaptation of Policies for Environmental Shifts [0.15889427269227555]
進化ゲーム理論(EGT)にインスパイアされた適応的再学習アルゴリズムを開発する。
ERPOは、ポリシー適応の高速化、平均報酬の向上、およびポリシー適応の計算コストの削減を示す。
論文 参考訳(メタデータ) (2024-10-22T09:29:53Z) - Task and Domain Adaptive Reinforcement Learning for Robot Control [0.34137115855910755]
課題や環境条件に応じて動的にポリシーを適応する新しい適応エージェントを提案する。
このエージェントはIsaacGym上に作られたカスタムで高度に並列化されたシミュレータを使って訓練されている。
実世界において、さまざまな課題を解くために、飛行飛行のためにゼロショット転送を行う。
論文 参考訳(メタデータ) (2024-04-29T14:02:02Z) - Robot Fleet Learning via Policy Merging [58.5086287737653]
我々はFLEET-MERGEを提案し、艦隊設定における政策を効率的にマージする。
本稿では,FLEET-MERGEがメタワールド環境における50のタスクで訓練されたポリシーの行動を統合することを示す。
合成・接触に富んだロボット操作タスクにおけるフリートポリシー学習のための新しいロボットツール用ベンチマークであるFLEET-TOOLSを導入する。
論文 参考訳(メタデータ) (2023-10-02T17:23:51Z) - Dichotomy of Control: Separating What You Can Control from What You
Cannot [129.62135987416164]
政策の制御(行動)と政策の制御(環境)以外のメカニズムを分離する将来の条件付き教師あり学習フレームワークを提案する。
我々は,DoCが条件付入力と整合したポリシを出力し,学習したポリシを所望のハイリターン未来結果に条件付けすることで,高リターン行動が正しく引き起こされることを示す。
論文 参考訳(メタデータ) (2022-10-24T17:49:56Z) - Teaching a Robot to Walk Using Reinforcement Learning [0.0]
強化学習は 最適な歩行方針を 簡単に訓練できる
我々は,OpenAI Gym BipedalWalker-v3環境を用いて,2次元二足歩行ロボットに歩行の仕方を教える。
ARSはより優れた訓練を受けたロボットとなり、BipedalWalker-v3問題を公式に「解決」する最適なポリシーを生み出した。
論文 参考訳(メタデータ) (2021-12-13T21:35:45Z) - Policy Search for Model Predictive Control with Application to Agile
Drone Flight [56.24908013905407]
MPCのためのポリシ・フォー・モデル・予測制御フレームワークを提案する。
具体的には、パラメータ化コントローラとしてMPCを定式化し、パラメータ化の難しい決定変数を高レベルポリシーとして表現する。
シミュレーションと実環境の両方において,我々の制御器が堅牢かつリアルタイムに制御性能を発揮することを示す実験を行った。
論文 参考訳(メタデータ) (2021-12-07T17:39:24Z) - Robustifying Reinforcement Learning Policies with $\mathcal{L}_1$
Adaptive Control [7.025818894763949]
強化学習(RL)ポリシーは、動的変動が存在するため、新しい/摂動環境において失敗する可能性がある。
本稿では, 適応制御を$mathcalL_1$で行うことで, 事前学習した非ロバストRLポリシーを堅牢化する手法を提案する。
提案手法は,シミュレータでも実世界でも,標準(非ロバスト)方式で訓練されたRLポリシーのロバスト性を大幅に向上させることができる。
論文 参考訳(メタデータ) (2021-06-04T04:28:46Z) - Pre-training of Deep RL Agents for Improved Learning under Domain
Randomization [63.09932240840656]
我々は、すでにランダム化に不変な埋め込み型を提供する知覚エンコーダの事前学習方法を示す。
本研究では、DeepMind制御スイートタスクのランダム化バージョンと、任意の背景上の積み重ね環境において、ゼロショットで物理ロボットに転送する結果を連続的に改善することを示す。
論文 参考訳(メタデータ) (2021-04-29T14:54:11Z) - Learning a Contact-Adaptive Controller for Robust, Efficient Legged
Locomotion [95.1825179206694]
四足歩行ロボットのためのロバストコントローラを合成するフレームワークを提案する。
高レベルコントローラは、環境の変化に応じてプリミティブのセットを選択することを学習する。
確立された制御方法を使用してプリミティブを堅牢に実行する低レベルコントローラ。
論文 参考訳(メタデータ) (2020-09-21T16:49:26Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。