論文の概要: Robust Deterministic Policy Gradient for Disturbance Attenuation and Its Application to Quadrotor Control
- arxiv url: http://arxiv.org/abs/2502.21057v1
- Date: Fri, 28 Feb 2025 13:58:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:41:06.373388
- Title: Robust Deterministic Policy Gradient for Disturbance Attenuation and Its Application to Quadrotor Control
- Title(参考訳): 外乱減衰に対するロバスト決定論的政策勾配と擬似体制御への応用
- Authors: Taeho Lee, Donghwan Lee,
- Abstract要約: 本稿ではロバスト決定性ポリシー勾配(RDPG)と呼ばれる強化学習アルゴリズムを提案する。
RDPGは2プレイヤーゼロサムダイナミックゲームとして$H_infty$制御問題を定式化している。
次に、決定論的政策勾配(DPG)とその深い強化学習を用いて、効果的な外乱減衰を伴う堅牢な制御政策を訓練する。
- 参考スコア(独自算出の注目度): 5.084000938840218
- License:
- Abstract: Practical control systems pose significant challenges in identifying optimal control policies due to uncertainties in the system model and external disturbances. While $H_\infty$ control techniques are commonly used to design robust controllers that mitigate the effects of disturbances, these methods often require complex and computationally intensive calculations. To address this issue, this paper proposes a reinforcement learning algorithm called Robust Deterministic Policy Gradient (RDPG), which formulates the $H_\infty$ control problem as a two-player zero-sum dynamic game. In this formulation, one player (the user) aims to minimize the cost, while the other player (the adversary) seeks to maximize it. We then employ deterministic policy gradient (DPG) and its deep reinforcement learning counterpart to train a robust control policy with effective disturbance attenuation. In particular, for practical implementation, we introduce an algorithm called robust deep deterministic policy gradient (RDDPG), which employs a deep neural network architecture and integrates techniques from the twin-delayed deep deterministic policy gradient (TD3) to enhance stability and learning efficiency. To evaluate the proposed algorithm, we implement it on an unmanned aerial vehicle (UAV) tasked with following a predefined path in a disturbance-prone environment. The experimental results demonstrate that the proposed method outperforms other control approaches in terms of robustness against disturbances, enabling precise real-time tracking of moving targets even under severe disturbance conditions.
- Abstract(参考訳): システムモデルにおける不確実性や外乱による最適制御ポリシーの特定には,現実的な制御システムが大きな課題となる。
H_\infty$制御技術は、外乱の影響を緩和する堅牢なコントローラを設計するために一般的に使用されるが、これらの手法は複雑で計算集約的な計算を必要とすることが多い。
本稿では,ロバスト決定性ポリシー勾配 (RDPG) と呼ばれる強化学習アルゴリズムを提案する。
この定式化では、1人のプレイヤー(利用者)がコストを最小化し、もう1人のプレイヤー(敵)が最大化する。
次に、決定論的政策勾配(DPG)とその深い強化学習を用いて、効果的な外乱減衰を伴う堅牢な制御政策を訓練する。
特に, 実運用において, ニューラルネットワークアーキテクチャを用いて, 安定度と学習効率を向上させるために, TD3の手法を組み込んだ, 頑健なDeep Deterministic Policy gradient (RDDPG) というアルゴリズムを導入する。
提案手法を無人航空機(UAV)に実装し,外乱発生環境における事前定義された経路を追従する手法を提案する。
実験により, 本手法は外乱に対するロバスト性において他の制御手法よりも優れており, 厳しい外乱条件下においても移動目標の正確なリアルタイム追跡が可能であった。
関連論文リスト
- Solving Reach-Avoid-Stay Problems Using Deep Deterministic Policy Gradients [3.4849272655643326]
Reach-Avoid-Stay (RAS) の最適制御により、ロボットやエアタクシーなどのシステムが目標に到達し、障害物を避け、目標の近くに留まることができる。
RASの現在の手法は、複雑な動的環境の扱いと高次元システムへのスケーリングにしばしば苦労する。
RLに基づくリーチビリティー法を拡張してRAS問題を解決するための2段階のDeep Deterministic Policy gradient (DDPG)法を提案する。
論文 参考訳(メタデータ) (2024-10-03T18:43:50Z) - Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Integrating DeepRL with Robust Low-Level Control in Robotic Manipulators for Non-Repetitive Reaching Tasks [0.24578723416255746]
ロボット工学では、現代の戦略は学習に基づくもので、複雑なブラックボックスの性質と解釈可能性の欠如が特徴である。
本稿では, 深部強化学習(DRL)に基づく衝突のない軌道プランナと, 自動調整型低レベル制御戦略を統合することを提案する。
論文 参考訳(メタデータ) (2024-02-04T15:54:03Z) - Robust Lagrangian and Adversarial Policy Gradient for Robust Constrained Markov Decision Processes [5.167069404528051]
本稿では,Robust Lagrangian と Adversarial RCPG の2つのアルゴリズムについて述べる。
Robust Lagrangian による RCPG は、値や制約ではなく、ラグランジアンに基づく最悪のケースダイナミクスを取り入れて RCPG を修飾する。
逆数RCPGはまた、ラグランジアンに基づいて最悪のケースのダイナミクスを定式化するが、直接的かつ漸進的に逆数ポリシーとして学習する。
論文 参考訳(メタデータ) (2023-08-22T08:24:45Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - Regret-optimal Estimation and Control [52.28457815067461]
後悔最適推定器と後悔最適制御器は状態空間形式で導出可能であることを示す。
非線形力学系に対するモデル予測制御(MPC)と拡張KalmanFilter(EKF)の残差最適類似性を提案する。
論文 参考訳(メタデータ) (2021-06-22T23:14:21Z) - Escaping from Zero Gradient: Revisiting Action-Constrained Reinforcement
Learning via Frank-Wolfe Policy Optimization [5.072893872296332]
アクション制約強化学習(RL)は、さまざまな現実世界のアプリケーションで広く使用されているアプローチです。
本稿では,政策パラメータ更新から行動制約を分離する学習アルゴリズムを提案する。
提案アルゴリズムは,様々な制御タスクにおけるベンチマーク手法を有意に上回っていることを示した。
論文 参考訳(メタデータ) (2021-02-22T14:28:03Z) - Enforcing robust control guarantees within neural network policies [76.00287474159973]
本稿では、ニューラルネットワークによってパラメータ化され、ロバスト制御と同じ証明可能なロバスト性基準を適用した、一般的な非線形制御ポリシークラスを提案する。
提案手法は,複数の領域において有効であり,既存のロバスト制御法よりも平均ケース性能が向上し,(非ロバスト)深部RL法よりも最悪のケース安定性が向上した。
論文 参考訳(メタデータ) (2020-11-16T17:14:59Z) - Zeroth-order Deterministic Policy Gradient [116.87117204825105]
ゼロ階決定主義政策グラディエント(ZDPG)を紹介する。
ZDPGは、$Q$関数の2点評価によりポリシー逆勾配を近似する。
ZDPGの新たな有限サンプル複雑性境界は、既存の結果を最大2桁改善する。
論文 参考訳(メタデータ) (2020-06-12T16:52:29Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。