論文の概要: Relaxed Actor-Critic with Convergence Guarantees for Continuous-Time
Optimal Control of Nonlinear Systems
- arxiv url: http://arxiv.org/abs/1909.05402v2
- Date: Thu, 30 Mar 2023 06:09:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-31 18:55:28.544352
- Title: Relaxed Actor-Critic with Convergence Guarantees for Continuous-Time
Optimal Control of Nonlinear Systems
- Title(参考訳): 非線形系の連続時間最適制御のための収束保証付き緩和アクター臨界
- Authors: Jingliang Duan, Jie Li, Qiang Ge, Shengbo Eben Li, Monimoy
Bujarbaruah, Fei Ma, Dezhao Zhang
- Abstract要約: RCTACは非線形連続時間系に対するほぼ最適なポリシーを見つける方法である。
既知のアルゴリズムの「親和性」や、収束のための制御システムの入力-親和性を必要としない。
アルゴリズムの収束性と最適性は、リャプノフ解析によって証明される。
- 参考スコア(独自算出の注目度): 13.4515419017437
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents the Relaxed Continuous-Time Actor-critic (RCTAC)
algorithm, a method for finding the nearly optimal policy for nonlinear
continuous-time (CT) systems with known dynamics and infinite horizon, such as
the path-tracking control of vehicles. RCTAC has several advantages over
existing adaptive dynamic programming algorithms for CT systems. It does not
require the ``admissibility" of the initialized policy or the input-affine
nature of controlled systems for convergence. Instead, given any initial
policy, RCTAC can converge to an admissible, and subsequently nearly optimal
policy for a general nonlinear system with a saturated controller. RCTAC
consists of two phases: a warm-up phase and a generalized policy iteration
phase. The warm-up phase minimizes the square of the Hamiltonian to achieve
admissibility, while the generalized policy iteration phase relaxes the update
termination conditions for faster convergence. The convergence and optimality
of the algorithm are proven through Lyapunov analysis, and its effectiveness is
demonstrated through simulations and real-world path-tracking tasks.
- Abstract(参考訳): 本稿では、車両の経路追従制御など、既知の動的かつ無限の地平線を持つ非線形連続時間(CT)システムに対して、ほぼ最適なポリシーを求める手法であるRelaxed Continuous-Time Actor-critic (RCTAC)アルゴリズムを提案する。
RCTACは既存のCTシステムに対する適応動的プログラミングアルゴリズムに対していくつかの利点がある。
初期化ポリシーの ` `admissibility" や収束のための制御システムの入力-アフィンの性質は不要である。
代わりに、初期ポリシーが与えられた場合、RCTACは許容可能で、その後、飽和コントローラを持つ一般的な非線形システムに対してほぼ最適なポリシーに収束することができる。
rctacはウォームアップフェーズと一般的なポリシーイテレーションフェーズの2つのフェーズで構成されている。
ウォームアップフェーズはハミルトニアンの二乗を最小化し許容度を達成し、一般化されたポリシー反復フェーズはより高速な収束のために更新終了条件を緩和する。
アルゴリズムの収束と最適性はリアプノフ解析によって証明され、その効果はシミュレーションと実世界の経路追跡タスクによって実証される。
関連論文リスト
- Deterministic Policy Gradient Primal-Dual Methods for Continuous-Space Constrained MDPs [82.34567890576423]
我々は,非漸近収束を伴う最適決定主義政策を求めるための決定主義的政策勾配原始双対法を開発した。
D-PGPDの一次-双対反復は、最適正則化原始-双対にサブ線形速度で収束することが証明された。
我々の知る限り、これは連続空間制約型MDPに対する決定論的ポリシー探索法を提案する最初の研究であると思われる。
論文 参考訳(メタデータ) (2024-08-19T14:11:04Z) - Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Two-Stage ML-Guided Decision Rules for Sequential Decision Making under Uncertainty [55.06411438416805]
SDMU (Sequential Decision Making Under Uncertainty) は、エネルギー、金融、サプライチェーンといった多くの領域において、ユビキタスである。
いくつかのSDMUは、自然にマルチステージ問題(MSP)としてモデル化されているが、結果として得られる最適化は、計算の観点からは明らかに困難である。
本稿では,2段階の一般決定規則(TS-GDR)を導入し,線形関数を超えて政策空間を一般化する手法を提案する。
TS-GDRの有効性は、TS-LDR(Two-Stage Deep Decision Rules)と呼ばれるディープリカレントニューラルネットワークを用いたインスタンス化によって実証される。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - Fast Policy Learning for Linear Quadratic Control with Entropy
Regularization [10.771650397337366]
本稿では,レギュラー化政策勾配 (RPG) と反復政策最適化 (IPO) の2つの新しい政策学習手法を提案し,分析する。
正確な政策評価にアクセスできると仮定すると、どちらの手法も正規化されたLQCの最適ポリシーを見つける際に線形に収束することが証明される。
論文 参考訳(メタデータ) (2023-11-23T19:08:39Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - A Single-Loop Deep Actor-Critic Algorithm for Constrained Reinforcement Learning with Provable Convergence [7.586600116278698]
Deep Actor-Critic Network (DNN)は、Actor-Critic Network (DNN)とDeep Neural Network (DNN)を組み合わせたネットワークである。
Deep Actor-Critic Network (DNN)は、Actor-Critic Network (DNN)とDeep Neural Network (DNN)を組み合わせたネットワークである。
Deep Actor-Critic Network (DNN)は、Actor-Critic Network (DNN)とDeep Neural Network (DNN)を組み合わせたネットワークである。
Deep Actor-Critic Network (DNN)は、Actor-Critic Network (DNN)とDeep Neural Network (DNN)を組み合わせたネットワークである。
Deep Actor-Critic Network (DNN)
論文 参考訳(メタデータ) (2023-06-10T10:04:54Z) - Actor-Critic based Improper Reinforcement Learning [61.430513757337486]
我々は,未知のマルコフ決定プロセスに対して,学習者に100万ドルのベースコントローラを付与する不適切な強化学習環境を考える。
本稿では,(1)ポリシーグラディエントに基づくアプローチ,(2)単純なアクター・クリティカル・スキームとNatural Actor-Criticスキームを切り替えるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-19T05:55:02Z) - Learning Stochastic Parametric Differentiable Predictive Control
Policies [2.042924346801313]
本稿では、ニューラルネットワークポリシーの教師なし学習のための、パラメトリック微分可能予測制御(SP-DPC)と呼ばれるスケーラブルな代替手法を提案する。
SP-DPCはパラメトリック制約最適制御問題に対する決定論的近似として定式化される。
閉ループ制約と確率満足度に関するSP-DPC法を用いて学習したポリシーに関する理論的確率的保証を提供する。
論文 参考訳(メタデータ) (2022-03-02T22:46:32Z) - Online Algorithms and Policies Using Adaptive and Machine Learning
Approaches [0.22020053359163297]
非線形力学系の2つのクラスが考慮され、どちらも制御アフィンである。
本稿では,外ループにおける強化学習に基づくポリシーの組み合わせを,名目力学の安定性と最適性を確保するために好適に選択する。
リアルタイム制御による安定性保証の確立に加えて、AC-RLコントローラは、持続的な励振を伴うパラメータ学習につながることも示している。
論文 参考訳(メタデータ) (2021-05-13T22:51:25Z) - Improper Learning with Gradient-based Policy Optimization [62.50997487685586]
未知のマルコフ決定過程に対して学習者がmベースコントローラを与えられる不適切な強化学習設定を考える。
制御器の不適切な混合のクラス上で動作する勾配に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T14:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。