論文の概要: Global Convergence of Direct Policy Search for State-Feedback
$\mathcal{H}_\infty$ Robust Control: A Revisit of Nonsmooth Synthesis with
Goldstein Subdifferential
- arxiv url: http://arxiv.org/abs/2210.11577v1
- Date: Thu, 20 Oct 2022 20:33:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 16:22:38.711595
- Title: Global Convergence of Direct Policy Search for State-Feedback
$\mathcal{H}_\infty$ Robust Control: A Revisit of Nonsmooth Synthesis with
Goldstein Subdifferential
- Title(参考訳): 状態フィードバック$\mathcal{h}_\infty$ロバスト制御のための直接政策探索のグローバル収束:goldstein部分微分による非滑らか合成の再検討
- Authors: Xingang Guo, Bin Hu
- Abstract要約: 直接ポリシー探索は、グローバルなロバストな$mathcal_infty$状態探索問題を見つけることが保証されていることを示す。
定常点は、この非滑らかな最適化問題に対する最小の設計解である。
これらの性質に基づき、ゴールドスタインの劣次法とその実装可能な不変量は、実現不可能な集合に留まることを保証できることを示す。
- 参考スコア(独自算出の注目度): 3.9391112596932243
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Direct policy search has been widely applied in modern reinforcement learning
and continuous control. However, the theoretical properties of direct policy
search on nonsmooth robust control synthesis have not been fully understood.
The optimal $\mathcal{H}_\infty$ control framework aims at designing a policy
to minimize the closed-loop $\mathcal{H}_\infty$ norm, and is arguably the most
fundamental robust control paradigm. In this work, we show that direct policy
search is guaranteed to find the global solution of the robust
$\mathcal{H}_\infty$ state-feedback control design problem. Notice that policy
search for optimal $\mathcal{H}_\infty$ control leads to a constrained
nonconvex nonsmooth optimization problem, where the nonconvex feasible set
consists of all the policies stabilizing the closed-loop dynamics. We show that
for this nonsmooth optimization problem, all Clarke stationary points are
global minimum. Next, we identify the coerciveness of the closed-loop
$\mathcal{H}_\infty$ objective function, and prove that all the sublevel sets
of the resultant policy search problem are compact. Based on these properties,
we show that Goldstein's subgradient method and its implementable variants can
be guaranteed to stay in the nonconvex feasible set and eventually find the
global optimal solution of the $\mathcal{H}_\infty$ state-feedback synthesis
problem. Our work builds a new connection between nonconvex nonsmooth
optimization theory and robust control, leading to an interesting global
convergence result for direct policy search on optimal $\mathcal{H}_\infty$
synthesis.
- Abstract(参考訳): ダイレクトポリシー探索は、現代の強化学習と継続的制御に広く適用されている。
しかし、非スムースロバスト制御合成における直接ポリシー探索の理論的な性質は、完全には解明されていない。
最適な$\mathcal{h}_\infty$制御フレームワークは、閉じたループ$\mathcal{h}_\infty$ノルムを最小化するポリシーを設計することを目的としており、おそらく最も基本的なロバストな制御パラダイムである。
本研究では,ロバストな$\mathcal{h}_\infty$ state-feedback 制御設計問題の解を求めるために,直接ポリシー探索が保証されることを示す。
最適$\mathcal{H}_\infty$制御のポリシー探索は非凸非滑らかな最適化問題につながることに注意し、非凸可能集合は閉ループ力学を安定化するすべてのポリシーからなる。
この非滑らかな最適化問題に対して、クラークの静止点は全て大域的最小値であることを示す。
次に、閉ループ $\mathcal{h}_\infty$ の目的関数の強制性を特定し、結果のポリシー探索問題のすべての部分レベル集合がコンパクトであることを証明する。
これらの性質に基づき、goldsteinの劣勾配法とその実装可能な変種は、非凸実現可能集合に留まり、最終的に$\mathcal{h}_\infty$状態フィードバック合成問題の大域的最適解を見つけることができる。
我々の研究は、非凸非滑らかな最適化理論とロバスト制御との新たな接続を構築し、最適な$\mathcal{h}_\infty$合成に対する直接ポリシー探索のための興味深いグローバル収束結果をもたらす。
関連論文リスト
- Low-Switching Policy Gradient with Exploration via Online Sensitivity
Sampling [23.989009116398208]
一般非線形関数近似を用いた低スイッチングサンプリング効率ポリシ最適化アルゴリズム LPO を設計する。
提案アルゴリズムは,$widetildeO(fractextpoly(d)varepsilon3)$サンプルのみを用いて,$varepsilon$-optimal Policyを得る。
論文 参考訳(メタデータ) (2023-06-15T23:51:46Z) - Towards Painless Policy Optimization for Constrained MDPs [46.12526917024248]
我々は、無限の地平線における政策最適化、$gamma$-discounted constrained Markov decision process (CMDP)について研究する。
我々の目標は、小さな制約違反で大きな期待された報酬を達成する政策を返却することである。
本稿では,任意のアルゴリズムに対して,報酬の準最適性と制約違反を拘束できる汎用的原始双対フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-11T15:08:09Z) - Globally Convergent Policy Search over Dynamic Filters for Output
Estimation [64.90951294952094]
我々は,大域的に最適な$textitdynamic$ filterに収束する最初の直接ポリシー探索アルゴリズム凸を導入する。
我々は、情報化が前述の優越性を克服していることを示す。
論文 参考訳(メタデータ) (2022-02-23T18:06:20Z) - Homotopic Policy Mirror Descent: Policy Convergence, Implicit
Regularization, and Improved Sample Complexity [40.2022466644885]
有限状態と作用空間を持つ割引・無限水平型MDPを解くホモトピーポリシーミラー降下法(HPMD)法。
政策勾配法に関する文献では, 新たな3つの特性が報告されている。
論文 参考訳(メタデータ) (2022-01-24T04:54:58Z) - Understanding the Effect of Stochasticity in Policy Optimization [86.7574122154668]
最適化手法の優位性は、正確な勾配が用いられるかどうかに大きく依存することを示す。
次に,政策最適化におけるコミット率の概念を紹介する。
第三に、外部のオラクル情報がない場合には、収束を加速するために幾何を利用することと、最適性をほぼ確実に達成することとの間に本質的にトレードオフがあることが示される。
論文 参考訳(メタデータ) (2021-10-29T06:35:44Z) - On the Convergence and Sample Efficiency of Variance-Reduced Policy
Gradient Method [38.34416337932712]
政策は、例えばREINFORCEのようなリッチな強化学習(RL)手法を生み出します。
しかし、そのようなメソッドが$epsilon$-optimal Policyを見つけるための最もよく知られたサンプルの複雑さは$mathcalO(epsilon-3)$である。
第一次政策最適化法の基本収束特性とサンプル効率について検討する。
論文 参考訳(メタデータ) (2021-02-17T07:06:19Z) - CRPO: A New Approach for Safe Reinforcement Learning with Convergence
Guarantee [61.176159046544946]
安全強化学習(SRL)問題では、エージェントは期待される全報酬を最大化し、一定の制約の違反を避けるために環境を探索する。
これは、大域的最適ポリシーを持つSRLアルゴリズムの最初の分析である。
論文 参考訳(メタデータ) (2020-11-11T16:05:14Z) - Global Convergence of Policy Gradient for Linear-Quadratic Mean-Field
Control/Game in Continuous Time [109.06623773924737]
線形二乗平均場制御とゲームに対するポリシー勾配法について検討する。
線形速度で最適解に収束し, 合成シミュレーションにより検証した。
論文 参考訳(メタデータ) (2020-08-16T06:34:11Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z) - Naive Exploration is Optimal for Online LQR [49.681825576239355]
最適後悔尺度は$widetildeTheta(sqrtd_mathbfu2 d_mathbfx T)$で、$T$は時間ステップの数、$d_mathbfu$は入力空間の次元、$d_mathbfx$はシステム状態の次元である。
我々の下界は、かつての$mathrmpoly(logT)$-regretアルゴリズムの可能性を排除する。
論文 参考訳(メタデータ) (2020-01-27T03:44:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。