論文の概要: Policy Gradient Converges to the Globally Optimal Policy for Nearly
Linear-Quadratic Regulators
- arxiv url: http://arxiv.org/abs/2303.08431v2
- Date: Thu, 23 Mar 2023 07:02:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 17:03:13.436480
- Title: Policy Gradient Converges to the Globally Optimal Policy for Nearly
Linear-Quadratic Regulators
- Title(参考訳): ニアリニア量子レギュレータのグローバル最適政策への政策勾配の収束
- Authors: Yinbin Han, Meisam Razaviyayn and Renyuan Xu
- Abstract要約: 準線形2次制御系における最適速度について検討する。
本稿では、勾配アルゴリズムを用いて、グローバルな最適レートで保証されるポリシーを提案する。
- 参考スコア(独自算出の注目度): 11.83842808044211
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Nonlinear control systems with partial information to the decision maker are
prevalent in a variety of applications. As a step toward studying such
nonlinear systems, this work explores reinforcement learning methods for
finding the optimal policy in the nearly linear-quadratic regulator systems. In
particular, we consider a dynamic system that combines linear and nonlinear
components, and is governed by a policy with the same structure. Assuming that
the nonlinear component comprises kernels with small Lipschitz coefficients, we
characterize the optimization landscape of the cost function. Although the cost
function is nonconvex in general, we establish the local strong convexity and
smoothness in the vicinity of the global optimizer. Additionally, we propose an
initialization mechanism to leverage these properties. Building on the
developments, we design a policy gradient algorithm that is guaranteed to
converge to the globally optimal policy with a linear rate.
- Abstract(参考訳): 意思決定者に部分的な情報を与える非線形制御システムは、様々なアプリケーションで広く使われている。
このような非線形システムの研究の一歩として, ほぼ線形2次制御系における最適政策を見つけるための強化学習手法を検討する。
特に、線形成分と非線形成分を結合し、同じ構造を持つポリシーによって制御される動的システムを考える。
非線形成分が小さなリプシッツ係数を持つカーネルからなると仮定すると、コスト関数の最適化景観を特徴づける。
コスト関数は一般に非凸であるが、大域最適化器の近傍で局所的な強い凸性と滑らか性を確立する。
さらに,これらの特性を利用する初期化機構を提案する。
開発を基盤として,線形レートでグローバルな最適政策に収束することが保証される政策勾配アルゴリズムを設計する。
関連論文リスト
- Pessimistic Nonlinear Least-Squares Value Iteration for Offline Reinforcement Learning [53.97335841137496]
非線形関数近似を用いたオフラインRLにおけるPNLSVI(Pessimistic Least-Square Value Iteration)と呼ばれるオラクル効率のアルゴリズムを提案する。
本アルゴリズムは,関数クラスの複雑性に強く依存する後悔境界を享受し,線形関数近似に特化して最小限のインスタンス依存後悔を実現する。
論文 参考訳(メタデータ) (2023-10-02T17:42:01Z) - Best of Both Worlds in Online Control: Competitive Ratio and Policy
Regret [61.59646565655169]
我々は,最近提案されたオンライン制御アルゴリズムが,両世界のベストを達成していることを示す。
線形力学系が未知の場合には, 準線形後悔対最適競争政策が達成可能であると結論づける。
論文 参考訳(メタデータ) (2022-11-21T07:29:08Z) - Neural System Level Synthesis: Learning over All Stabilizing Policies
for Nonlinear Systems [0.0]
本稿では,パラメータ最適化における閉ループ安定性を保証するニューラルSLS(Neur-SLS)手法を提案する。
本稿では,Recurrent Equilibrium Networks (RENs) に基づく最近のDeep Neural Network (DNN) モデルを用いて,非線形安定演算子の豊富なクラスについて学習する。
論文 参考訳(メタデータ) (2022-03-22T15:22:31Z) - Learning over All Stabilizing Nonlinear Controllers for a
Partially-Observed Linear System [4.3012765978447565]
線形力学系に対する非線形出力フィードバックコントローラのパラメータ化を提案する。
提案手法は, 制約を満たすことなく, 部分的に観測可能な線形力学系の閉ループ安定性を保証する。
論文 参考訳(メタデータ) (2021-12-08T10:43:47Z) - Youla-REN: Learning Nonlinear Feedback Policies with Robust Stability
Guarantees [5.71097144710995]
本稿では,最近開発されたニューラルネットワークアーキテクチャ上に構築された不確実性システムに対する非線形制御器のパラメータ化について述べる。
提案したフレームワークは、安定性の保証、すなわち、検索空間におけるすべてのポリシーが、契約(グローバルに指数関数的に安定した)クローズドループシステムをもたらすことを保証する。
論文 参考訳(メタデータ) (2021-12-02T13:52:37Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - On the Stability of Nonlinear Receding Horizon Control: A Geometric
Perspective [72.7951562665449]
産業における非線形回帰制御(RHC)戦略の広範な採用には30年以上がかかる。
本稿では,グローバル・ジオメトリの役割を理解するための第一歩として,グローバル・ベース・コントロールの役割について述べる。
論文 参考訳(メタデータ) (2021-03-27T22:59:37Z) - Provably Correct Optimization and Exploration with Non-linear Policies [65.60853260886516]
ENIACは、批評家の非線形関数近似を可能にするアクター批判手法である。
特定の仮定の下では、学習者は$o(poly(d))$の探索ラウンドで最適に近い方針を見つける。
我々は,この適応を経験的に評価し,線形手法に触発された前処理よりも優れることを示す。
論文 参考訳(メタデータ) (2021-03-22T03:16:33Z) - Improper Learning with Gradient-based Policy Optimization [62.50997487685586]
未知のマルコフ決定過程に対して学習者がmベースコントローラを与えられる不適切な強化学習設定を考える。
制御器の不適切な混合のクラス上で動作する勾配に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T14:53:55Z) - Policy Gradient Methods for the Noisy Linear Quadratic Regulator over a
Finite Horizon [3.867363075280544]
線形2次レギュレータ(LQR)問題における最適ポリシーを見つけるための強化学習法について検討する。
我々は、有限時間地平線と弱い仮定の下での状態ダイナミクスの設定に対する大域的線形収束を保証する。
基礎となるダイナミクスのモデルを仮定し、データに直接メソッドを適用する場合の結果を示す。
論文 参考訳(メタデータ) (2020-11-20T09:51:49Z) - The Power of Linear Controllers in LQR Control [39.76359052907755]
我々は3つの異なる統制政策の間の後悔の政策を計算します。
最適オフライン線形ポリシーのコストは、最適オンラインポリシーのコストに収束することを示す。
ノイズの所在に焦点をあてるが, 適応的相手が雑音を選択すると, 満足できる政策に新たな下限が生じることが示唆される。
論文 参考訳(メタデータ) (2020-02-07T00:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。