論文の概要: Derivative-Free Policy Optimization for Risk-Sensitive and Robust
Control Design: Implicit Regularization and Sample Complexity
- arxiv url: http://arxiv.org/abs/2101.01041v1
- Date: Mon, 4 Jan 2021 16:00:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-11 22:57:49.852610
- Title: Derivative-Free Policy Optimization for Risk-Sensitive and Robust
Control Design: Implicit Regularization and Sample Complexity
- Title(参考訳): リスク感性・ロバスト制御設計のためのデリバティブフリーポリシー最適化:暗黙の正規化とサンプル複雑度
- Authors: Kaiqing Zhang, Xiangyuan Zhang, Bin Hu, Tamer Ba\c{s}ar
- Abstract要約: 直接政策検索は、現代の強化学習(RL)の作業馬の1つとして役立ちます。
線形リスク感知型ロバストコントローラにおける政策ロバスト性(PG)手法の収束理論について検討する。
私たちのアルゴリズムの特徴の1つは、学習フェーズ中に特定のレベルの複雑さ/リスク感受性コントローラが保持されるということです。
- 参考スコア(独自算出の注目度): 15.940861063732608
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Direct policy search serves as one of the workhorses in modern reinforcement
learning (RL), and its applications in continuous control tasks have recently
attracted increasing attention. In this work, we investigate the convergence
theory of policy gradient (PG) methods for learning the linear risk-sensitive
and robust controller. In particular, we develop PG methods that can be
implemented in a derivative-free fashion by sampling system trajectories, and
establish both global convergence and sample complexity results in the
solutions of two fundamental settings in risk-sensitive and robust control: the
finite-horizon linear exponential quadratic Gaussian, and the finite-horizon
linear-quadratic disturbance attenuation problems. As a by-product, our results
also provide the first sample complexity for the global convergence of PG
methods on solving zero-sum linear-quadratic dynamic games, a
nonconvex-nonconcave minimax optimization problem that serves as a baseline
setting in multi-agent reinforcement learning (MARL) with continuous spaces.
One feature of our algorithms is that during the learning phase, a certain
level of robustness/risk-sensitivity of the controller is preserved, which we
termed as the implicit regularization property, and is an essential requirement
in safety-critical control systems.
- Abstract(参考訳): 直接政策探索は、現代強化学習(RL)におけるワークホースの1つであり、その継続的制御タスクへの応用が近年注目を集めている。
本研究では,線形リスク感性とロバスト性を有する制御器を学習するための政策勾配法(PG法)の収束理論について検討する。
特に,システムトラジェクトリをサンプリングすることで,微分自由な手法で実装可能なPG法を開発し,リスク感受性とロバスト性制御の2つの基本的設定 – 有限ホライズン線型指数二次ガウス問題と有限ホライズン線形2次外乱減衰問題 – の解として,大域収束とサンプル複雑性の両立を図った。
副産物として,マルチエージェント強化学習 (marl) のベースラインとなる非凸-非凸ミニマックス最適化問題であるゼロサム線形-四次動的ゲームを解くためのpg法の大域収束に関する最初のサンプル複雑性を提供する。
このアルゴリズムの特徴の一つは、学習段階において、制御器の頑健さ/リスク感度の一定レベルを保ち、暗黙の正規化特性と呼ばれ、安全クリティカルな制御システムにおいて必須の要件であるということである。
関連論文リスト
- Real-Time Adaptive Safety-Critical Control with Gaussian Processes in
High-Order Uncertain Models [14.790031018404942]
本稿では,不確実なパラメータを持つシステムを対象とした適応型オンライン学習フレームワークを提案する。
まず,差分スパースGPアルゴリズムを改良するために,まず忘れ係数を積分する。
第2フェーズでは,高次制御バリア関数に基づく安全フィルタを提案する。
論文 参考訳(メタデータ) (2024-02-29T08:25:32Z) - Sharp high-probability sample complexities for policy evaluation with
linear function approximation [99.51752176624818]
本研究では,2つの広く利用されている政策評価アルゴリズムに対して,最適線形係数の予め定義された推定誤差を保証するために必要なサンプル複素量について検討する。
高確率収束保証に縛られた最初のサンプル複雑性を確立し、許容レベルへの最適依存を実現する。
論文 参考訳(メタデータ) (2023-05-30T12:58:39Z) - Fully Stochastic Trust-Region Sequential Quadratic Programming for
Equality-Constrained Optimization Problems [62.83783246648714]
目的と決定論的等式制約による非線形最適化問題を解くために,逐次2次プログラミングアルゴリズム(TR-StoSQP)を提案する。
アルゴリズムは信頼領域半径を適応的に選択し、既存の直線探索StoSQP方式と比較して不確定なヘッセン行列を利用することができる。
論文 参考訳(メタデータ) (2022-11-29T05:52:17Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - Primal-dual Learning for the Model-free Risk-constrained Linear
Quadratic Regulator [0.8629912408966145]
リスク対応コントロールは、予期せぬイベントに取り組むことを約束しながら、既知のダイナミックなモデルを必要とする。
本稿では,線形システムに着目したリスク対応制御系を学習するためのモデルフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-22T04:40:15Z) - Policy Gradient Methods for the Noisy Linear Quadratic Regulator over a
Finite Horizon [3.867363075280544]
線形2次レギュレータ(LQR)問題における最適ポリシーを見つけるための強化学習法について検討する。
我々は、有限時間地平線と弱い仮定の下での状態ダイナミクスの設定に対する大域的線形収束を保証する。
基礎となるダイナミクスのモデルを仮定し、データに直接メソッドを適用する場合の結果を示す。
論文 参考訳(メタデータ) (2020-11-20T09:51:49Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Robust Reinforcement Learning: A Case Study in Linear Quadratic
Regulation [23.76925146112261]
本稿では,学習過程における誤りに対する強化学習アルゴリズムの堅牢性について検討する。
LQRのポリシーイテレーションは、学習過程における小さなエラーに対して本質的に堅牢であることが示されている。
論文 参考訳(メタデータ) (2020-08-25T11:11:28Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。