Fugu-MT 論文翻訳(概要): Derivative-Free Policy Optimization for Risk-Sensitive and Robust Control Design: Implicit Regularization and Sample Complexity

論文の概要: Derivative-Free Policy Optimization for Risk-Sensitive and Robust Control Design: Implicit Regularization and Sample Complexity

arxiv url: http://arxiv.org/abs/2101.01041v1
Date: Mon, 4 Jan 2021 16:00:46 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-11 22:57:49.852610
Title: Derivative-Free Policy Optimization for Risk-Sensitive and Robust Control Design: Implicit Regularization and Sample Complexity
Title（参考訳）: リスク感性・ロバスト制御設計のためのデリバティブフリーポリシー最適化:暗黙の正規化とサンプル複雑度
Authors: Kaiqing Zhang, Xiangyuan Zhang, Bin Hu, Tamer Ba\c{s}ar
Abstract要約: 直接政策検索は、現代の強化学習(RL)の作業馬の1つとして役立ちます。線形リスク感知型ロバストコントローラにおける政策ロバスト性(PG)手法の収束理論について検討する。私たちのアルゴリズムの特徴の1つは、学習フェーズ中に特定のレベルの複雑さ/リスク感受性コントローラが保持されるということです。
参考スコア（独自算出の注目度）: 15.940861063732608
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Direct policy search serves as one of the workhorses in modern reinforcement learning (RL), and its applications in continuous control tasks have recently attracted increasing attention. In this work, we investigate the convergence theory of policy gradient (PG) methods for learning the linear risk-sensitive and robust controller. In particular, we develop PG methods that can be implemented in a derivative-free fashion by sampling system trajectories, and establish both global convergence and sample complexity results in the solutions of two fundamental settings in risk-sensitive and robust control: the finite-horizon linear exponential quadratic Gaussian, and the finite-horizon linear-quadratic disturbance attenuation problems. As a by-product, our results also provide the first sample complexity for the global convergence of PG methods on solving zero-sum linear-quadratic dynamic games, a nonconvex-nonconcave minimax optimization problem that serves as a baseline setting in multi-agent reinforcement learning (MARL) with continuous spaces. One feature of our algorithms is that during the learning phase, a certain level of robustness/risk-sensitivity of the controller is preserved, which we termed as the implicit regularization property, and is an essential requirement in safety-critical control systems.
Abstract（参考訳）: 直接政策探索は、現代強化学習(RL)におけるワークホースの1つであり、その継続的制御タスクへの応用が近年注目を集めている。本研究では,線形リスク感性とロバスト性を有する制御器を学習するための政策勾配法(PG法)の収束理論について検討する。特に,システムトラジェクトリをサンプリングすることで,微分自由な手法で実装可能なPG法を開発し,リスク感受性とロバスト性制御の2つの基本的設定 – 有限ホライズン線型指数二次ガウス問題と有限ホライズン線形2次外乱減衰問題 – の解として,大域収束とサンプル複雑性の両立を図った。副産物として,マルチエージェント強化学習 (marl) のベースラインとなる非凸-非凸ミニマックス最適化問題であるゼロサム線形-四次動的ゲームを解くためのpg法の大域収束に関する最初のサンプル複雑性を提供する。このアルゴリズムの特徴の一つは、学習段階において、制御器の頑健さ/リスク感度の一定レベルを保ち、暗黙の正規化特性と呼ばれ、安全クリティカルな制御システムにおいて必須の要件であるということである。

関連論文リスト

Policy Gradient for LQR with Domain Randomization [25.387541996071093]
ドメインランダム化(DR)は、シミュレーション環境の分布に基づいて、コントローラをトレーニングすることで、sim-to-real転送を可能にする。ドメインランダム化線形二次規則(LQR)のためのポリシー勾配法(PG法)の第1収束解析を提供する。我々は,サンプル平均値と集団レベルの目標値の差を小さくすることに伴う試料複雑度を定量化する。
論文参考訳（メタデータ） (2025-03-31T17:51:00Z)
Sample Complexity of Linear Quadratic Regulator Without Initial Stability [11.98212766542468]
ReINFORCEに触発されて、未知のパラメータを持つ線形二次レギュレータ(LQR)問題に対して、新しい回帰水平アルゴリズムを導入する。従来の手法とは異なり、本アルゴリズムはサンプルの複雑さの順序を同じに保ちながら、2点勾配推定に依存することを回避している。
論文参考訳（メタデータ） (2025-02-20T02:44:25Z)
Full error analysis of policy gradient learning algorithms for exploratory linear quadratic mean-field control problem in continuous time with common noise [0.0]
政策勾配学習(PG)について検討し,まずモデルベース環境での収束を実証する。モデルフリー環境では,2点勾配推定を用いたPGアルゴリズムの線形収束とサンプル複雑性を大域的に証明する。この設定では、パラメータ化された最適ポリシーは、状態と人口分布のサンプルから学習される。
論文参考訳（メタデータ） (2024-08-05T14:11:51Z)
Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文参考訳（メタデータ） (2024-07-15T14:54:57Z)
Offline RL via Feature-Occupancy Gradient Ascent [9.983014605039658]
大規模無限水平割引マルコフ決定過程(MDP)におけるオフライン強化学習の研究我々は,特徴占有空間における勾配上昇の形式を実行する新しいアルゴリズムを開発した。結果として得られた単純なアルゴリズムは、強い計算とサンプルの複雑さの保証を満たすことを示す。
論文参考訳（メタデータ） (2024-05-22T15:39:05Z)
Real-Time Adaptive Safety-Critical Control with Gaussian Processes in High-Order Uncertain Models [14.790031018404942]
本稿では,不確実なパラメータを持つシステムを対象とした適応型オンライン学習フレームワークを提案する。まず,差分スパースGPアルゴリズムを改良するために,まず忘れ係数を積分する。第2フェーズでは,高次制御バリア関数に基づく安全フィルタを提案する。
論文参考訳（メタデータ） (2024-02-29T08:25:32Z)
High-probability sample complexities for policy evaluation with linear function approximation [88.87036653258977]
本研究では,2つの広く利用されている政策評価アルゴリズムに対して,最適線形係数の予め定義された推定誤差を保証するために必要なサンプル複素量について検討する。高確率収束保証に縛られた最初のサンプル複雑性を確立し、許容レベルへの最適依存を実現する。
論文参考訳（メタデータ） (2023-05-30T12:58:39Z)
Log Barriers for Safe Black-box Optimization with Application to Safe Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。 LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文参考訳（メタデータ） (2022-07-21T11:14:47Z)
Policy Mirror Descent for Regularized Reinforcement Learning: A Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文参考訳（メタデータ） (2021-05-24T02:21:34Z)
Policy Gradient Methods for the Noisy Linear Quadratic Regulator over a Finite Horizon [3.867363075280544]
線形2次レギュレータ(LQR)問題における最適ポリシーを見つけるための強化学習法について検討する。我々は、有限時間地平線と弱い仮定の下での状態ダイナミクスの設定に対する大域的線形収束を保証する。基礎となるダイナミクスのモデルを仮定し、データに直接メソッドを適用する場合の結果を示す。
論文参考訳（メタデータ） (2020-11-20T09:51:49Z)
Gaussian Process-based Min-norm Stabilizing Controller for Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文参考訳（メタデータ） (2020-11-14T01:27:32Z)
Robust Reinforcement Learning: A Case Study in Linear Quadratic Regulation [23.76925146112261]
本稿では,学習過程における誤りに対する強化学習アルゴリズムの堅牢性について検討する。 LQRのポリシーイテレーションは、学習過程における小さなエラーに対して本質的に堅牢であることが示されている。
論文参考訳（メタデータ） (2020-08-25T11:11:28Z)
Adaptive Control and Regret Minimization in Linear Quadratic Gaussian (LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。 LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文参考訳（メタデータ） (2020-03-12T19:56:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。