論文の概要: Policy Gradient Methods for the Noisy Linear Quadratic Regulator over a
Finite Horizon
- arxiv url: http://arxiv.org/abs/2011.10300v2
- Date: Wed, 23 Jun 2021 18:46:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 06:32:53.238777
- Title: Policy Gradient Methods for the Noisy Linear Quadratic Regulator over a
Finite Horizon
- Title(参考訳): 有限地平線上の騒音線形二次レギュレータのポリシー勾配法
- Authors: Ben Hambly, Renyuan Xu and Huining Yang
- Abstract要約: 線形2次レギュレータ(LQR)問題における最適ポリシーを見つけるための強化学習法について検討する。
我々は、有限時間地平線と弱い仮定の下での状態ダイナミクスの設定に対する大域的線形収束を保証する。
基礎となるダイナミクスのモデルを仮定し、データに直接メソッドを適用する場合の結果を示す。
- 参考スコア(独自算出の注目度): 3.867363075280544
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We explore reinforcement learning methods for finding the optimal policy in
the linear quadratic regulator (LQR) problem. In particular, we consider the
convergence of policy gradient methods in the setting of known and unknown
parameters. We are able to produce a global linear convergence guarantee for
this approach in the setting of finite time horizon and stochastic state
dynamics under weak assumptions. The convergence of a projected policy gradient
method is also established in order to handle problems with constraints. We
illustrate the performance of the algorithm with two examples. The first
example is the optimal liquidation of a holding in an asset. We show results
for the case where we assume a model for the underlying dynamics and where we
apply the method to the data directly. The empirical evidence suggests that the
policy gradient method can learn the global optimal solution for a larger class
of stochastic systems containing the LQR framework and that it is more robust
with respect to model mis-specification when compared to a model-based
approach. The second example is an LQR system in a higher dimensional setting
with synthetic data.
- Abstract(参考訳): 線形二次レギュレータ(lqr)問題における最適方針を求めるための強化学習法について検討する。
特に、既知のパラメータと未知パラメータの設定におけるポリシー勾配法の収束について考察する。
弱仮定下での有限時間地平線と確率状態ダイナミクスの設定において、このアプローチに対する大域的線形収束保証を作成できる。
また,制約問題に対処するために,計画された方針勾配法の収束性も確立した。
アルゴリズムの性能を2つの例で説明する。
最初の例は、資産の持ち株の最適清算である。
基礎となるダイナミクスのモデルを仮定し、その手法をデータに直接適用する場合の結果を示す。
実証的な証拠は、政策勾配法がLQRフレームワークを含むより大規模な確率系の大域的最適解を学習し、モデルベースアプローチと比較してモデルミス特定に関してより堅牢であることを示唆している。
第二の例は合成データを用いた高次元設定におけるLQRシステムである。
関連論文リスト
- Deterministic Policy Gradient Primal-Dual Methods for Continuous-Space Constrained MDPs [82.34567890576423]
我々は,非漸近収束を伴う最適決定主義政策を求めるための決定主義的政策勾配原始双対法を開発した。
D-PGPDの一次-双対反復は、最適正則化原始-双対にサブ線形速度で収束することが証明された。
我々の知る限り、これは連続空間制約型MDPに対する決定論的ポリシー探索法を提案する最初の研究であると思われる。
論文 参考訳(メタデータ) (2024-08-19T14:11:04Z) - Full error analysis of policy gradient learning algorithms for exploratory linear quadratic mean-field control problem in continuous time with common noise [0.0]
政策勾配学習(PG)について検討し,まずモデルベース環境での収束を実証する。
モデルフリー環境では,2点勾配推定を用いたPGアルゴリズムの線形収束とサンプル複雑性を大域的に証明する。
この設定では、パラメータ化された最適ポリシーは、状態と人口分布のサンプルから学習される。
論文 参考訳(メタデータ) (2024-08-05T14:11:51Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Optimization Landscape of Policy Gradient Methods for Discrete-time
Static Output Feedback [22.21598324895312]
本稿では,静的な出力フィードバック制御に適用した場合に,ポリシー勾配法に固有の最適化環境を解析する。
3つの政策勾配法に対する定常点への収束(およびほぼ次元自由率)に関する新しい知見を導出する。
我々は,バニラポリシー勾配法が,そのようなミニマに近づいた場合,局所最小マに対して線形収束を示すことを示す。
論文 参考訳(メタデータ) (2023-10-29T14:25:57Z) - High-probability sample complexities for policy evaluation with linear function approximation [88.87036653258977]
本研究では,2つの広く利用されている政策評価アルゴリズムに対して,最適線形係数の予め定義された推定誤差を保証するために必要なサンプル複素量について検討する。
高確率収束保証に縛られた最初のサンプル複雑性を確立し、許容レベルへの最適依存を実現する。
論文 参考訳(メタデータ) (2023-05-30T12:58:39Z) - Linear Convergence of Natural Policy Gradient Methods with Log-Linear
Policies [115.86431674214282]
我々は、無限水平割引マルコフ決定過程を考察し、自然政策勾配(NPG)とQ-NPG法の収束率を対数線形ポリシークラスで検討する。
両手法が線形収束率と $mathcalO (1/epsilon2)$サンプル複雑度を, 単純で非適応的な幾何的に増加するステップサイズを用いて達成できることを示す。
論文 参考訳(メタデータ) (2022-10-04T06:17:52Z) - Convergence and sample complexity of natural policy gradient primal-dual methods for constrained MDPs [21.347689976296834]
我々は、割引された最適レート問題を解くために、自然政策勾配法を用いる。
また、2つのサンプルベースNPG-PDアルゴリズムに対して収束と有限サンプル保証を提供する。
論文 参考訳(メタデータ) (2022-06-06T04:28:04Z) - GELATO: Geometrically Enriched Latent Model for Offline Reinforcement
Learning [54.291331971813364]
オフライン強化学習アプローチは、近近法と不確実性認識法に分けられる。
本研究では,この2つを潜在変動モデルに組み合わせることのメリットを実証する。
提案したメトリクスは、分布サンプルのアウトの品質と、データ内のサンプルの不一致の両方を測定します。
論文 参考訳(メタデータ) (2021-02-22T19:42:40Z) - Improper Learning with Gradient-based Policy Optimization [62.50997487685586]
未知のマルコフ決定過程に対して学習者がmベースコントローラを与えられる不適切な強化学習設定を考える。
制御器の不適切な混合のクラス上で動作する勾配に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T14:53:55Z) - Approximate Midpoint Policy Iteration for Linear Quadratic Control [1.0312968200748118]
モデルベースおよびモデルフリー設定の線形2次最適制御問題を解くために,中間点ポリシー反復アルゴリズムを提案する。
モデルに基づく設定では,2次収束と線形収束を両立させる標準方針反復法やポリシーアルゴリズムよりも優れている立方収束を実現する。
論文 参考訳(メタデータ) (2020-11-28T20:22:10Z) - Policy Optimization for Markovian Jump Linear Quadratic Control:
Gradient-Based Methods and Global Convergence [3.3343656101775365]
3種類のポリシー最適化手法が勾配でMJLSの最適状態コントローラに収束していることを示します。コントローラーでは、ジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプジャンプ
論文 参考訳(メタデータ) (2020-11-24T02:39:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。