論文の概要: Approximate Midpoint Policy Iteration for Linear Quadratic Control
- arxiv url: http://arxiv.org/abs/2011.14212v3
- Date: Tue, 15 Feb 2022 18:58:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-19 20:03:19.642704
- Title: Approximate Midpoint Policy Iteration for Linear Quadratic Control
- Title(参考訳): 線形二次制御のための近似中点ポリシーイテレーション
- Authors: Benjamin Gravell, Iman Shames, Tyler Summers
- Abstract要約: モデルベースおよびモデルフリー設定の線形2次最適制御問題を解くために,中間点ポリシー反復アルゴリズムを提案する。
モデルに基づく設定では,2次収束と線形収束を両立させる標準方針反復法やポリシーアルゴリズムよりも優れている立方収束を実現する。
- 参考スコア(独自算出の注目度): 1.0312968200748118
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a midpoint policy iteration algorithm to solve linear quadratic
optimal control problems in both model-based and model-free settings. The
algorithm is a variation of Newton's method, and we show that in the
model-based setting it achieves cubic convergence, which is superior to
standard policy iteration and policy gradient algorithms that achieve quadratic
and linear convergence, respectively. We also demonstrate that the algorithm
can be approximately implemented without knowledge of the dynamics model by
using least-squares estimates of the state-action value function from
trajectory data, from which policy improvements can be obtained. With
sufficient trajectory data, the policy iterates converge cubically to
approximately optimal policies, and this occurs with the same available sample
budget as the approximate standard policy iteration. Numerical experiments
demonstrate effectiveness of the proposed algorithms.
- Abstract(参考訳): モデルベースおよびモデルフリー設定の線形2次最適制御問題を解くために,中間ポリシー反復アルゴリズムを提案する。
このアルゴリズムはニュートンの手法のバリエーションであり、モデルに基づく設定では2次収束と線形収束をそれぞれ達成する標準方針反復とポリシー勾配アルゴリズムよりも優れている立方収束を達成することを示す。
また, 軌道データから状態動作値関数の最小二乗推定を用いて, ダイナミクスモデルの知識を使わずに近似的にアルゴリズムを実装できることを実証した。
十分な軌跡データにより、ポリシーは概略的に最適なポリシーに収束し、これはおよその標準方針の繰り返しと同じ利用可能なサンプル予算で発生する。
数値実験により提案アルゴリズムの有効性が示された。
関連論文リスト
- Deterministic Policy Gradient Primal-Dual Methods for Continuous-Space Constrained MDPs [82.34567890576423]
我々は,非漸近収束を伴う最適決定主義政策を求めるための決定主義的政策勾配原始双対法を開発した。
D-PGPDの一次-双対反復は、最適正則化原始-双対にサブ線形速度で収束することが証明された。
我々の知る限り、これは連続空間制約型MDPに対する決定論的ポリシー探索法を提案する最初の研究であると思われる。
論文 参考訳(メタデータ) (2024-08-19T14:11:04Z) - Deterministic Trajectory Optimization through Probabilistic Optimal Control [3.2771631221674333]
離散時間決定論的有限水平非線形最適制御問題に対する2つの新しいアルゴリズムを提案する。
どちらのアルゴリズムも確率論的最適制御として知られる新しい理論パラダイムにインスパイアされている。
このアルゴリズムの適用により、決定論的最適ポリシーに収束する確率的ポリシーの定点が得られることを示す。
論文 参考訳(メタデータ) (2024-07-18T09:17:47Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - High-probability sample complexities for policy evaluation with linear function approximation [88.87036653258977]
本研究では,2つの広く利用されている政策評価アルゴリズムに対して,最適線形係数の予め定義された推定誤差を保証するために必要なサンプル複素量について検討する。
高確率収束保証に縛られた最初のサンプル複雑性を確立し、許容レベルへの最適依存を実現する。
論文 参考訳(メタデータ) (2023-05-30T12:58:39Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Sample Complexity of Policy-Based Methods under Off-Policy Sampling and
Linear Function Approximation [8.465228064780748]
政策評価には、オフ政治サンプリングと線形関数近似を用いる。
自然政策勾配(NPG)を含む様々な政策更新規則が政策更新のために検討されている。
我々は、最適なポリシーを見つけるために、合計$mathcalO(epsilon-2)$サンプルの複雑さを初めて確立する。
論文 参考訳(メタデータ) (2022-08-05T15:59:05Z) - Reinforcement Learning for Adaptive Optimal Stationary Control of Linear
Stochastic Systems [15.410124023805249]
本稿では,加法雑音と乗法雑音を併用した連続時間線形系の最適定常制御について検討する。
楽観的な最小二乗法に基づく反復法則という,非政治強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-16T09:27:02Z) - Average-Reward Off-Policy Policy Evaluation with Function Approximation [66.67075551933438]
平均報酬MDPの関数近似によるオフポリシ政策評価を検討する。
ブートストラップは必要であり、オフポリシ学習とFAと一緒に、致命的なトライアドをもたらす。
そこで本研究では,勾配型tdアルゴリズムの成功を再現する2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-08T00:43:04Z) - Policy Gradient Methods for the Noisy Linear Quadratic Regulator over a
Finite Horizon [3.867363075280544]
線形2次レギュレータ(LQR)問題における最適ポリシーを見つけるための強化学習法について検討する。
我々は、有限時間地平線と弱い仮定の下での状態ダイナミクスの設定に対する大域的線形収束を保証する。
基礎となるダイナミクスのモデルを仮定し、データに直接メソッドを適用する場合の結果を示す。
論文 参考訳(メタデータ) (2020-11-20T09:51:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。