Fugu-MT 論文翻訳(概要): Approximate Midpoint Policy Iteration for Linear Quadratic Control

論文の概要: Approximate Midpoint Policy Iteration for Linear Quadratic Control

arxiv url: http://arxiv.org/abs/2011.14212v3
Date: Tue, 15 Feb 2022 18:58:42 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-19 20:03:19.642704
Title: Approximate Midpoint Policy Iteration for Linear Quadratic Control
Title（参考訳）: 線形二次制御のための近似中点ポリシーイテレーション
Authors: Benjamin Gravell, Iman Shames, Tyler Summers
Abstract要約: モデルベースおよびモデルフリー設定の線形2次最適制御問題を解くために,中間点ポリシー反復アルゴリズムを提案する。モデルに基づく設定では,2次収束と線形収束を両立させる標準方針反復法やポリシーアルゴリズムよりも優れている立方収束を実現する。
参考スコア（独自算出の注目度）: 1.0312968200748118
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present a midpoint policy iteration algorithm to solve linear quadratic optimal control problems in both model-based and model-free settings. The algorithm is a variation of Newton's method, and we show that in the model-based setting it achieves cubic convergence, which is superior to standard policy iteration and policy gradient algorithms that achieve quadratic and linear convergence, respectively. We also demonstrate that the algorithm can be approximately implemented without knowledge of the dynamics model by using least-squares estimates of the state-action value function from trajectory data, from which policy improvements can be obtained. With sufficient trajectory data, the policy iterates converge cubically to approximately optimal policies, and this occurs with the same available sample budget as the approximate standard policy iteration. Numerical experiments demonstrate effectiveness of the proposed algorithms.
Abstract（参考訳）: モデルベースおよびモデルフリー設定の線形2次最適制御問題を解くために,中間ポリシー反復アルゴリズムを提案する。このアルゴリズムはニュートンの手法のバリエーションであり、モデルに基づく設定では2次収束と線形収束をそれぞれ達成する標準方針反復とポリシー勾配アルゴリズムよりも優れている立方収束を達成することを示す。また, 軌道データから状態動作値関数の最小二乗推定を用いて, ダイナミクスモデルの知識を使わずに近似的にアルゴリズムを実装できることを実証した。十分な軌跡データにより、ポリシーは概略的に最適なポリシーに収束し、これはおよその標準方針の繰り返しと同じ利用可能なサンプル予算で発生する。数値実験により提案アルゴリズムの有効性が示された。

関連論文リスト

RL-finetuning LLMs from on- and off-policy data with a single algorithm [53.70731390624718]
大規模言語モデルを微調整するための新しい強化学習アルゴリズム(AGRO)を提案する。 AGROは生成整合性の概念を利用しており、最適ポリシーはモデルの任意の世代間での整合性の概念を満たすと述べている。サンプルベースの政策勾配による最適解を求めるアルゴリズムを導出し,その収束に関する理論的保証を提供する。
論文参考訳（メタデータ） (2025-03-25T12:52:38Z)
Achieving $\widetilde{\mathcal{O}}(\sqrt{T})$ Regret in Average-Reward POMDPs with Known Observation Models [56.92178753201331]
平均逆無限水平POMDPを未知の遷移モデルで扱う。この障壁を克服する斬新でシンプルな推定器を提示する。
論文参考訳（メタデータ） (2025-01-30T22:29:41Z)
Deterministic Policy Gradient Primal-Dual Methods for Continuous-Space Constrained MDPs [82.34567890576423]
我々は,非漸近収束を伴う最適決定主義政策を求めるための決定主義的政策勾配原始双対法を開発した。 D-PGPDの一次-双対反復は、最適正則化原始-双対にサブ線形速度で収束することが証明された。我々の知る限り、これは連続空間制約型MDPに対する決定論的ポリシー探索法を提案する最初の研究であると思われる。
論文参考訳（メタデータ） (2024-08-19T14:11:04Z)
Deterministic Trajectory Optimization through Probabilistic Optimal Control [3.2771631221674333]
離散時間決定論的有限水平非線形最適制御問題に対する2つの新しいアルゴリズムを提案する。どちらのアルゴリズムも確率論的最適制御として知られる新しい理論パラダイムにインスパイアされている。このアルゴリズムの適用により、決定論的最適ポリシーに収束する確率的ポリシーの定点が得られることを示す。
論文参考訳（メタデータ） (2024-07-18T09:17:47Z)
Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文参考訳（メタデータ） (2023-10-03T10:52:21Z)
Last-Iterate Convergent Policy Gradient Primal-Dual Methods for Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文参考訳（メタデータ） (2023-06-20T17:27:31Z)
High-probability sample complexities for policy evaluation with linear function approximation [88.87036653258977]
本研究では,2つの広く利用されている政策評価アルゴリズムに対して,最適線形係数の予め定義された推定誤差を保証するために必要なサンプル複素量について検討する。高確率収束保証に縛られた最初のサンプル複雑性を確立し、許容レベルへの最適依存を実現する。
論文参考訳（メタデータ） (2023-05-30T12:58:39Z)
Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。 IRLの多くのアルゴリズムは本質的にネスト構造を持つ。我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文参考訳（メタデータ） (2022-10-04T17:13:45Z)
Sample Complexity of Policy-Based Methods under Off-Policy Sampling and Linear Function Approximation [8.465228064780748]
政策評価には、オフ政治サンプリングと線形関数近似を用いる。自然政策勾配(NPG)を含む様々な政策更新規則が政策更新のために検討されている。我々は、最適なポリシーを見つけるために、合計$mathcalO(epsilon-2)$サンプルの複雑さを初めて確立する。
論文参考訳（メタデータ） (2022-08-05T15:59:05Z)
Reinforcement Learning for Adaptive Optimal Stationary Control of Linear Stochastic Systems [15.410124023805249]
本稿では,加法雑音と乗法雑音を併用した連続時間線形系の最適定常制御について検討する。楽観的な最小二乗法に基づく反復法則という,非政治強化学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2021-07-16T09:27:02Z)
Recurrent Model Predictive Control [19.047059454849897]
一般非線形有限水平最適制御問題を解くために,リカレントモデル予測制御(RMPC)と呼ばれるオフラインアルゴリズムを提案する。提案アルゴリズムは,システム状態と参照値を直接制御入力にマッピングする最適ポリシを近似するために,繰り返し関数を用いる。
論文参考訳（メタデータ） (2021-02-23T15:01:36Z)
Average-Reward Off-Policy Policy Evaluation with Function Approximation [66.67075551933438]
平均報酬MDPの関数近似によるオフポリシ政策評価を検討する。ブートストラップは必要であり、オフポリシ学習とFAと一緒に、致命的なトライアドをもたらす。そこで本研究では,勾配型tdアルゴリズムの成功を再現する2つの新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-01-08T00:43:04Z)
Policy Gradient Methods for the Noisy Linear Quadratic Regulator over a Finite Horizon [3.867363075280544]
線形2次レギュレータ(LQR)問題における最適ポリシーを見つけるための強化学習法について検討する。我々は、有限時間地平線と弱い仮定の下での状態ダイナミクスの設定に対する大域的線形収束を保証する。基礎となるダイナミクスのモデルを仮定し、データに直接メソッドを適用する場合の結果を示す。
論文参考訳（メタデータ） (2020-11-20T09:51:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。