論文の概要: Structured Policy Iteration for Linear Quadratic Regulator
- arxiv url: http://arxiv.org/abs/2007.06202v1
- Date: Mon, 13 Jul 2020 06:03:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 00:25:12.864917
- Title: Structured Policy Iteration for Linear Quadratic Regulator
- Title(参考訳): 線形二次レギュレータの構造的ポリシーイテレーション
- Authors: Youngsuk Park, Ryan A. Rossi, Zheng Wen, Gang Wu, Handong Zhao
- Abstract要約: 構造化線形ポリシーを導出する手法であるLQRに対して,textitStructured Policy Iteration (S-PI)を導入する。
このような(ブロック)間隔や低ランクの構造化ポリシーは、標準のLQRポリシーよりも大きな利点がある。
既知モデルとモデルフリー設定の両方において、パラメータの適切な選択の下で収束解析を証明している。
- 参考スコア(独自算出の注目度): 40.52288246664592
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Linear quadratic regulator (LQR) is one of the most popular frameworks to
tackle continuous Markov decision process tasks. With its fundamental theory
and tractable optimal policy, LQR has been revisited and analyzed in recent
years, in terms of reinforcement learning scenarios such as the model-free or
model-based setting. In this paper, we introduce the \textit{Structured Policy
Iteration} (S-PI) for LQR, a method capable of deriving a structured linear
policy. Such a structured policy with (block) sparsity or low-rank can have
significant advantages over the standard LQR policy: more interpretable,
memory-efficient, and well-suited for the distributed setting. In order to
derive such a policy, we first cast a regularized LQR problem when the model is
known. Then, our Structured Policy Iteration (S-PI) algorithm, which takes a
policy evaluation step and a policy improvement step in an iterative manner,
can solve this regularized LQR efficiently. We further extend the S-PI
algorithm to the model-free setting where a smoothing procedure is adopted to
estimate the gradient. In both the known-model and model-free setting, we prove
convergence analysis under the proper choice of parameters. Finally, the
experiments demonstrate the advantages of S-PI in terms of balancing the LQR
performance and level of structure by varying the weight parameter.
- Abstract(参考訳): 線形二次規制(LQR)は、マルコフ決定プロセスタスクに対処する最も一般的なフレームワークの1つである。
基本理論と抽出可能な最適ポリシーにより、LQRはモデルフリーやモデルベース設定のような強化学習シナリオにおいて近年再検討され分析されている。
本稿では,LQRに対して,構造化線形ポリシーを導出する手法であるtextit{Structured Policy Iteration} (S-PI)を導入する。
このような(ブロック)間隔や低ランクの構造化ポリシは、より解釈可能で、メモリ効率が良く、分散設定に適した標準的なLQRポリシーよりも大きな利点を持つ。
このようなポリシーを導出するために、モデルが分かっているときにまず正規化LQR問題を発生させる。
そして、ポリシー評価ステップとポリシー改善ステップを反復的に行う構造化ポリシー反復(s-pi)アルゴリズムにより、この正規化lqrを効率的に解くことができる。
さらに、S-PIアルゴリズムをスムースな手順を採用して勾配を推定するモデルフリー設定に拡張する。
既知モデルとモデルフリー設定の両方において、パラメータの適切な選択の下で収束解析を証明する。
最後に、重みパラメータを変化させることで、LQR性能と構造レベルのバランスの点でS-PIの利点を示す。
関連論文リスト
- REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - PARL: A Unified Framework for Policy Alignment in Reinforcement Learning from Human Feedback [106.63518036538163]
我々は、強化学習におけるポリシーアライメントの最近強調された重要な問題に対処するために、新しい統合された二段階最適化ベースのフレームワーク、textsfPARLを提案する。
本フレームワークは, 上向きの目標(逆設計)の分布を, 下向きの最適変数で明示的にパラメータ化することにより, これらの問題に対処する。
その結果,提案したtextsfPARL が RL のアライメントの懸念に対処できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-03T18:03:44Z) - A Novel Framework for Policy Mirror Descent with General
Parameterization and Linear Convergence [15.807079236265714]
ミラー降下に基づくポリシー最適化のための新しいフレームワークを提案する。
一般パラメータ化を含む政策次数法に対して線形収束を保証する最初の結果を得る。
論文 参考訳(メタデータ) (2023-01-30T18:21:48Z) - Solving Multistage Stochastic Linear Programming via Regularized Linear
Decision Rules: An Application to Hydrothermal Dispatch Planning [77.34726150561087]
AdaSO(Adaptive least absolute shrinkage and selection operator)に基づく線形決定規則(LDR)の新しい正規化手法を提案する。
実験により、MSLPを解くために古典的な非正規化LDRを使用する場合、過度に適合する脅威は無視できないことが示された。
LHDP問題に対しては、非正規化ベンチマークと比較して、提案したフレームワークの次の利点を強調した。
論文 参考訳(メタデータ) (2021-10-07T02:36:14Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - Policy Gradient Methods for the Noisy Linear Quadratic Regulator over a
Finite Horizon [3.867363075280544]
線形2次レギュレータ(LQR)問題における最適ポリシーを見つけるための強化学習法について検討する。
我々は、有限時間地平線と弱い仮定の下での状態ダイナミクスの設定に対する大域的線形収束を保証する。
基礎となるダイナミクスのモデルを仮定し、データに直接メソッドを適用する場合の結果を示す。
論文 参考訳(メタデータ) (2020-11-20T09:51:49Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Robust Reinforcement Learning: A Case Study in Linear Quadratic
Regulation [23.76925146112261]
本稿では,学習過程における誤りに対する強化学習アルゴリズムの堅牢性について検討する。
LQRのポリシーイテレーションは、学習過程における小さなエラーに対して本質的に堅牢であることが示されている。
論文 参考訳(メタデータ) (2020-08-25T11:11:28Z) - Robust Reinforcement Learning using Least Squares Policy Iteration with
Provable Performance Guarantees [3.8073142980733]
本稿では,ロバストマルコフ決定過程(RMDP)におけるモデルレス強化学習の課題について述べる。
本稿では、まず、ポリシー評価のための多段階オンラインモデルフリー学習アルゴリズムであるRobust Least Squares Policy Evaluationアルゴリズムを提案する。
次に,ロバスト・ラスト・スクエアズ・ポリシー・イテレーション (RLSPI) アルゴリズムを提案し,ロバスト・ラスト・スクエアズ・ポリシーを最適に学習する。
論文 参考訳(メタデータ) (2020-06-20T16:26:50Z) - Convergence Guarantees of Policy Optimization Methods for Markovian Jump
Linear Systems [3.3343656101775365]
ガウスニュートン法は, 閉ループ力学を平均的に安定化させる制御器において, 線形速度で MJLS の最適状態フィードバック制御器に収束することを示す。
我々の理論を支持する一例を示す。
論文 参考訳(メタデータ) (2020-02-10T21:13:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。