論文の概要: How are policy gradient methods affected by the limits of control?
- arxiv url: http://arxiv.org/abs/2206.06863v1
- Date: Tue, 14 Jun 2022 14:00:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-15 18:19:08.677868
- Title: How are policy gradient methods affected by the limits of control?
- Title(参考訳): 政策グラデーション手法は規制の限界にどのように影響するか?
- Authors: Ingvar Ziemann, Anastasios Tsiamis, Henrik Sandberg, Nikolai Matni
- Abstract要約: 制御理論的制約の観点から政策勾配法について検討する。
我々の主な結果は、ドイルの意味での不条件線型系が必然的にノイズ勾配推定に繋がるということである。
- 参考スコア(独自算出の注目度): 9.124412106448988
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study stochastic policy gradient methods from the perspective of
control-theoretic limitations. Our main result is that ill-conditioned linear
systems in the sense of Doyle inevitably lead to noisy gradient estimates. We
also give an example of a class of stable systems in which policy gradient
methods suffer from the curse of dimensionality. Our results apply to both
state feedback and partially observed systems.
- Abstract(参考訳): 制御理論的制約の観点から確率的政策勾配法について検討する。
我々の主な結果は、ドイルの意味での無条件線形系が必然的にノイズの勾配推定に繋がるということです。
また、政策勾配法が次元の呪いに苦しむ安定系の一類を例に挙げる。
結果は状態フィードバックと部分的に観測されたシステムの両方に適用できる。
関連論文リスト
- Mollification Effects of Policy Gradient Methods [16.617678267301702]
政策勾配法が非滑らかな最適化環境をどう動員するかを理解するための厳密な枠組みを開発する。
政策勾配法と逆熱方程式の解法との等価性を実証する。
我々は、この制限と調和解析における不確実性原理の関連性を、RLにおける政策による探索の効果を理解するために作成する。
論文 参考訳(メタデータ) (2024-05-28T05:05:33Z) - Implicit Bias of Policy Gradient in Linear Quadratic Control: Extrapolation to Unseen Initial States [52.56827348431552]
勾配降下はしばしば暗黙のバイアスを示し、目に見えないデータに優れたパフォーマンスをもたらす。
本稿では,初期状態に対する外挿の観点から,政策勾配の暗黙バイアスを理論的に検討する。
論文 参考訳(メタデータ) (2024-02-12T18:41:31Z) - Optimization Landscape of Policy Gradient Methods for Discrete-time
Static Output Feedback [22.21598324895312]
本稿では,静的な出力フィードバック制御に適用した場合に,ポリシー勾配法に固有の最適化環境を解析する。
3つの政策勾配法に対する定常点への収束(およびほぼ次元自由率)に関する新しい知見を導出する。
我々は,バニラポリシー勾配法が,そのようなミニマに近づいた場合,局所最小マに対して線形収束を示すことを示す。
論文 参考訳(メタデータ) (2023-10-29T14:25:57Z) - A Policy Gradient Method for Confounded POMDPs [7.75007282943125]
オフライン環境下での連続状態と観測空間を持つ部分観測可能マルコフ決定過程(POMDP)の整合化のためのポリシー勾配法を提案する。
まず、オフラインデータを用いて、POMDPの履歴依存ポリシー勾配を非パラメトリックに推定するために、新しい識別結果を確立する。
論文 参考訳(メタデータ) (2023-05-26T16:48:05Z) - In-Distribution Barrier Functions: Self-Supervised Policy Filters that
Avoid Out-of-Distribution States [84.24300005271185]
本稿では,任意の参照ポリシーをラップした制御フィルタを提案する。
本手法は、トップダウンとエゴセントリックの両方のビュー設定を含むシミュレーション環境における2つの異なるビズモータ制御タスクに有効である。
論文 参考訳(メタデータ) (2023-01-27T22:28:19Z) - Online Control of Unknown Time-Varying Dynamical Systems [48.75672260851758]
非確率制御モデルにおいて、未知のダイナミクスを持つ時間変化線形系のオンライン制御について検討する。
本研究では,反省行動 (SLS) や反省反応 (Youla) , 線形フィードバック政策 (線形フィードバックポリシー) といった一般的な政策のクラスに関して, 後悔すべき境界について検討する。
論文 参考訳(メタデータ) (2022-02-16T06:57:14Z) - Global Convergence Using Policy Gradient Methods for Model-free
Markovian Jump Linear Quadratic Control [8.98732207994362]
離散時間およびモデルフリーなマルコフジャンプ線形系の制御のための勾配に基づくポリシー最適化手法のグローバル収束性について検討する。
本研究では、勾配勾配勾配法と自然政策勾配法を用いて、政策のグローバル収束を示す。
論文 参考訳(メタデータ) (2021-11-30T09:26:26Z) - Improper Learning with Gradient-based Policy Optimization [62.50997487685586]
未知のマルコフ決定過程に対して学習者がmベースコントローラを与えられる不適切な強化学習設定を考える。
制御器の不適切な混合のクラス上で動作する勾配に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T14:53:55Z) - Policy Gradient Methods for the Noisy Linear Quadratic Regulator over a
Finite Horizon [3.867363075280544]
線形2次レギュレータ(LQR)問題における最適ポリシーを見つけるための強化学習法について検討する。
我々は、有限時間地平線と弱い仮定の下での状態ダイナミクスの設定に対する大域的線形収束を保証する。
基礎となるダイナミクスのモデルを仮定し、データに直接メソッドを適用する場合の結果を示す。
論文 参考訳(メタデータ) (2020-11-20T09:51:49Z) - Deep Bayesian Quadrature Policy Optimization [100.81242753620597]
ディープベイズ二次政策勾配 (Deep Bayesian quadrature Policy gradient, DBQPG) は、政策勾配推定のためのベイズ二次政策の高次元一般化である。
政策勾配法では,DBQPGがモンテカルロ推定を代用できることを示すとともに,一連の連続制御ベンチマーク上での有効性を示す。
論文 参考訳(メタデータ) (2020-06-28T15:44:47Z) - Statistically Efficient Off-Policy Policy Gradients [80.42316902296832]
政治外のデータから政策勾配を統計的に効率的に推定する。
パラメトリックな仮定を伴わずに下界を実現するメタアルゴリズムを提案する。
我々は、新たな推定政策勾配の方向へ進む際に、定常点に近づく速度の保証を確立する。
論文 参考訳(メタデータ) (2020-02-10T18:41:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。