論文の概要: Linear Convergence for Natural Policy Gradient with Log-linear Policy
Parametrization
- arxiv url: http://arxiv.org/abs/2209.15382v1
- Date: Fri, 30 Sep 2022 11:17:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 17:01:58.328821
- Title: Linear Convergence for Natural Policy Gradient with Log-linear Policy
Parametrization
- Title(参考訳): 対数線形政策パラメトリゼーションによる自然政策勾配の線形収束
- Authors: Carlo Alfano and Patrick Rebeschini
- Abstract要約: 正規化されていない自然政策アルゴリズムの収束速度を対数線形ポリシーパラメトリゼーションを用いて解析する。
このアルゴリズムは、決定論の場合と同じ線形保証を誤差項まで楽しむことを示す。
- 参考スコア(独自算出の注目度): 18.072051868187934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We analyze the convergence rate of the unregularized natural policy gradient
algorithm with log-linear policy parametrizations in infinite-horizon
discounted Markov decision processes. In the deterministic case, when the
Q-value is known and can be approximated by a linear combination of a known
feature function up to a bias error, we show that a geometrically-increasing
step size yields a linear convergence rate towards an optimal policy. We then
consider the sample-based case, when the best representation of the Q- value
function among linear combinations of a known feature function is known up to
an estimation error. In this setting, we show that the algorithm enjoys the
same linear guarantees as in the deterministic case up to an error term that
depends on the estimation error, the bias error, and the condition number of
the feature covariance matrix. Our results build upon the general framework of
policy mirror descent and extend previous findings for the softmax tabular
parametrization to the log-linear policy class.
- Abstract(参考訳): 無限ホリゾンディスカウントマルコフ決定過程における非正規化自然政策勾配アルゴリズムと対数線形政策パラメトリゼーションの収束率を解析した。
決定論的な場合、q値が知られ、既知の特徴関数のバイアス誤差までの線形結合によって近似できる場合には、幾何学的に増大するステップサイズが最適なポリシーに向かって線形収束率をもたらすことを示す。
次に、既知の特徴関数の線形結合におけるQ値関数の最良の表現が推定誤差まで知られている場合、サンプルベースの場合を考える。
この設定では,推定誤差,バイアス誤差,特徴共分散行列の条件数に依存する誤差項まで,決定論的の場合と同じ線形保証をアルゴリズムが享受していることを示す。
本研究は,政策ミラー降下の一般的な枠組みを基盤とし,ソフトマックス表状パラメトリゼーションのこれまでの知見を対数線形政策クラスに拡張した。
関連論文リスト
- Statistical Inference for Temporal Difference Learning with Linear Function Approximation [62.69448336714418]
時間差差(TD)学習は、おそらく政策評価に最も広く使用されるものであり、この目的の自然な枠組みとして機能する。
本稿では,Polyak-Ruppert平均化と線形関数近似によるTD学習の整合性について検討し,既存の結果よりも3つの重要な改善点を得た。
論文 参考訳(メタデータ) (2024-10-21T15:34:44Z) - Deterministic Policy Gradient Primal-Dual Methods for Continuous-Space Constrained MDPs [82.34567890576423]
我々は,非漸近収束を伴う最適決定主義政策を求めるための決定主義的政策勾配原始双対法を開発した。
D-PGPDの一次-双対反復は、最適正則化原始-双対にサブ線形速度で収束することが証明された。
我々の知る限り、これは連続空間制約型MDPに対する決定論的ポリシー探索法を提案する最初の研究であると思われる。
論文 参考訳(メタデータ) (2024-08-19T14:11:04Z) - Improved High-Probability Bounds for the Temporal Difference Learning Algorithm via Exponential Stability [17.771354881467435]
一般化された, インスタンスに依存しないステップサイズを持つ単純なアルゴリズムは, ほぼ最適分散とバイアス項を得るのに十分であることを示す。
本手法は, 線形近似のための洗練された誤差境界と, ランダム行列の積に対する新しい安定性結果に基づく。
論文 参考訳(メタデータ) (2023-10-22T12:37:25Z) - High-probability sample complexities for policy evaluation with linear function approximation [88.87036653258977]
本研究では,2つの広く利用されている政策評価アルゴリズムに対して,最適線形係数の予め定義された推定誤差を保証するために必要なサンプル複素量について検討する。
高確率収束保証に縛られた最初のサンプル複雑性を確立し、許容レベルへの最適依存を実現する。
論文 参考訳(メタデータ) (2023-05-30T12:58:39Z) - Linear Convergence of Natural Policy Gradient Methods with Log-Linear
Policies [115.86431674214282]
我々は、無限水平割引マルコフ決定過程を考察し、自然政策勾配(NPG)とQ-NPG法の収束率を対数線形ポリシークラスで検討する。
両手法が線形収束率と $mathcalO (1/epsilon2)$サンプル複雑度を, 単純で非適応的な幾何的に増加するステップサイズを用いて達成できることを示す。
論文 参考訳(メタデータ) (2022-10-04T06:17:52Z) - Convergence and sample complexity of natural policy gradient primal-dual methods for constrained MDPs [21.347689976296834]
我々は、割引された最適レート問題を解くために、自然政策勾配法を用いる。
また、2つのサンプルベースNPG-PDアルゴリズムに対して収束と有限サンプル保証を提供する。
論文 参考訳(メタデータ) (2022-06-06T04:28:04Z) - Quasi-Newton Iteration in Deterministic Policy Gradient [0.0]
近似ヘシアンが最適なポリシーで正確なヘシアンに収束することを示す。
簡単な線形の場合の定式化を解析的に検証し,提案手法の収束度を自然政策勾配と比較する。
論文 参考訳(メタデータ) (2022-03-25T18:38:57Z) - On the Convergence Rates of Policy Gradient Methods [9.74841674275568]
有限状態部分空間における幾何的に割引された支配問題を考える。
試料中の直交勾配のパラリゼーションにより、勾配の一般的な複雑さを解析できることが示される。
論文 参考訳(メタデータ) (2022-01-19T07:03:37Z) - Optimal oracle inequalities for solving projected fixed-point equations [53.31620399640334]
ヒルベルト空間の既知の低次元部分空間を探索することにより、確率観測の集合を用いて近似解を計算する手法を検討する。
本稿では,線形関数近似を用いた政策評価問題に対する時間差分学習手法の誤差を正確に評価する方法について述べる。
論文 参考訳(メタデータ) (2020-12-09T20:19:32Z) - Understanding Implicit Regularization in Over-Parameterized Single Index
Model [55.41685740015095]
我々は高次元単一インデックスモデルのための正規化自由アルゴリズムを設計する。
暗黙正則化現象の理論的保証を提供する。
論文 参考訳(メタデータ) (2020-07-16T13:27:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。