論文の概要: Approximation Benefits of Policy Gradient Methods with Aggregated States
- arxiv url: http://arxiv.org/abs/2007.11684v3
- Date: Thu, 23 Jun 2022 15:39:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 22:31:08.181781
- Title: Approximation Benefits of Policy Gradient Methods with Aggregated States
- Title(参考訳): 集約状態を用いた政策勾配法の近似効果
- Authors: Daniel Russo
- Abstract要約: Folklore氏は、ポリシー勾配は、相対的な、近似的なポリシー反復よりも、誤った仕様化に対してより堅牢である、と示唆している。
本稿では、ポリシー勾配法が周期毎の後悔が$epsilon$で束縛されたポリシーに収束することを示す。
- 参考スコア(独自算出の注目度): 8.348171150908724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Folklore suggests that policy gradient can be more robust to misspecification
than its relative, approximate policy iteration. This paper studies the case of
state-aggregated representations, where the state space is partitioned and
either the policy or value function approximation is held constant over
partitions. This paper shows a policy gradient method converges to a policy
whose regret per-period is bounded by $\epsilon$, the largest difference
between two elements of the state-action value function belonging to a common
partition. With the same representation, both approximate policy iteration and
approximate value iteration can produce policies whose per-period regret scales
as $\epsilon/(1-\gamma)$, where $\gamma$ is a discount factor. Faced with
inherent approximation error, methods that locally optimize the true
decision-objective can be far more robust.
- Abstract(参考訳): Folklore氏は、ポリシー勾配は、相対的な、近似的なポリシー反復よりも、誤った仕様化に対してより堅牢である、と示唆している。
本稿では、状態空間を分割し、ポリシーあるいは値関数近似を分割上で一定に保持する状態集約表現のケースについて検討する。
本稿では、ポリシー勾配法が、周期毎の後悔が共通分割に属する状態-作用値関数の2つの要素の最大の差である$\epsilon$で束縛されたポリシーに収束することを示す。
同じ表現で、近似ポリシー反復と近似値反復の両方が、周期毎の後悔度が$\epsilon/(1-\gamma)$とスケールしたポリシーを生成することができる。
固有の近似誤差に直面して、真の意思決定対象を局所的に最適化するメソッドは、はるかに堅牢である。
関連論文リスト
- Confident Natural Policy Gradient for Local Planning in $q_π$-realizable Constrained MDPs [44.69257217086967]
制約付きマルコフ決定プロセス(CMDP)フレームワークは、安全性や他の重要な目的を課すための重要な強化学習アプローチとして出現する。
本稿では,線形関数近似が$q_pi$-realizabilityで与えられる学習問題に対処する。
論文 参考訳(メタデータ) (2024-06-26T17:57:13Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - On The Convergence Of Policy Iteration-Based Reinforcement Learning With
Monte Carlo Policy Evaluation [11.345796608258434]
このような政策反復スキームの最初の訪問バージョンは、政策改善ステップがルックアヘッドを使用する場合、最適方針に収束することを示す。
また,関数近似設定の拡張を行い,アルゴリズムが関数近似誤差内の最適ポリシに近く動作することを示す。
論文 参考訳(メタデータ) (2023-01-23T20:32:41Z) - Understanding the Effect of Stochasticity in Policy Optimization [86.7574122154668]
最適化手法の優位性は、正確な勾配が用いられるかどうかに大きく依存することを示す。
次に,政策最適化におけるコミット率の概念を紹介する。
第三に、外部のオラクル情報がない場合には、収束を加速するために幾何を利用することと、最適性をほぼ確実に達成することとの間に本質的にトレードオフがあることが示される。
論文 参考訳(メタデータ) (2021-10-29T06:35:44Z) - The Role of Lookahead and Approximate Policy Evaluation in Policy
Iteration with Linear Value Function Approximation [14.528756508275622]
線形関数近似を用いて値関数を表現する場合、最小限のルックアヘッドとマルチステップリターンが必要であることを示す。
そして、この条件が満たされると、そのような近似ポリシーを用いて得られたポリシーの有限時間性能を特徴付ける。
論文 参考訳(メタデータ) (2021-09-28T01:20:08Z) - Softmax Policy Gradient Methods Can Take Exponential Time to Converge [60.98700344526674]
Softmax Policy gradient(PG)メソッドは、現代の強化学習におけるポリシー最適化の事実上の実装の1つです。
ソフトマックス PG 法は、$mathcalS|$ および $frac11-gamma$ の観点から指数時間で収束できることを実証する。
論文 参考訳(メタデータ) (2021-02-22T18:56:26Z) - On the Convergence and Sample Efficiency of Variance-Reduced Policy
Gradient Method [38.34416337932712]
政策は、例えばREINFORCEのようなリッチな強化学習(RL)手法を生み出します。
しかし、そのようなメソッドが$epsilon$-optimal Policyを見つけるための最もよく知られたサンプルの複雑さは$mathcalO(epsilon-3)$である。
第一次政策最適化法の基本収束特性とサンプル効率について検討する。
論文 参考訳(メタデータ) (2021-02-17T07:06:19Z) - Inverse Policy Evaluation for Value-based Sequential Decision-making [10.188967035477217]
強化学習のための価値に基づく手法は、一般に価値関数から振舞いを導出する方法を欠いている。
本稿では、逆ポリシー評価と近似値反復アルゴリズムを組み合わせることで、値ベース制御の実現可能性を示す。
論文 参考訳(メタデータ) (2020-08-26T01:31:38Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z) - BRPO: Batch Residual Policy Optimization [79.53696635382592]
バッチ強化学習では、学習したポリシーが行動(データ生成)ポリシーに近いように制約されることがよくある。
本稿では,学習方針の逸脱が国家の行動に依存した残留政策を提案する。
我々は,ポリシーと許容偏差の両方を学習し,政策性能の低い境界を共同で最大化する新しいRL法BRPOを導出する。
論文 参考訳(メタデータ) (2020-02-08T01:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。