論文の概要: On the Convergence Rate of Off-Policy Policy Optimization Methods with
Density-Ratio Correction
- arxiv url: http://arxiv.org/abs/2106.00993v1
- Date: Wed, 2 Jun 2021 07:26:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-03 14:45:13.765742
- Title: On the Convergence Rate of Off-Policy Policy Optimization Methods with
Density-Ratio Correction
- Title(参考訳): 密度比補正を用いたオフポリティポリシ最適化手法の収束率について
- Authors: Jiawei Huang, Nan Jiang
- Abstract要約: 状態-作用密度比の補正を施した非政治政策改善アルゴリズムの収束特性について検討する。
有限時間収束を保証する2つの戦略を提案する。
我々は,O-SPIMが総複雑性$O(epsilon-4)$の定常点に収束していることを証明する。
- 参考スコア(独自算出の注目度): 28.548040329949387
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study the convergence properties of off-policy policy
improvement algorithms with state-action density ratio correction under
function approximation setting, where the objective function is formulated as a
max-max-min optimization problem. We characterize the bias of the learning
objective and present two strategies with finite-time convergence guarantees.
In our first strategy, we present algorithm P-SREDA with convergence rate
$O(\epsilon^{-3})$, whose dependency on $\epsilon$ is optimal. In our second
strategy, we propose a new off-policy actor-critic style algorithm named
O-SPIM. We prove that O-SPIM converges to a stationary point with total
complexity $O(\epsilon^{-4})$, which matches the convergence rate of some
recent actor-critic algorithms in the on-policy setting.
- Abstract(参考訳): 本稿では,関数近似条件下での状態-作用密度比を補正したオフ政治政策改善アルゴリズムの収束特性について検討し,目的関数を最大値最適化問題として定式化する。
学習目標のバイアスを特徴付け,有限時間収束保証を持つ2つの戦略を提案する。
最初の戦略では、収束率$O(\epsilon^{-3})$で、$\epsilon$への依存が最適であるアルゴリズムP-SREDAを提案する。
第2の戦略として,O-SPIMという非政治アクター批判型アルゴリズムを提案する。
我々はO-SPIMが総複雑性$O(\epsilon^{-4})$の定常点に収束していることを証明する。
関連論文リスト
- Low-Switching Policy Gradient with Exploration via Online Sensitivity
Sampling [23.989009116398208]
一般非線形関数近似を用いた低スイッチングサンプリング効率ポリシ最適化アルゴリズム LPO を設計する。
提案アルゴリズムは,$widetildeO(fractextpoly(d)varepsilon3)$サンプルのみを用いて,$varepsilon$-optimal Policyを得る。
論文 参考訳(メタデータ) (2023-06-15T23:51:46Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Understanding the Effect of Stochasticity in Policy Optimization [86.7574122154668]
最適化手法の優位性は、正確な勾配が用いられるかどうかに大きく依存することを示す。
次に,政策最適化におけるコミット率の概念を紹介する。
第三に、外部のオラクル情報がない場合には、収束を加速するために幾何を利用することと、最適性をほぼ確実に達成することとの間に本質的にトレードオフがあることが示される。
論文 参考訳(メタデータ) (2021-10-29T06:35:44Z) - Momentum Accelerates the Convergence of Stochastic AUPRC Maximization [80.8226518642952]
高精度リコール曲線(AUPRC)に基づく領域の最適化について検討し,不均衡なタスクに広く利用されている。
我々は、$O (1/epsilon4)$のより優れた反復による、$epsilon$定常解を見つけるための新しい運動量法を開発する。
また,O(1/epsilon4)$と同じ複雑さを持つ適応手法の新たなファミリを設計し,実際により高速な収束を享受する。
論文 参考訳(メタデータ) (2021-07-02T16:21:52Z) - Bregman Gradient Policy Optimization [97.73041344738117]
本稿では,Bregmanの発散と運動量に基づく強化学習のためのBregmanグラデーションポリシーの最適化を設計する。
VR-BGPOは、各イテレーションで1つの軌道のみを必要とする$epsilon$stationaryポイントを見つけるために、$tilde(epsilon-3)$で最高の複雑性に達する。
論文 参考訳(メタデータ) (2021-06-23T01:08:54Z) - On the Convergence and Sample Efficiency of Variance-Reduced Policy
Gradient Method [38.34416337932712]
政策は、例えばREINFORCEのようなリッチな強化学習(RL)手法を生み出します。
しかし、そのようなメソッドが$epsilon$-optimal Policyを見つけるための最もよく知られたサンプルの複雑さは$mathcalO(epsilon-3)$である。
第一次政策最適化法の基本収束特性とサンプル効率について検討する。
論文 参考訳(メタデータ) (2021-02-17T07:06:19Z) - Average-Reward Off-Policy Policy Evaluation with Function Approximation [66.67075551933438]
平均報酬MDPの関数近似によるオフポリシ政策評価を検討する。
ブートストラップは必要であり、オフポリシ学習とFAと一緒に、致命的なトライアドをもたらす。
そこで本研究では,勾配型tdアルゴリズムの成功を再現する2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-08T00:43:04Z) - Fast Global Convergence of Natural Policy Gradient Methods with Entropy
Regularization [44.24881971917951]
自然政策勾配法(NPG)は、最も広く使われている政策最適化アルゴリズムの一つである。
我々は,ソフトマックスパラメータ化の下で,エントロピー規則化NPG法に対する収束保証を開発する。
この結果から, エントロピー正則化の役割を浮き彫りにした。
論文 参考訳(メタデータ) (2020-07-13T17:58:41Z) - Convergence of adaptive algorithms for weakly convex constrained
optimization [59.36386973876765]
モローエンベロープの勾配のノルムに対して$mathcaltilde O(t-1/4)$収束率を証明する。
我々の分析では、最小バッチサイズが1ドル、定数が1位と2位のモーメントパラメータが1ドル、そしておそらくスムーズな最適化ドメインで機能する。
論文 参考訳(メタデータ) (2020-06-11T17:43:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。