論文の概要: Variance-Reduced Conservative Policy Iteration
- arxiv url: http://arxiv.org/abs/2212.06283v1
- Date: Mon, 12 Dec 2022 23:31:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 13:43:00.612058
- Title: Variance-Reduced Conservative Policy Iteration
- Title(参考訳): 可変再生型保守政策イテレーション
- Authors: Naman Agarwal, Brian Bullins, Karan Singh
- Abstract要約: 政策空間上の経験的リスク問題の列に強化学習を還元するサンプル複雑性について検討する。
本稿では,保守政策の最小化の分散還元版を提案する。
- 参考スコア(独自算出の注目度): 45.69105313297521
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the sample complexity of reducing reinforcement learning to a
sequence of empirical risk minimization problems over the policy space. Such
reductions-based algorithms exhibit local convergence in the function space, as
opposed to the parameter space for policy gradient algorithms, and thus are
unaffected by the possibly non-linear or discontinuous parameterization of the
policy class. We propose a variance-reduced variant of Conservative Policy
Iteration that improves the sample complexity of producing a
$\varepsilon$-functional local optimum from $O(\varepsilon^{-4})$ to
$O(\varepsilon^{-3})$. Under state-coverage and policy-completeness
assumptions, the algorithm enjoys $\varepsilon$-global optimality after
sampling $O(\varepsilon^{-2})$ times, improving upon the previously established
$O(\varepsilon^{-3})$ sample requirement.
- Abstract(参考訳): 政策空間上の実証的リスク最小化問題の列に強化学習を還元するサンプル複雑性について検討する。
このような還元に基づくアルゴリズムは、ポリシー勾配アルゴリズムのパラメータ空間とは対照的に関数空間の局所収束を示すため、ポリシークラスの非線型あるいは不連続なパラメータ化の影響を受けない。
我々は、$O(\varepsilon^{-4})$から$O(\varepsilon^{-3})$へ、$\varepsilon$-functional local optimumを生成する際のサンプル複雑さを改善する保守政策イテレーションの分散還元変種を提案する。
状態被覆とポリシー完全性の仮定の下で、アルゴリズムは$O(\varepsilon^{-2})$倍をサンプリングした後、$\varepsilon$-globalOptimityを享受し、以前に確立された$O(\varepsilon^{-3})$サンプル要件を改善した。
関連論文リスト
- Low-Switching Policy Gradient with Exploration via Online Sensitivity
Sampling [23.989009116398208]
一般非線形関数近似を用いた低スイッチングサンプリング効率ポリシ最適化アルゴリズム LPO を設計する。
提案アルゴリズムは,$widetildeO(fractextpoly(d)varepsilon3)$サンプルのみを用いて,$varepsilon$-optimal Policyを得る。
論文 参考訳(メタデータ) (2023-06-15T23:51:46Z) - Reinforcement Learning with General Utilities: Simpler Variance
Reduction and Large State-Action Space [17.366915676628867]
一般用途における強化学習の課題について考察する。
我々のアルゴリズムは、$tildemathcalO(epsilon-3)$と$tildemathcalO(epsilon-2)$サンプル複雑度を達成する。
論文 参考訳(メタデータ) (2023-06-02T18:16:35Z) - Stochastic Policy Gradient Methods: Improved Sample Complexity for
Fisher-non-degenerate Policies [19.779044926914704]
我々は、フィッシャー非退化パラメタライズドポリシーの一般クラスに対する改善されたグローバルコンバージェンス保証を開発する。
本研究では,Implicit Gradient Transport (N-PG-IGT) を用いた正規化政策勾配法を提案し,この手法のサンプル複雑性を$tildemathcalO(varepsilon-2.5)$とする。
我々はこの複雑さをさらに改善し、ヘッセン支援再帰政策勾配を考慮し、$tilde MathcalmathcalO (varepsilon-2)$に改善する。
論文 参考訳(メタデータ) (2023-02-03T13:50:23Z) - ReSQueing Parallel and Private Stochastic Convex Optimization [59.53297063174519]
本稿では,BFG凸最適化(SCO: Reweighted Query (ReSQue) 推定ツールを提案する。
我々はSCOの並列およびプライベート設定における最先端の複雑さを実現するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-01-01T18:51:29Z) - Best Policy Identification in Linear MDPs [70.57916977441262]
縮退した線形マルコフ+デルタ決定における最適同定問題について, 生成モデルに基づく固定信頼度設定における検討を行った。
複雑な非最適化プログラムの解としての下位境界は、そのようなアルゴリズムを考案する出発点として用いられる。
論文 参考訳(メタデータ) (2022-08-11T04:12:50Z) - Homotopic Policy Mirror Descent: Policy Convergence, Implicit
Regularization, and Improved Sample Complexity [40.2022466644885]
有限状態と作用空間を持つ割引・無限水平型MDPを解くホモトピーポリシーミラー降下法(HPMD)法。
政策勾配法に関する文献では, 新たな3つの特性が報告されている。
論文 参考訳(メタデータ) (2022-01-24T04:54:58Z) - Private Stochastic Convex Optimization: Optimal Rates in $\ell_1$
Geometry [69.24618367447101]
対数要因まで $(varepsilon,delta)$-differently private の最適過剰人口損失は $sqrtlog(d)/n + sqrtd/varepsilon n.$ です。
損失関数がさらなる滑らかさの仮定を満たすとき、余剰損失は$sqrtlog(d)/n + (log(d)/varepsilon n)2/3で上界(対数因子まで)であることが示される。
論文 参考訳(メタデータ) (2021-03-02T06:53:44Z) - On the Convergence and Sample Efficiency of Variance-Reduced Policy
Gradient Method [38.34416337932712]
政策は、例えばREINFORCEのようなリッチな強化学習(RL)手法を生み出します。
しかし、そのようなメソッドが$epsilon$-optimal Policyを見つけるための最もよく知られたサンプルの複雑さは$mathcalO(epsilon-3)$である。
第一次政策最適化法の基本収束特性とサンプル効率について検討する。
論文 参考訳(メタデータ) (2021-02-17T07:06:19Z) - Improved Sample Complexity for Incremental Autonomous Exploration in
MDPs [132.88757893161699]
我々は $epsilon$-optimal 目標条件付きポリシーのセットを学び、$ L$ ステップ内で段階的に到達可能なすべての状態を達成します。
DisCoは、コストに敏感な最短経路問題に対して$epsilon/c_min$-optimalポリシーを返すことができる最初のアルゴリズムです。
論文 参考訳(メタデータ) (2020-12-29T14:06:09Z) - Adaptive Reward-Free Exploration [48.98199700043158]
提案アルゴリズムは1994年からのFiechterのアルゴリズムの変種と見なすことができる。
さらに、報酬のない探索と最高の政治識別の相対的な複雑さについて検討する。
論文 参考訳(メタデータ) (2020-06-11T09:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。