論文の概要: Variance-Reduced Conservative Policy Iteration
- arxiv url: http://arxiv.org/abs/2212.06283v1
- Date: Mon, 12 Dec 2022 23:31:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 13:43:00.612058
- Title: Variance-Reduced Conservative Policy Iteration
- Title(参考訳): 可変再生型保守政策イテレーション
- Authors: Naman Agarwal, Brian Bullins, Karan Singh
- Abstract要約: 政策空間上の経験的リスク問題の列に強化学習を還元するサンプル複雑性について検討する。
本稿では,保守政策の最小化の分散還元版を提案する。
- 参考スコア(独自算出の注目度): 45.69105313297521
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the sample complexity of reducing reinforcement learning to a
sequence of empirical risk minimization problems over the policy space. Such
reductions-based algorithms exhibit local convergence in the function space, as
opposed to the parameter space for policy gradient algorithms, and thus are
unaffected by the possibly non-linear or discontinuous parameterization of the
policy class. We propose a variance-reduced variant of Conservative Policy
Iteration that improves the sample complexity of producing a
$\varepsilon$-functional local optimum from $O(\varepsilon^{-4})$ to
$O(\varepsilon^{-3})$. Under state-coverage and policy-completeness
assumptions, the algorithm enjoys $\varepsilon$-global optimality after
sampling $O(\varepsilon^{-2})$ times, improving upon the previously established
$O(\varepsilon^{-3})$ sample requirement.
- Abstract(参考訳): 政策空間上の実証的リスク最小化問題の列に強化学習を還元するサンプル複雑性について検討する。
このような還元に基づくアルゴリズムは、ポリシー勾配アルゴリズムのパラメータ空間とは対照的に関数空間の局所収束を示すため、ポリシークラスの非線型あるいは不連続なパラメータ化の影響を受けない。
我々は、$O(\varepsilon^{-4})$から$O(\varepsilon^{-3})$へ、$\varepsilon$-functional local optimumを生成する際のサンプル複雑さを改善する保守政策イテレーションの分散還元変種を提案する。
状態被覆とポリシー完全性の仮定の下で、アルゴリズムは$O(\varepsilon^{-2})$倍をサンプリングした後、$\varepsilon$-globalOptimityを享受し、以前に確立された$O(\varepsilon^{-3})$サンプル要件を改善した。
関連論文リスト
- Almost Minimax Optimal Best Arm Identification in Piecewise Stationary Linear Bandits [55.957560311008926]
そこで本研究では,各文脈の平均値によって腕の質を計測するPSLBモデルを提案する。
PS$varepsilon$BAI$+$は、$varepsilon$-optimal armを、確率$ge 1-delta$と最小限のサンプルで識別することが保証される。
論文 参考訳(メタデータ) (2024-10-10T06:15:42Z) - Last-Iterate Convergence of General Parameterized Policies in Constrained MDPs [35.22742439337603]
Proposed Primal-Dual based Regularized Accelerated Natural Policy Gradient (PDR-ANPG) algorithm using entropy and quadratic regularizers to reach this goal。
PDR-ANPGは、パラメータ化されたポリシークラスに変換互換性の近似誤差を持たせるため、最終値の$epsilon$Optimity gapを達成できる。
これは、汎用パラメータ化CMDPの最先端最終保証の大幅な改善である。
論文 参考訳(メタデータ) (2024-08-21T10:44:57Z) - Accelerated Stochastic Min-Max Optimization Based on Bias-corrected Momentum [30.01198677588252]
1次アルゴリズムは、$varepsilon-stationary pointを見つけるのに少なくとも$mathcalO(varepsilonepsilon-4)$ complexityを必要とする。
本稿では,高効率な変動複雑性を生かした新しい運動量アルゴリズムを提案する。
本手法の有効性は実世界のデータセットを用いてロジスティック回帰を用いて検証する。
論文 参考訳(メタデータ) (2024-06-18T20:14:52Z) - Projection by Convolution: Optimal Sample Complexity for Reinforcement Learning in Continuous-Space MDPs [56.237917407785545]
本稿では,円滑なベルマン作用素を持つ連続空間マルコフ決定過程(MDP)の一般クラスにおいて,$varepsilon$-optimal Policyを学習する問題を考察する。
我々のソリューションの鍵となるのは、調和解析のアイデアに基づく新しい射影技術である。
我々の結果は、連続空間 MDP における2つの人気と矛盾する視点のギャップを埋めるものである。
論文 参考訳(メタデータ) (2024-05-10T09:58:47Z) - Low-Switching Policy Gradient with Exploration via Online Sensitivity
Sampling [23.989009116398208]
一般非線形関数近似を用いた低スイッチングサンプリング効率ポリシ最適化アルゴリズム LPO を設計する。
提案アルゴリズムは,$widetildeO(fractextpoly(d)varepsilon3)$サンプルのみを用いて,$varepsilon$-optimal Policyを得る。
論文 参考訳(メタデータ) (2023-06-15T23:51:46Z) - Stochastic Policy Gradient Methods: Improved Sample Complexity for
Fisher-non-degenerate Policies [19.779044926914704]
我々は、フィッシャー非退化パラメタライズドポリシーの一般クラスに対する改善されたグローバルコンバージェンス保証を開発する。
本研究では,Implicit Gradient Transport (N-PG-IGT) を用いた正規化政策勾配法を提案し,この手法のサンプル複雑性を$tildemathcalO(varepsilon-2.5)$とする。
我々はこの複雑さをさらに改善し、ヘッセン支援再帰政策勾配を考慮し、$tilde MathcalmathcalO (varepsilon-2)$に改善する。
論文 参考訳(メタデータ) (2023-02-03T13:50:23Z) - Best Policy Identification in Linear MDPs [70.57916977441262]
縮退した線形マルコフ+デルタ決定における最適同定問題について, 生成モデルに基づく固定信頼度設定における検討を行った。
複雑な非最適化プログラムの解としての下位境界は、そのようなアルゴリズムを考案する出発点として用いられる。
論文 参考訳(メタデータ) (2022-08-11T04:12:50Z) - On the Convergence and Sample Efficiency of Variance-Reduced Policy
Gradient Method [38.34416337932712]
政策は、例えばREINFORCEのようなリッチな強化学習(RL)手法を生み出します。
しかし、そのようなメソッドが$epsilon$-optimal Policyを見つけるための最もよく知られたサンプルの複雑さは$mathcalO(epsilon-3)$である。
第一次政策最適化法の基本収束特性とサンプル効率について検討する。
論文 参考訳(メタデータ) (2021-02-17T07:06:19Z) - Improved Sample Complexity for Incremental Autonomous Exploration in
MDPs [132.88757893161699]
我々は $epsilon$-optimal 目標条件付きポリシーのセットを学び、$ L$ ステップ内で段階的に到達可能なすべての状態を達成します。
DisCoは、コストに敏感な最短経路問題に対して$epsilon/c_min$-optimalポリシーを返すことができる最初のアルゴリズムです。
論文 参考訳(メタデータ) (2020-12-29T14:06:09Z) - Adaptive Reward-Free Exploration [48.98199700043158]
提案アルゴリズムは1994年からのFiechterのアルゴリズムの変種と見なすことができる。
さらに、報酬のない探索と最高の政治識別の相対的な複雑さについて検討する。
論文 参考訳(メタデータ) (2020-06-11T09:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。