論文の概要: KL-Entropy-Regularized RL with a Generative Model is Minimax Optimal
- arxiv url: http://arxiv.org/abs/2205.14211v1
- Date: Fri, 27 May 2022 19:39:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-05 04:58:04.635790
- Title: KL-Entropy-Regularized RL with a Generative Model is Minimax Optimal
- Title(参考訳): 生成モデルを持つKLエントロピー規則化RLは最小値である
- Authors: Tadashi Kozuno, Wenhao Yang, Nino Vieillard, Toshinori Kitamura,
Yunhao Tang, Jincheng Mei, Pierre M\'enard, Mohammad Gheshlaghi Azar, Michal
Valko, R\'emi Munos, Olivier Pietquin, Matthieu Geist, Csaba Szepesv\'ari
- Abstract要約: モデル強化学習のサンプル複雑性を,生成的分散自由モデルを用いて検討・解析する。
我々の分析は、$varepsilon$が十分小さい場合、$varepsilon$-optimal Policyを見つけるのが、ほぼ最小の最適化であることを示している。
- 参考スコア(独自算出の注目度): 70.15267479220691
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we consider and analyze the sample complexity of model-free
reinforcement learning with a generative model. Particularly, we analyze mirror
descent value iteration (MDVI) by Geist et al. (2019) and Vieillard et al.
(2020a), which uses the Kullback-Leibler divergence and entropy regularization
in its value and policy updates. Our analysis shows that it is nearly
minimax-optimal for finding an $\varepsilon$-optimal policy when $\varepsilon$
is sufficiently small. This is the first theoretical result that demonstrates
that a simple model-free algorithm without variance-reduction can be nearly
minimax-optimal under the considered setting.
- Abstract(参考訳): 本研究では,モデルなし強化学習のサンプル複雑性を生成モデルを用いて検討し,解析する。
特に,geist et al. (2019) と vieillard et al. (2020a) によるミラー降下値反復 (mdvi) を分析し,kullback-leibler divergence と entropy regularization を用いた。
我々の分析によると、$\varepsilon$が十分小さい場合、$\varepsilon$-optimal Policyを見つけるのはほぼ最小値である。
これは、分散還元のない単純なモデル自由アルゴリズムが、考慮された設定の下でほぼ極小最適であることを示す最初の理論的結果である。
関連論文リスト
- Improving Sample Efficiency of Model-Free Algorithms for Zero-Sum Markov Games [66.2085181793014]
モデルフリーのステージベースQ-ラーニングアルゴリズムはモデルベースアルゴリズムと同じ$H$依存の最適性を享受できることを示す。
本アルゴリズムは,楽観的値関数と悲観的値関数のペアとして参照値関数を更新するキーとなる新しい設計を特徴とする。
論文 参考訳(メタデータ) (2023-08-17T08:34:58Z) - Regularization and Variance-Weighted Regression Achieves Minimax
Optimality in Linear MDPs: Theory and Practice [79.48432795639403]
ミラー降下値反復(MDVI)は、KL(Kulback-Leibler)とRL(Entropy-regularized reinforcement learning)の抽象化である。
MDVIを線形関数近似を用いて研究し,$varepsilon$-optimal policyを同定するために必要なサンプル複雑性について検討した。
我々は,無限水平線形MDPに対して,最小限のサンプル複雑性を実現する最初の理論的アルゴリズムである分散重み付き最小二乗法MDVIを提案する。
論文 参考訳(メタデータ) (2023-05-22T16:13:05Z) - Breaking the Sample Complexity Barrier to Regret-Optimal Model-Free
Reinforcement Learning [52.76230802067506]
漸進的強化学習における後悔を最小限に抑えるために,新しいモデルフリーアルゴリズムを提案する。
提案アルゴリズムは、2つのQ-ラーニングシーケンスの助けを借りて、初期設定された参照更新ルールを用いる。
初期の分散還元法の設計原理は、他のRL設定とは独立した関心を持つかもしれない。
論文 参考訳(メタデータ) (2021-10-09T21:13:48Z) - Is Plug-in Solver Sample-Efficient for Feature-based Reinforcement
Learning? [30.065091907118827]
本研究は,マルコフ決定過程(MDP)における$epsilon$-optimal Policyの発見の複雑さについて考察する。
実験モデルを構築し,任意のプラグインソルバを用いて実験モデルを計画するプラグインソルバ手法を用いてこの問題を解決する。
プラグインアプローチはサンプル効率も向上し,強化学習のためのモデルベースアルゴリズムを設計するための柔軟なアプローチを提供する。
論文 参考訳(メタデータ) (2020-10-12T13:13:01Z) - Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal
Sample Complexity [67.02490430380415]
モデルに基づくMARLは、Nash平衡値(NE)を求めるために$tilde O(|S||B|(gamma)-3epsilon-2)$のサンプル複雑性を実現する。
また、アルゴリズムが報酬に依存しない場合、そのようなサンプル境界は最小値(対数因子まで)であり、アルゴリズムは報酬知識のない遷移サンプルを問合せする。
論文 参考訳(メタデータ) (2020-07-15T03:25:24Z) - Breaking the Sample Size Barrier in Model-Based Reinforcement Learning
with a Generative Model [50.38446482252857]
本稿では、生成モデル(シミュレータ)へのアクセスを想定して、強化学習のサンプル効率について検討する。
最初に$gamma$-discounted infinite-horizon Markov decision process (MDPs) with state space $mathcalS$ and action space $mathcalA$を考える。
対象の精度を考慮すれば,モデルに基づく計画アルゴリズムが最小限のサンプルの複雑さを実現するのに十分であることを示す。
論文 参考訳(メタデータ) (2020-05-26T17:53:18Z) - Stochastic Proximal Gradient Algorithm with Minibatches. Application to
Large Scale Learning Models [2.384873896423002]
非滑らかな成分を持つ汎用合成対象関数に対する勾配アルゴリズムのミニバッチ変種を開発し解析する。
我々は、最小バッチサイズ$N$に対して、$mathcalO(frac1Nepsilon)$$epsilon-$subityが最適解に期待される二次距離で達成されるような、定数および変数のステップサイズ反復ポリシーの複雑さを提供する。
論文 参考訳(メタデータ) (2020-03-30T10:43:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。