論文の概要: Revisiting Peng's Q($\lambda$) for Modern Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2103.00107v1
- Date: Sat, 27 Feb 2021 02:29:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-06 05:27:22.190915
- Title: Revisiting Peng's Q($\lambda$) for Modern Reinforcement Learning
- Title(参考訳): 現代強化学習のためのpengのq($\lambda$)の再検討
- Authors: Tadashi Kozuno, Yunhao Tang, Mark Rowland, R\'emi Munos, Steven
Kapturowski, Will Dabney, Michal Valko, David Abel
- Abstract要約: オフライン多段階強化学習アルゴリズムは、保守的および非保守的アルゴリズムからなる。
最近の研究では、非保守的アルゴリズムが保守的アルゴリズムよりも優れていることが示されている。
- 参考スコア(独自算出の注目度): 69.39357308375212
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Off-policy multi-step reinforcement learning algorithms consist of
conservative and non-conservative algorithms: the former actively cut traces,
whereas the latter do not. Recently, Munos et al. (2016) proved the convergence
of conservative algorithms to an optimal Q-function. In contrast,
non-conservative algorithms are thought to be unsafe and have a limited or no
theoretical guarantee. Nonetheless, recent studies have shown that
non-conservative algorithms empirically outperform conservative ones. Motivated
by the empirical results and the lack of theory, we carry out theoretical
analyses of Peng's Q($\lambda$), a representative example of non-conservative
algorithms. We prove that it also converges to an optimal policy provided that
the behavior policy slowly tracks a greedy policy in a way similar to
conservative policy iteration. Such a result has been conjectured to be true
but has not been proven. We also experiment with Peng's Q($\lambda$) in complex
continuous control tasks, confirming that Peng's Q($\lambda$) often outperforms
conservative algorithms despite its simplicity. These results indicate that
Peng's Q($\lambda$), which was thought to be unsafe, is a theoretically-sound
and practically effective algorithm.
- Abstract(参考訳): オフポリシーのマルチステップ強化学習アルゴリズムは保守的および非保守的なアルゴリズムで構成されています。
最近、Munos et al。
(2016) 保守的アルゴリズムの最適q関数への収束を証明した。
対照的に、非保存アルゴリズムは安全ではなく、理論的な保証がないと考えられている。
しかし、最近の研究では、非保守的なアルゴリズムは保守的なアルゴリズムよりも経験的に優れていることが示されている。
経験的な結果と理論の欠如に動機づけられて、非保守アルゴリズムの代表的な例であるPeng's Q($\lambda$)の理論的解析を行う。
行動政策が徐々に、保守的な政策の反復と似た方法で欲求政策を追跡できるようにすれば、最適な政策に収束することも証明できる。
このような結果は真実であると推測されているが、証明されていない。
また、pengのq($\lambda$)を複雑な連続制御タスクで実験し、pengのq($\lambda$)が単純さにもかかわらず保守的なアルゴリズムよりも優れていることを確かめた。
これらの結果は、pengのq($\lambda$)は安全でないと考えられていたが、理論的に健全で効果的なアルゴリズムであることを示している。
関連論文リスト
- Conservative Exploration for Policy Optimization via Off-Policy Policy
Evaluation [4.837737516460689]
我々は,少なくとも学習者がその性能を保証できなければならない保守的な探索の問題を,少なくとも基本方針と同程度によく研究する。
連続有限ホライゾン問題におけるポリシー最適化のための最初の保守的証明可能なモデルフリーアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-24T10:59:32Z) - Bridging the Gap between Newton-Raphson Method and Regularized Policy
Iteration [13.166738075816493]
規則化されたポリシー反復は、強い凸関数を持つベルマン方程式を滑らかにする条件において、標準ニュートン・ラフソン法と厳密に等価であることを示す。
正規化政策反復が大域的線形収束を持ち、そのレートが$gamma$ (discount factor)であることを証明する。
また、正規化ポリシー反復の修正版、すなわち有限ステップのポリシー評価はニュートン法と等価であり、ニュートンの反復式はトランカットされた反復で解かれることを示す。
論文 参考訳(メタデータ) (2023-10-11T05:55:20Z) - Low-Switching Policy Gradient with Exploration via Online Sensitivity
Sampling [23.989009116398208]
一般非線形関数近似を用いた低スイッチングサンプリング効率ポリシ最適化アルゴリズム LPO を設計する。
提案アルゴリズムは,$widetildeO(fractextpoly(d)varepsilon3)$サンプルのみを用いて,$varepsilon$-optimal Policyを得る。
論文 参考訳(メタデータ) (2023-06-15T23:51:46Z) - Revisiting Weighted Strategy for Non-stationary Parametric Bandits [82.1942459195896]
本稿では,非定常パラメトリックバンディットの重み付け戦略を再考する。
より単純な重みに基づくアルゴリズムを生成する改良された分析フレームワークを提案する。
我々の新しいフレームワークは、他のパラメトリックバンディットの後悔の限界を改善するのに使える。
論文 参考訳(メタデータ) (2023-03-05T15:11:14Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Continuous-Time Fitted Value Iteration for Robust Policies [93.25997466553929]
ハミルトン・ヤコビ・ベルマン方程式の解法は、制御、ロボティクス、経済学を含む多くの領域において重要である。
連続適合値反復(cFVI)とロバスト適合値反復(rFVI)を提案する。
これらのアルゴリズムは、多くの連続制御問題の非線形制御-アフィンダイナミクスと分離可能な状態とアクション報酬を利用する。
論文 参考訳(メタデータ) (2021-10-05T11:33:37Z) - Implicitly Regularized RL with Implicit Q-Values [42.87920755961722]
Q$関数は多くの強化学習(RL)アルゴリズムにおいて中心的な量であり、RLエージェントは(ソフト)グレーディポリシーに従って振る舞う。
対数政治と値関数の和として、暗黙的に$Q$-関数をパラメータ化することを提案する。
我々は,大規模アクション空間に適した実用的な非政治的深部RLアルゴリズムを導出し,ポリシーと$Q$値とのソフトマックス関係を強制する。
論文 参考訳(メタデータ) (2021-08-16T12:20:47Z) - Improved Regret Bound and Experience Replay in Regularized Policy
Iteration [22.621710838468097]
無限ホライゾンマルコフ決定過程(mdps)における学習アルゴリズムを関数近似を用いて検討する。
まず、ほぼ同一の仮定の下で、Politexアルゴリズムの後悔解析を$O(T3/4)$から$O(sqrtT)$にシャープできることを示す。
その結果、計算効率の良いアルゴリズムに対して、最初の高い確率の$o(sqrtt)$ regretバウンドが得られる。
論文 参考訳(メタデータ) (2021-02-25T00:55:07Z) - Improved Algorithms for Conservative Exploration in Bandits [113.55554483194832]
文脈線形帯域設定における保守的学習問題について検討し、新しいアルゴリズムである保守的制約付きLinUCB(CLUCB2)を導入する。
我々は、既存の結果と一致したCLUCB2に対する後悔の限界を導き、多くの合成および実世界の問題において、最先端の保守的バンディットアルゴリズムよりも優れていることを実証的に示す。
論文 参考訳(メタデータ) (2020-02-08T19:35:01Z) - Conservative Exploration in Reinforcement Learning [113.55554483194832]
平均報酬と有限地平線問題に対する保守的探索の概念を導入する。
我々は、学習中に保守的な制約が決して違反されないことを保証する楽観的なアルゴリズムを2つ提示する。
論文 参考訳(メタデータ) (2020-02-08T19:09:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。