論文の概要: Improved Regret Bound and Experience Replay in Regularized Policy
Iteration
- arxiv url: http://arxiv.org/abs/2102.12611v1
- Date: Thu, 25 Feb 2021 00:55:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-26 14:02:26.090935
- Title: Improved Regret Bound and Experience Replay in Regularized Policy
Iteration
- Title(参考訳): 定期的なポリシーイテレーションにおけるリグレクトバウンダリとエクスペリエンスリプレイの改善
- Authors: Nevena Lazic, Dong Yin, Yasin Abbasi-Yadkori, Csaba Szepesvari
- Abstract要約: 無限ホライゾンマルコフ決定過程(mdps)における学習アルゴリズムを関数近似を用いて検討する。
まず、ほぼ同一の仮定の下で、Politexアルゴリズムの後悔解析を$O(T3/4)$から$O(sqrtT)$にシャープできることを示す。
その結果、計算効率の良いアルゴリズムに対して、最初の高い確率の$o(sqrtt)$ regretバウンドが得られる。
- 参考スコア(独自算出の注目度): 22.621710838468097
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we study algorithms for learning in infinite-horizon
undiscounted Markov decision processes (MDPs) with function approximation. We
first show that the regret analysis of the Politex algorithm (a version of
regularized policy iteration) can be sharpened from $O(T^{3/4})$ to
$O(\sqrt{T})$ under nearly identical assumptions, and instantiate the bound
with linear function approximation. Our result provides the first
high-probability $O(\sqrt{T})$ regret bound for a computationally efficient
algorithm in this setting. The exact implementation of Politex with neural
network function approximation is inefficient in terms of memory and
computation. Since our analysis suggests that we need to approximate the
average of the action-value functions of past policies well, we propose a
simple efficient implementation where we train a single Q-function on a replay
buffer with past data. We show that this often leads to superior performance
over other implementation choices, especially in terms of wall-clock time. Our
work also provides a novel theoretical justification for using experience
replay within policy iteration algorithms.
- Abstract(参考訳): 本研究では,関数近似を用いた無限水平マルコフ決定過程(MDP)の学習アルゴリズムについて検討する。
まず、ポリテックスアルゴリズム(正規化されたポリシー反復のバージョン)の後悔分析が、ほぼ同一の仮定の下で$O(T^{3/4})$から$O(\sqrt{T})$に鋭くなり、線形関数近似との境界をインスタンス化できることを示した。
その結果、この設定で計算効率の良いアルゴリズムに対して、最初の高い確率の$o(\sqrt{t})$ regretバウンドが得られる。
ニューラルネットワーク関数近似によるpolitexの正確な実装は、メモリと計算の面では非効率である。
我々は過去のポリシーのアクション値関数の平均値をよく近似する必要があることを示唆するので、過去のデータを用いてリプレイバッファ上で単一のQ-関数を訓練する簡単な実装を提案する。
これは、特に壁時計時間の観点から、他の実装よりも優れたパフォーマンスをもたらすことがしばしば示されている。
我々の研究は、ポリシー反復アルゴリズムで経験的リプレイを使用するための新しい理論的正当化も提供する。
関連論文リスト
- Confident Natural Policy Gradient for Local Planning in $q_π$-realizable Constrained MDPs [44.69257217086967]
制約付きマルコフ決定プロセス(CMDP)フレームワークは、安全性や他の重要な目的を課すための重要な強化学習アプローチとして出現する。
本稿では,線形関数近似が$q_pi$-realizabilityで与えられる学習問題に対処する。
論文 参考訳(メタデータ) (2024-06-26T17:57:13Z) - Achieving Tractable Minimax Optimal Regret in Average Reward MDPs [19.663336027878408]
我々は,$widetildemathrmO(sqrtmathrmsp(h*) S A T)$のミニマックス最適後悔を伴う最初の抽出可能なアルゴリズムを提案する。
注目すべきは、我々のアルゴリズムは$mathrmsp(h*)$に関する事前情報を必要としないことである。
論文 参考訳(メタデータ) (2024-06-03T11:53:44Z) - A New Policy Iteration Algorithm For Reinforcement Learning in Zero-Sum
Markov Games [10.805520579293747]
ゲームに対するナイーブなポリシー反復の単純な変種は指数関数的に高速に収束することを示す。
また、線形マルコフゲームの関数近似設定において、ルックアヘッドポリシーを効率的に実装できることを示す。
論文 参考訳(メタデータ) (2023-03-17T01:20:22Z) - Provably Efficient Reinforcement Learning via Surprise Bound [66.15308700413814]
本稿では,一般値関数近似を用いた効率の良い強化学習アルゴリズムを提案する。
本アルゴリズムは, 線形設定と疎高次元線形設定の両方に適用した場合に, 合理的な後悔境界を達成できる。
論文 参考訳(メタデータ) (2023-02-22T20:21:25Z) - Refined Regret for Adversarial MDPs with Linear Function Approximation [50.00022394876222]
我々は,損失関数が約1,300ドル以上のエピソードに対して任意に変化するような,敵対的決定過程(MDP)の学習を検討する。
本稿では,同じ設定で$tildemathcal O(K2/3)$に対する後悔を改善する2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-30T14:37:21Z) - Human-in-the-loop: Provably Efficient Preference-based Reinforcement
Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。
各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。
一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-23T09:03:24Z) - Nearly Optimal Regret for Learning Adversarial MDPs with Linear Function
Approximation [92.3161051419884]
我々は、敵対的な報酬と完全な情報フィードバックで有限正方体エピソディックマルコフ決定プロセスのための強化学習を研究します。
我々は、$tildeO(dHsqrtT)$ regretを達成できることを示し、$H$はエピソードの長さである。
また、対数因子までの$tildeOmega(dHsqrtT)$の値が一致することを証明する。
論文 参考訳(メタデータ) (2021-02-17T18:54:08Z) - Average-Reward Off-Policy Policy Evaluation with Function Approximation [66.67075551933438]
平均報酬MDPの関数近似によるオフポリシ政策評価を検討する。
ブートストラップは必要であり、オフポリシ学習とFAと一緒に、致命的なトライアドをもたらす。
そこで本研究では,勾配型tdアルゴリズムの成功を再現する2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-08T00:43:04Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。