論文の概要: Adaptive Approximate Policy Iteration
- arxiv url: http://arxiv.org/abs/2002.03069v4
- Date: Thu, 11 Feb 2021 17:01:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 22:21:08.519025
- Title: Adaptive Approximate Policy Iteration
- Title(参考訳): 適応近似ポリシー反復
- Authors: Botao Hao, Nevena Lazic, Yasin Abbasi-Yadkori, Pooria Joulani, Csaba
Szepesvari
- Abstract要約: 均一なエルゴディックMDPの学習を継続する学習方法として,$tildeO(T2/3)$ regret bound for undiscounted, continuing learning in uniformly ergodic MDPを提案する。
これは、関数近似を持つ平均逆ケースに対する$tildeO(T3/4)$の最良の既存の境界よりも改善されている。
- 参考スコア(独自算出の注目度): 22.915651391812187
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model-free reinforcement learning algorithms combined with value function
approximation have recently achieved impressive performance in a variety of
application domains. However, the theoretical understanding of such algorithms
is limited, and existing results are largely focused on episodic or discounted
Markov decision processes (MDPs). In this work, we present adaptive approximate
policy iteration (AAPI), a learning scheme which enjoys a $\tilde{O}(T^{2/3})$
regret bound for undiscounted, continuing learning in uniformly ergodic MDPs.
This is an improvement over the best existing bound of $\tilde{O}(T^{3/4})$ for
the average-reward case with function approximation. Our algorithm and analysis
rely on online learning techniques, where value functions are treated as
losses. The main technical novelty is the use of a data-dependent adaptive
learning rate coupled with a so-called optimistic prediction of upcoming
losses. In addition to theoretical guarantees, we demonstrate the advantages of
our approach empirically on several environments.
- Abstract(参考訳): 値関数近似と組み合わされたモデルフリー強化学習アルゴリズムは、最近様々なアプリケーションドメインで印象的なパフォーマンスを達成している。
しかし、そのようなアルゴリズムの理論的理解は限られており、既存の結果は主にエピソードまたは割引マルコフ決定過程(MDP)に焦点を当てている。
本研究では,一様エルゴード MDP における学習を継続し,未報告で $\tilde{O}(T^{2/3})$ regret bound を楽しむ学習スキームである適応近似ポリシー反復 (AAPI) を提案する。
これは、関数近似を持つ平均後退の場合に対して、最良限の$\tilde{o}(t^{3/4})$に対する改善である。
我々のアルゴリズムと分析は、価値関数を損失として扱うオンライン学習技術に依存している。
主な技術的特徴は、データ依存型適応学習率と、今後の損失の楽観的予測の組み合わせである。
理論的保証に加えて,いくつかの環境におけるアプローチの利点を実証的に示す。
関連論文リスト
- Improved Regret for Efficient Online Reinforcement Learning with Linear
Function Approximation [69.0695698566235]
線形関数近似による強化学習と,コスト関数の逆変化について検討した。
本稿では,未知のダイナミクスと帯域幅フィードバックの一般設定に挑戦する,計算効率のよいポリシ最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-30T17:26:39Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Stochastic convex optimization for provably efficient apprenticeship
learning [1.0609815608017066]
コスト関数が不明な大規模マルコフ決定プロセス(MDP)について検討する。
擬似学習の課題に対処するために凸最適化ツールを用いており、これは、限られた専門家による実証からポリシーを学習するものである。
論文 参考訳(メタデータ) (2021-12-31T19:47:57Z) - Meta-Regularization: An Approach to Adaptive Choice of the Learning Rate
in Gradient Descent [20.47598828422897]
第一次下降法における学習率の適応的選択のための新しいアプローチであるtextit-Meta-Regularizationを提案する。
本手法は,正規化項を追加して目的関数を修正し,共同処理パラメータをキャストする。
論文 参考訳(メタデータ) (2021-04-12T13:13:34Z) - Provably Correct Optimization and Exploration with Non-linear Policies [65.60853260886516]
ENIACは、批評家の非線形関数近似を可能にするアクター批判手法である。
特定の仮定の下では、学習者は$o(poly(d))$の探索ラウンドで最適に近い方針を見つける。
我々は,この適応を経験的に評価し,線形手法に触発された前処理よりも優れることを示す。
論文 参考訳(メタデータ) (2021-03-22T03:16:33Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Queueing Network Controls via Deep Reinforcement Learning [0.0]
待ち行列ネットワークのためのポリシ最適化アルゴリズムを開発した。
このアルゴリズムは、文学における最先端よりも優れた制御ポリシーを一貫して生成する。
PPOアルゴリズムの成功の鍵は、相対値関数を推定するために3つの分散還元技術を使用することである。
論文 参考訳(メタデータ) (2020-07-31T01:02:57Z) - Reinforcement Learning with General Value Function Approximation:
Provably Efficient Approach via Bounded Eluder Dimension [124.7752517531109]
一般値関数近似を用いた効率の良い強化学習アルゴリズムを確立する。
我々のアルゴリズムは、$d$が複雑性測度である場合、$widetildeO(mathrmpoly(dH)sqrtT)$の後悔の限界を達成することを示す。
我々の理論は線形値関数近似によるRLの最近の進歩を一般化し、環境モデルに対する明示的な仮定をしない。
論文 参考訳(メタデータ) (2020-05-21T17:36:09Z) - Optimizing for the Future in Non-Stationary MDPs [52.373873622008944]
本稿では,今後の性能予測を最大化するポリシ勾配アルゴリズムを提案する。
我々のアルゴリズムであるPrognosticatorは2つのオンライン適応手法よりも非定常性に頑健であることを示す。
論文 参考訳(メタデータ) (2020-05-17T03:41:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。