論文の概要: Convergence Results For Q-Learning With Experience Replay
- arxiv url: http://arxiv.org/abs/2112.04213v1
- Date: Wed, 8 Dec 2021 10:22:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-09 22:00:55.095969
- Title: Convergence Results For Q-Learning With Experience Replay
- Title(参考訳): 体験リプレイによるQ-Learningの収束結果
- Authors: Liran Szlak, Ohad Shamir
- Abstract要約: コンバージェンスレート保証を行い、リプレイの頻度や回数といった重要なパラメータによってQ-ラーニングのコンバージェンスとどのように比較されるかについて議論する。
また、シンプルなMDPのクラスを導入・分析することで、これを厳格に改善する可能性を示す理論的な証拠も提示する。
- 参考スコア(独自算出の注目度): 51.11953997546418
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A commonly used heuristic in RL is experience replay
(e.g.~\citet{lin1993reinforcement, mnih2015human}), in which a learner stores
and re-uses past trajectories as if they were sampled online. In this work, we
initiate a rigorous study of this heuristic in the setting of tabular
Q-learning. We provide a convergence rate guarantee, and discuss how it
compares to the convergence of Q-learning depending on important parameters
such as the frequency and number of replay iterations. We also provide
theoretical evidence showing when we might expect this heuristic to strictly
improve performance, by introducing and analyzing a simple class of MDPs.
Finally, we provide some experiments to support our theoretical findings.
- Abstract(参考訳): RLにおける一般的なヒューリスティックは、学習者が過去の軌跡をオンラインのサンプルのように保存し再利用する経験再生(例:~\citet{lin 1993reinforcement, mnih2015human})である。
本研究では,表型q-learningの設定において,このヒューリスティックを厳密に研究する。
本稿では,リプレイ回数の頻度や回数といった重要なパラメータによるq-learningの収束と比較し,収束率の保証について考察する。
また,シンプルなMDPのクラスを導入,分析することにより,このヒューリスティックな性能向上が期待できることを示す理論的証拠も提示する。
最後に,理論的な知見を裏付ける実験を行った。
関連論文リスト
- SF-DQN: Provable Knowledge Transfer using Successor Feature for Deep Reinforcement Learning [89.04776523010409]
本稿では、複数のRL問題が異なる報酬関数を持つが、基礎となる遷移力学を共有する転写強化学習(RL)問題を考察する。
この設定では、各RL問題(タスク)のQ-関数を後継特徴(SF)と報酬マッピングに分解することができる。
GPIを用いたSF-DQNの証明可能な一般化保証を用いた最初の収束解析を確立する。
論文 参考訳(メタデータ) (2024-05-24T20:30:14Z) - Look Back When Surprised: Stabilizing Reverse Experience Replay for
Neural Approximation [7.6146285961466]
最近開発された理論上は厳格なリバース・エクスペリエンス・リプレイ(RER)について考察する。
実験を通して、様々なタスクにおけるPER(Preferd Experience Replay)のようなテクニックよりも優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-06-07T10:42:02Z) - Improving Experience Replay with Successor Representation [0.0]
優先順位付けされた経験の再生は、学習を高速化する強化学習技術である。
神経科学における最近の研究は、生物において、リプレイは利得と必要性の両方によって優先順位付けされていることを示唆している。
論文 参考訳(メタデータ) (2021-11-29T05:25:54Z) - Online Target Q-learning with Reverse Experience Replay: Efficiently
finding the Optimal Policy for Linear MDPs [50.75812033462294]
我々は,Q-ラーニングの実践的成功と悲観的理論的結果とのギャップを埋める。
本稿では,新しいQ-Rex法とQ-RexDaReを提案する。
Q-Rex は線形 MDP の最適ポリシを効率的に見つけることができる。
論文 参考訳(メタデータ) (2021-10-16T01:47:41Z) - Critical Parameters for Scalable Distributed Learning with Large Batches
and Asynchronous Updates [67.19481956584465]
飽和を伴う分散トレーニング(SGD)の効率は、バッチサイズと、実装における停滞に決定的に依存することが実験的に観察されている。
結果がタイトであることを示し、数値実験で重要な結果を示しています。
論文 参考訳(メタデータ) (2021-03-03T12:08:23Z) - Learning to Sample with Local and Global Contexts in Experience Replay
Buffer [135.94190624087355]
遷移の相対的重要性を計算できる学習に基づく新しいサンプリング手法を提案する。
本研究の枠組みは, 様々な非政治強化学習手法の性能を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:12:56Z) - Revisiting Fundamentals of Experience Replay [91.24213515992595]
本稿では,Q-ラーニング手法における経験リプレイの体系的および広範囲な分析について述べる。
我々は、リプレイ能力と、収集した経験に対する学習更新率の2つの基本特性に焦点を当てた。
論文 参考訳(メタデータ) (2020-07-13T21:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。