論文の概要: Temporal Difference Learning with Experience Replay
- arxiv url: http://arxiv.org/abs/2306.09746v1
- Date: Fri, 16 Jun 2023 10:25:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-19 14:20:28.543581
- Title: Temporal Difference Learning with Experience Replay
- Title(参考訳): 経験リプレイによる時間差学習
- Authors: Han-Dong Lim, Donghwan Lee
- Abstract要約: 時間差学習(TD)は、強化学習(RL)において最も一般的なアルゴリズムの1つである。
本稿では,マルコフ雑音項の簡易分解を行い,経験的再生を伴うTD学習における有限時間誤差境界を提供する。
- 参考スコア(独自算出の注目度): 3.5823366350053325
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Temporal-difference (TD) learning is widely regarded as one of the most
popular algorithms in reinforcement learning (RL). Despite its widespread use,
it has only been recently that researchers have begun to actively study its
finite time behavior, including the finite time bound on mean squared error and
sample complexity. On the empirical side, experience replay has been a key
ingredient in the success of deep RL algorithms, but its theoretical effects on
RL have yet to be fully understood. In this paper, we present a simple
decomposition of the Markovian noise terms and provide finite-time error bounds
for TD-learning with experience replay. Specifically, under the Markovian
observation model, we demonstrate that for both the averaged iterate and final
iterate cases, the error term induced by a constant step-size can be
effectively controlled by the size of the replay buffer and the mini-batch
sampled from the experience replay buffer.
- Abstract(参考訳): 時間差学習(TD)は、強化学習(RL)において最も一般的なアルゴリズムの1つである。
広く使われているにもかかわらず、研究者が平均二乗誤差とサンプルの複雑さに縛られた有限時間を含む、その有限時間挙動を積極的に研究し始めたのはつい最近である。
経験リプレイは深部RLアルゴリズムの成功の鍵となる要素であるが、RLに対する理論効果は未だ完全には理解されていない。
本稿では,マルコフ雑音項の簡易分解を行い,経験的再生を伴うTD学習における有限時間誤差境界を提供する。
具体的には,平均的な反復と最終反復の場合の両方において,一定のステップサイズによる誤差項を,リプレイバッファのサイズと経験リプレイバッファからサンプリングしたミニバッチサイズで効果的に制御できることをマルコフ観測モデルにより示す。
関連論文リスト
- A Tighter Convergence Proof of Reverse Experience Replay [16.645967034009225]
強化学習において、Reverse Experience Replay (RER) は古典的経験リプレイ法よりも優れたサンプリング複雑性を実現するアルゴリズムである。
RERは、連続した状態-アクション-リワードを逆順に更新する学習アルゴリズムを必要とする。
理論的には、RERはより大きな学習率とより長いシーケンスで収束することを示す。
論文 参考訳(メタデータ) (2024-08-30T04:11:35Z) - Enhancing Consistency and Mitigating Bias: A Data Replay Approach for
Incremental Learning [100.7407460674153]
ディープラーニングシステムは、一連のタスクから学ぶとき、破滅的な忘れがちだ。
問題を緩和するため、新しいタスクを学ぶ際に経験豊富なタスクのデータを再生する手法が提案されている。
しかし、メモリ制約やデータプライバシーの問題を考慮すると、実際には期待できない。
代替として、分類モデルからサンプルを反転させることにより、データフリーなデータ再生法を提案する。
論文 参考訳(メタデータ) (2024-01-12T12:51:12Z) - Adiabatic replay for continual learning [138.7878582237908]
生成的リプレイは、すでに知られていることを再学習するだけで、より多くの時間を費やします。
我々は、アディバティック・リプレイ(AR)と呼ぶリプレイベースのCL戦略を提案する。
VAEを用いた最先端の深層再生よりもARの方が優れていることを実験的に検証した。
論文 参考訳(メタデータ) (2023-03-23T10:18:06Z) - Actor Prioritized Experience Replay [0.0]
優先度付き体験再生(PER)では、エージェントは時間差誤差(TD)に比例した非一様確率でサンプリングされた遷移から学習することができる。
本稿では,アクター・クリティカルな手法に対する新しい経験リプレイ・サンプリング・フレームワークを紹介し,安定性の問題やPERの実証的性能の低下の背景にある最近の知見についても考察する。
我々の理論的主張を検証し、導入した手法が競合するアプローチを著しく上回ることを示した。
論文 参考訳(メタデータ) (2022-09-01T15:27:46Z) - Look Back When Surprised: Stabilizing Reverse Experience Replay for
Neural Approximation [7.6146285961466]
最近開発された理論上は厳格なリバース・エクスペリエンス・リプレイ(RER)について考察する。
実験を通して、様々なタスクにおけるPER(Preferd Experience Replay)のようなテクニックよりも優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-06-07T10:42:02Z) - Convergence Results For Q-Learning With Experience Replay [51.11953997546418]
コンバージェンスレート保証を行い、リプレイの頻度や回数といった重要なパラメータによってQ-ラーニングのコンバージェンスとどのように比較されるかについて議論する。
また、シンプルなMDPのクラスを導入・分析することで、これを厳格に改善する可能性を示す理論的な証拠も提示する。
論文 参考訳(メタデータ) (2021-12-08T10:22:49Z) - An Investigation of Replay-based Approaches for Continual Learning [79.0660895390689]
連続学習(CL)は機械学習(ML)の大きな課題であり、破滅的忘れ(CF)を伴わずに連続的に複数のタスクを学習する能力を記述する。
いくつかの解クラスが提案されており、その単純さと堅牢性から、いわゆるリプレイベースのアプローチは非常に有望であるように思われる。
連続学習におけるリプレイに基づくアプローチを実証的に検討し,応用の可能性を評価する。
論文 参考訳(メタデータ) (2021-08-15T15:05:02Z) - Stratified Experience Replay: Correcting Multiplicity Bias in Off-Policy
Reinforcement Learning [17.3794999533024]
深部RLは異常なデータの存在に苦慮しているように見える。
近年の研究では、DQN(Deep Q-Network)の性能はリプレイメモリが大きすぎると劣化することが示された。
我々は,リプレイメモリ上で一様にサンプリングする動機を再検討し,関数近似を用いた場合の欠陥を見出した。
論文 参考訳(メタデータ) (2021-02-22T19:29:18Z) - Revisiting Fundamentals of Experience Replay [91.24213515992595]
本稿では,Q-ラーニング手法における経験リプレイの体系的および広範囲な分析について述べる。
我々は、リプレイ能力と、収集した経験に対する学習更新率の2つの基本特性に焦点を当てた。
論文 参考訳(メタデータ) (2020-07-13T21:22:17Z) - Experience Replay with Likelihood-free Importance Weights [123.52005591531194]
本研究は,現在の政策の定常分布下での経験を生かし,その可能性に基づいて,その経験を再評価することを提案する。
提案手法は,ソフトアクタ批判 (SAC) とツイン遅延Deep Deterministic Policy gradient (TD3) の2つの競合手法に実証的に適用する。
論文 参考訳(メタデータ) (2020-06-23T17:17:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。