論文の概要: Transient Non-Stationarity and Generalisation in Deep Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2006.05826v4
- Date: Wed, 22 Sep 2021 08:03:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 04:02:43.707934
- Title: Transient Non-Stationarity and Generalisation in Deep Reinforcement
Learning
- Title(参考訳): 深層強化学習における過渡的非定常性と一般化
- Authors: Maximilian Igl, Gregory Farquhar, Jelena Luketina, Wendelin Boehmer,
Shimon Whiteson
- Abstract要約: 非定常性は、静止環境においても強化学習(Reinforcement Learning, RL)において生じることがある。
深部RLエージェントの一般化を改善するため,ITER(Iterated Relearning)を提案する。
- 参考スコア(独自算出の注目度): 67.34810824996887
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Non-stationarity can arise in Reinforcement Learning (RL) even in stationary
environments. For example, most RL algorithms collect new data throughout
training, using a non-stationary behaviour policy. Due to the transience of
this non-stationarity, it is often not explicitly addressed in deep RL and a
single neural network is continually updated. However, we find evidence that
neural networks exhibit a memory effect where these transient
non-stationarities can permanently impact the latent representation and
adversely affect generalisation performance. Consequently, to improve
generalisation of deep RL agents, we propose Iterated Relearning (ITER). ITER
augments standard RL training by repeated knowledge transfer of the current
policy into a freshly initialised network, which thereby experiences less
non-stationarity during training. Experimentally, we show that ITER improves
performance on the challenging generalisation benchmarks ProcGen and Multiroom.
- Abstract(参考訳): 非定常性は、静止環境においても強化学習(RL)に現れる。
例えば、ほとんどのRLアルゴリズムは、非定常行動ポリシーを使用してトレーニングを通して新しいデータを収集する。
この非定常性の透明性のため、ディープRLでは明示的に対応されず、単一のニューラルネットワークが継続的に更新される。
しかし,これらの過渡的非定常性が潜在表現に恒久的に影響を与え,一般化性能に悪影響を及ぼすような記憶効果を示す証拠が得られた。
その結果、深層RLエージェントの一般化を改善するために、ITER(Iterated Relearning)を提案する。
ITERは、現在のポリシーの繰り返し知識を新たな初期化ネットワークに伝達することで標準的RLトレーニングを強化し、トレーニング中に非定常性が低下する。
実験的に、iterはprogenとmultiroomの挑戦的一般化ベンチマークの性能を向上させることを示した。
関連論文リスト
- Is Value Learning Really the Main Bottleneck in Offline RL? [70.54708989409409]
ポリシー抽出アルゴリズムの選択はオフラインRLの性能とスケーラビリティに大きく影響することを示す。
本稿では,2つの簡易なテスト時ポリシー改善手法を提案し,これらの手法が性能向上につながることを示す。
論文 参考訳(メタデータ) (2024-06-13T17:07:49Z) - Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。
本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文 参考訳(メタデータ) (2022-06-05T08:49:16Z) - Understanding and Preventing Capacity Loss in Reinforcement Learning [28.52122927103544]
我々は、非定常予測対象が深層RLエージェントの学習進行を阻止できるメカニズムを同定する。
キャパシティ損失は様々なRLエージェントや環境で発生し、特にスパース・リワードタスクのパフォーマンスにダメージを与えている。
論文 参考訳(メタデータ) (2022-04-20T15:55:15Z) - Single-Shot Pruning for Offline Reinforcement Learning [47.886329599997474]
深層強化学習(Deep Reinforcement Learning, RL)は、複雑な現実世界の問題を解決するための強力なフレームワークである。
この問題に対処するひとつの方法は、必要なパラメータだけを残したニューラルネットワークをプルークすることです。
我々は,RLと単発プルーニングのギャップを埋め,オフラインRLに対する一般的なプルーニング手法を提案する。
論文 参考訳(メタデータ) (2021-12-31T18:10:02Z) - What training reveals about neural network complexity [80.87515604428346]
この研究は、ディープニューラルネットワーク(NN)が学習している関数の複雑さは、トレーニング中にその重みがどれほど速く変化するかによって推定できるという仮説を探求する。
我々の結果は、優れた訓練行動が良い一般化への有用なバイアスとなるという仮説を支持している。
論文 参考訳(メタデータ) (2021-06-08T08:58:00Z) - Stratified Experience Replay: Correcting Multiplicity Bias in Off-Policy
Reinforcement Learning [17.3794999533024]
深部RLは異常なデータの存在に苦慮しているように見える。
近年の研究では、DQN(Deep Q-Network)の性能はリプレイメモリが大きすぎると劣化することが示された。
我々は,リプレイメモリ上で一様にサンプリングする動機を再検討し,関数近似を用いた場合の欠陥を見出した。
論文 参考訳(メタデータ) (2021-02-22T19:29:18Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。