論文の概要: Loss of Plasticity in Continual Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2303.07507v1
- Date: Mon, 13 Mar 2023 22:37:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-15 17:11:55.952222
- Title: Loss of Plasticity in Continual Deep Reinforcement Learning
- Title(参考訳): 連続的深層強化学習における可塑性の喪失
- Authors: Zaheer Abbas, Rosie Zhao, Joseph Modayil, Adam White, Marlos C.
Machado
- Abstract要約: ディープRLエージェントは,Atari 2600の一連のゲームで,優れたポリシーを学習する能力を失っていることを実証する。
我々はこの現象を大規模に研究し、時間とともに重み、勾配、活性化がどのように変化するかを分析する。
解析の結果,ネットワークの活性化フットプリントがスペーサーとなり,勾配が減少することがわかった。
- 参考スコア(独自算出の注目度): 14.475963928766134
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to learn continually is essential in a complex and changing
world. In this paper, we characterize the behavior of canonical value-based
deep reinforcement learning (RL) approaches under varying degrees of
non-stationarity. In particular, we demonstrate that deep RL agents lose their
ability to learn good policies when they cycle through a sequence of Atari 2600
games. This phenomenon is alluded to in prior work under various guises --
e.g., loss of plasticity, implicit under-parameterization, primacy bias, and
capacity loss. We investigate this phenomenon closely at scale and analyze how
the weights, gradients, and activations change over time in several experiments
with varying dimensions (e.g., similarity between games, number of games,
number of frames per game), with some experiments spanning 50 days and 2
billion environment interactions. Our analysis shows that the activation
footprint of the network becomes sparser, contributing to the diminishing
gradients. We investigate a remarkably simple mitigation strategy --
Concatenated ReLUs (CReLUs) activation function -- and demonstrate its
effectiveness in facilitating continual learning in a changing environment.
- Abstract(参考訳): 継続的に学ぶ能力は、複雑で変化する世界において不可欠です。
本稿では,正準値に基づく深部強化学習(RL)アプローチの動作を,非定常度で特徴付ける。
特に,深部RLエージェントは,アタリ2600のゲームシリーズを循環することで,優れたポリシーを学ぶ能力を失うことを示した。
この現象は、可塑性の喪失、暗黙の過パラメータ化、プライマシーバイアス、キャパシティ損失など、様々な状況下での以前の仕事において言及される。
この現象を大規模に検討し,様々な次元(ゲーム数,ゲーム数,ゲーム当たりのフレーム数など)の実験において,重み,勾配,アクティベーションが経時的にどのように変化するかを解析し,50日間から20億の環境相互作用にまたがる実験を行った。
解析の結果,ネットワークのアクティベーションフットプリントはスパーサーとなり,勾配の低下に寄与した。
我々は,非常に単純な緩和戦略である連結relus(crelus)活性化関数を調査し,変化環境における連続学習の促進効果を示す。
関連論文リスト
- Disentangling the Causes of Plasticity Loss in Neural Networks [55.23250269007988]
可塑性の喪失は複数の独立したメカニズムに分解できることを示す。
種々の非定常学習タスクにおいて, 層正規化と重み劣化の組み合わせは, 可塑性維持に極めて有効であることを示す。
論文 参考訳(メタデータ) (2024-02-29T00:02:33Z) - Learning fast changing slow in spiking neural networks [3.626013617212667]
強化学習(Reinforcement Learning, RL)は、実生活問題に適用する際の課題である。
RLはしばしば効果的な学習のためにかなりの量のデータを要求する。
政策最適化の生物学的に妥当な実装を導入する。
論文 参考訳(メタデータ) (2024-01-25T12:03:10Z) - Loss of Plasticity in Deep Continual Learning [12.89550162056095]
連続学習のためのデータセットをタスクのシーケンスとして利用して,可塑性損失の実証を行う。
このアルゴリズムは従来のバックプロパゲーションをわずかに修正し、各例の後で少数の未使用単位を再利用する。
論文 参考訳(メタデータ) (2023-06-23T23:19:21Z) - PLASTIC: Improving Input and Label Plasticity for Sample Efficient
Reinforcement Learning [54.409634256153154]
強化学習(RL)では, サンプル効率の向上が重要である。
原則として、非政治的なRLアルゴリズムは、環境相互作用毎に複数の更新を可能にすることで、サンプル効率を向上させることができる。
本研究は, この現象の原因を, 塑性を2つの側面に分けて検討した。
論文 参考訳(メタデータ) (2023-06-19T06:14:51Z) - Deep Reinforcement Learning with Plasticity Injection [37.19742321534183]
深層強化学習(RL)ネットワークでは、可塑性が徐々に低下することを示す証拠がある。
可塑性注入はパラメータの数を変更せずにネットワーク可塑性を増加させる。
可塑性注入は 代替方法に比べて より強い性能を得る
論文 参考訳(メタデータ) (2023-05-24T20:41:35Z) - Sparsity and Heterogeneous Dropout for Continual Learning in the Null
Space of Neural Activations [36.24028295650668]
非定常的な入力データストリームからの連続的/長期的学習は知性の基盤である。
ディープニューラルネットワークは、新しいものを学ぶ際に、これまで学んだ情報を忘れる傾向がある。
近年、ディープニューラルネットワークにおける破滅的な忘れを乗り越えることが、研究の活発な分野となっている。
論文 参考訳(メタデータ) (2022-03-12T21:12:41Z) - Disturbing Reinforcement Learning Agents with Corrupted Rewards [62.997667081978825]
強化学習アルゴリズムに対する報酬の摂動に基づく異なる攻撃戦略の効果を分析します。
敵対的な報酬をスムーズに作成することは学習者を誤解させることができ、低探査確率値を使用すると、学習した政策は報酬を腐敗させるのがより堅牢であることを示しています。
論文 参考訳(メタデータ) (2021-02-12T15:53:48Z) - Ecological Reinforcement Learning [76.9893572776141]
このような条件下での学習を容易にする環境特性について検討する。
環境の特性が強化学習エージェントのパフォーマンスにどのように影響するかを理解することは、学習を魅力的にする方法でタスクを構造化するのに役立ちます。
論文 参考訳(メタデータ) (2020-06-22T17:55:03Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z) - Understanding the Role of Training Regimes in Continual Learning [51.32945003239048]
破滅的な忘れは、ニューラルネットワークのトレーニングに影響を与え、複数のタスクを逐次学習する能力を制限する。
本研究では,タスクの局所的なミニマを拡大するトレーニング体制の形成に及ぼすドロップアウト,学習速度の低下,バッチサイズの影響について検討した。
論文 参考訳(メタデータ) (2020-06-12T06:00:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。