論文の概要: Loss of Plasticity in Continual Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2303.07507v1
- Date: Mon, 13 Mar 2023 22:37:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-15 17:11:55.952222
- Title: Loss of Plasticity in Continual Deep Reinforcement Learning
- Title(参考訳): 連続的深層強化学習における可塑性の喪失
- Authors: Zaheer Abbas, Rosie Zhao, Joseph Modayil, Adam White, Marlos C.
Machado
- Abstract要約: ディープRLエージェントは,Atari 2600の一連のゲームで,優れたポリシーを学習する能力を失っていることを実証する。
我々はこの現象を大規模に研究し、時間とともに重み、勾配、活性化がどのように変化するかを分析する。
解析の結果,ネットワークの活性化フットプリントがスペーサーとなり,勾配が減少することがわかった。
- 参考スコア(独自算出の注目度): 14.475963928766134
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to learn continually is essential in a complex and changing
world. In this paper, we characterize the behavior of canonical value-based
deep reinforcement learning (RL) approaches under varying degrees of
non-stationarity. In particular, we demonstrate that deep RL agents lose their
ability to learn good policies when they cycle through a sequence of Atari 2600
games. This phenomenon is alluded to in prior work under various guises --
e.g., loss of plasticity, implicit under-parameterization, primacy bias, and
capacity loss. We investigate this phenomenon closely at scale and analyze how
the weights, gradients, and activations change over time in several experiments
with varying dimensions (e.g., similarity between games, number of games,
number of frames per game), with some experiments spanning 50 days and 2
billion environment interactions. Our analysis shows that the activation
footprint of the network becomes sparser, contributing to the diminishing
gradients. We investigate a remarkably simple mitigation strategy --
Concatenated ReLUs (CReLUs) activation function -- and demonstrate its
effectiveness in facilitating continual learning in a changing environment.
- Abstract(参考訳): 継続的に学ぶ能力は、複雑で変化する世界において不可欠です。
本稿では,正準値に基づく深部強化学習(RL)アプローチの動作を,非定常度で特徴付ける。
特に,深部RLエージェントは,アタリ2600のゲームシリーズを循環することで,優れたポリシーを学ぶ能力を失うことを示した。
この現象は、可塑性の喪失、暗黙の過パラメータ化、プライマシーバイアス、キャパシティ損失など、様々な状況下での以前の仕事において言及される。
この現象を大規模に検討し,様々な次元(ゲーム数,ゲーム数,ゲーム当たりのフレーム数など)の実験において,重み,勾配,アクティベーションが経時的にどのように変化するかを解析し,50日間から20億の環境相互作用にまたがる実験を行った。
解析の結果,ネットワークのアクティベーションフットプリントはスパーサーとなり,勾配の低下に寄与した。
我々は,非常に単純な緩和戦略である連結relus(crelus)活性化関数を調査し,変化環境における連続学習の促進効果を示す。
関連論文リスト
- Plasticity Loss in Deep Reinforcement Learning: A Survey [15.525552360867367]
塑性は深層強化学習(RL)エージェントにとって不可欠である。
可塑性が失われると、データ分布の変化を考慮に入れないため、エージェントのパフォーマンスが低下する。
可塑性の喪失は、トレーニング不安定性、スケール失敗、過大評価バイアス、探検不足など、深いRLを悩ませる多くの問題と結びつくことができる。
論文 参考訳(メタデータ) (2024-11-07T16:13:54Z) - Normalization and effective learning rates in reinforcement learning [52.59508428613934]
正規化層は近年,深層強化学習と連続学習文学においてルネッサンスを経験している。
正規化は、ネットワークパラメータのノルムにおける成長と効果的な学習速度における崩壊の間の等価性という、微妙だが重要な副作用をもたらすことを示す。
そこで本研究では,正規化・プロジェクトと呼ぶ単純な再パラメータ化により,学習率を明示的にする手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T20:58:01Z) - A Study of Plasticity Loss in On-Policy Deep Reinforcement Learning [7.767611890997147]
本研究は, 都市深部RLのドメインシフトにより, 可塑性損失が広まることを示す。
再生方法のクラスは, 様々な文脈において, 可塑性損失を連続的に軽減できることがわかった。
論文 参考訳(メタデータ) (2024-05-29T14:59:49Z) - Disentangling the Causes of Plasticity Loss in Neural Networks [55.23250269007988]
可塑性の喪失は複数の独立したメカニズムに分解できることを示す。
種々の非定常学習タスクにおいて, 層正規化と重み劣化の組み合わせは, 可塑性維持に極めて有効であることを示す。
論文 参考訳(メタデータ) (2024-02-29T00:02:33Z) - Learning fast changing slow in spiking neural networks [3.069335774032178]
強化学習(Reinforcement Learning, RL)は、実生活問題に適用する際の課題である。
生涯学習機械は可塑性安定パラドックスを解決しなければならない。
新たな知識の獲得と安定性の維持のバランスを取ることは、人工エージェントにとって不可欠である。
論文 参考訳(メタデータ) (2024-01-25T12:03:10Z) - PLASTIC: Improving Input and Label Plasticity for Sample Efficient
Reinforcement Learning [54.409634256153154]
強化学習(RL)では, サンプル効率の向上が重要である。
原則として、非政治的なRLアルゴリズムは、環境相互作用毎に複数の更新を可能にすることで、サンプル効率を向上させることができる。
本研究は, この現象の原因を, 塑性を2つの側面に分けて検討した。
論文 参考訳(メタデータ) (2023-06-19T06:14:51Z) - Deep Reinforcement Learning with Plasticity Injection [37.19742321534183]
深層強化学習(RL)ネットワークでは、可塑性が徐々に低下することを示す証拠がある。
可塑性注入はパラメータの数を変更せずにネットワーク可塑性を増加させる。
可塑性注入は 代替方法に比べて より強い性能を得る
論文 参考訳(メタデータ) (2023-05-24T20:41:35Z) - Disturbing Reinforcement Learning Agents with Corrupted Rewards [62.997667081978825]
強化学習アルゴリズムに対する報酬の摂動に基づく異なる攻撃戦略の効果を分析します。
敵対的な報酬をスムーズに作成することは学習者を誤解させることができ、低探査確率値を使用すると、学習した政策は報酬を腐敗させるのがより堅牢であることを示しています。
論文 参考訳(メタデータ) (2021-02-12T15:53:48Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z) - Understanding the Role of Training Regimes in Continual Learning [51.32945003239048]
破滅的な忘れは、ニューラルネットワークのトレーニングに影響を与え、複数のタスクを逐次学習する能力を制限する。
本研究では,タスクの局所的なミニマを拡大するトレーニング体制の形成に及ぼすドロップアウト,学習速度の低下,バッチサイズの影響について検討した。
論文 参考訳(メタデータ) (2020-06-12T06:00:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。