論文の概要: The Rank and Gradient Lost in Non-stationarity: Sample Weight Decay for Mitigating Plasticity Loss in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2604.01913v1
- Date: Thu, 02 Apr 2026 11:29:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.708397
- Title: The Rank and Gradient Lost in Non-stationarity: Sample Weight Decay for Mitigating Plasticity Loss in Reinforcement Learning
- Title(参考訳): 非定常性におけるランクとグラディエント損失:強化学習における塑性損失の軽減のためのサンプル重量減少
- Authors: Zihao Wu, Hongyao Tang, Yi Ma, Jiashun Liu, Yan Zheng, Jianye Hao,
- Abstract要約: 深部強化学習(RL)は、非定常性の性質により、可塑性の喪失に苦しむ。
ネットワーク最適化の理論的観点から, 可塑性損失問題について検討する。
勾配等級を復元する軽量な手法であるサンプル重み決定法を提案する。
- 参考スコア(独自算出の注目度): 62.72522261010872
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep reinforcement learning (RL) suffers from plasticity loss severely due to the nature of non-stationarity, which impairs the ability to adapt to new data and learn continually. Unfortunately, our understanding of how plasticity loss arises, dissipates, and can be dissolved remains limited to empirical findings, leaving the theoretical end underexplored.To address this gap, we study the plasticity loss problem from the theoretical perspective of network optimization. By formally characterizing the two culprit factors in online RL process: the non-stationarity of data distributions and the non-stationarity of targets induced by bootstrapping, our theory attributes the loss of plasticity to two mechanisms: the rank collapse of the Neural Tangent Kernel (NTK) Gram matrix and the $Θ(\frac{1}{k})$ decay of gradient magnitude. The first mechanism echoes prior empirical findings from the theoretical perspective and sheds light on the effects of existing methods, e.g., network reset, neuron recycle, and noise injection. Against this backdrop, we focus primarily on the second mechanism and aim to alleviate plasticity loss by addressing the gradient attenuation issue, which is orthogonal to existing methods. We propose Sample Weight Decay -- a lightweight method to restore gradient magnitude, as a general remedy to plasticity loss for deep RL methods based on experience replay. In experiments, we evaluate the efficacy of \methodName upon TD3, \myadded{Double DQN} and SAC with SimBa architecture in MuJoCo, \myadded{ALE} and DeepMind Control Suite tasks. The results demonstrate that \methodName effectively alleviates plasticity loss and consistently improves learning performance across various configurations of deep RL algorithms, UTD, network architectures, and environments, achieving SOTA performance on challenging DMC Humanoid tasks.
- Abstract(参考訳): 深部強化学習(英語版)(RL)は、非定常性の性質のため、塑性損失に悩まされ、新しいデータに適応し、継続的に学習する能力が損なわれる。
残念なことに, 可塑性損失の発生, 発散, 溶解に関する我々の理解は, 実験的な結果に留まらず, 理論的には未解明のままであり, このギャップに対処するために, ネットワーク最適化の理論的観点から, 可塑性損失問題について検討する。
オンラインRLプロセスにおける2つの要因を公式に特徴づけることにより、データ分布の非定常性とブートストラップによって誘導されるターゲットの非定常性は、塑性の損失を2つのメカニズム、すなわち、ニューラルタンジェントカーネル(NTK)グラム行列のランク崩壊と、階調のスケールの減衰の$(\frac{1}{k})$の2つのメカニズムに帰着する。
第1のメカニズムは、理論的な観点からの先行経験的な発見を反映し、既存の方法、例えば、ネットワークリセット、ニューロンのリサイクル、ノイズ注入の効果に光を放つ。
このような背景から、我々は主に第2のメカニズムに注目し、既存の手法に直交する勾配減衰問題に対処することで、塑性損失を軽減することを目的としている。
本稿では, 経験再生に基づく深部RL法における塑性損失に対する一般的な対策として, 勾配の程度を復元する軽量な方法であるサンプル重量減少法を提案する。
実験では, MuJoCo, \myadded{ALE} および DeepMind Control Suite タスクにおいて, SimBa アーキテクチャによる TD3, \myadded{Double DQN} および SAC に対する \methodName の有効性を評価する。
以上の結果から, 深部RLアルゴリズム, UTD, ネットワークアーキテクチャ, 環境の様々な構成において, 可塑性損失を効果的に軽減し, 学習性能を継続的に向上し, DMC Humanoid の課題に対して SOTA 性能を達成できることが示唆された。
関連論文リスト
- Rethinking Plasticity in Deep Reinforcement Learning [3.18807491942654]
本稿では, 深部強化学習(RL)における塑性損失の基本的なメカニズムについて検討する。
本稿では,従来のタスクの最適点が,新しいタスクの局所的最適度に乏しいため,可塑性損失が発生することを示唆する最適化・中心塑性(OCP)仮説を提案する。
複雑なドメインにおけるネットワーク可塑性の理解と復元のための厳密な最適化に基づくフレームワークを提供する。
論文 参考訳(メタデータ) (2026-03-22T11:27:16Z) - Spectral Collapse Drives Loss of Plasticity in Deep Continual Learning [14.196969540084929]
深層ニューラルネットワークは、深層学習において可塑性の喪失に悩まされていることを示す。
我々は、$tau$-trainabilityの概念を導入し、現在の可塑性保存アルゴリズムをこのフレームワークで統一できることを示します。
連続的な教師付きおよび強化学習タスクの実験により、これら2つのレギュレータを組み合わせることで、可塑性を効果的に維持できることが確認された。
論文 参考訳(メタデータ) (2025-09-26T13:28:53Z) - Mitigating Plasticity Loss in Continual Reinforcement Learning by Reducing Churn [22.354498355750465]
深部連続RLにおけるチャーンレンズの可塑性損失について検討した。
1) 可塑性の喪失は, ニューラルタンジェントカーネル (NTK) マトリックスの段階的ランク低下によるチャーンの悪化を伴うことを示した。
本稿では,C-CHAIN(Continuous Churn Approximated Reduction)を導入し,学習性能の向上を実証する。
論文 参考訳(メタデータ) (2025-05-31T14:58:22Z) - Plasticine: Accelerating Research in Plasticity-Motivated Deep Reinforcement Learning [122.67854581396578]
Plasticineは、深層強化学習における塑性最適化をベンチマークするためのオープンソースのフレームワークである。
Plasticineは13以上の緩和メソッド、評価メトリクス10、学習シナリオの単一ファイル実装を提供する。
論文 参考訳(メタデータ) (2025-04-24T12:32:13Z) - A Study of Plasticity Loss in On-Policy Deep Reinforcement Learning [7.767611890997147]
本研究は, 都市深部RLのドメインシフトにより, 可塑性損失が広まることを示す。
再生方法のクラスは, 様々な文脈において, 可塑性損失を連続的に軽減できることがわかった。
論文 参考訳(メタデータ) (2024-05-29T14:59:49Z) - Disentangling the Causes of Plasticity Loss in Neural Networks [55.23250269007988]
可塑性の喪失は複数の独立したメカニズムに分解できることを示す。
種々の非定常学習タスクにおいて, 層正規化と重み劣化の組み合わせは, 可塑性維持に極めて有効であることを示す。
論文 参考訳(メタデータ) (2024-02-29T00:02:33Z) - Revisiting Plasticity in Visual Reinforcement Learning: Data, Modules and Training Stages [56.98243487769916]
ニューラルネットワークが新しいデータで進化する能力である塑性は、高性能でサンプル効率のよい視覚強化学習に不可欠である。
本稿では,批評家の可塑性レベルに基づいてリプレイ率を動的に調整するAdaptive RRを提案する。
論文 参考訳(メタデータ) (2023-10-11T12:05:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。