論文の概要: Mitigating Plasticity Loss in Continual Reinforcement Learning by Reducing Churn
- arxiv url: http://arxiv.org/abs/2506.00592v1
- Date: Sat, 31 May 2025 14:58:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.279036
- Title: Mitigating Plasticity Loss in Continual Reinforcement Learning by Reducing Churn
- Title(参考訳): チャーン低減による連続強化学習における塑性損失の軽減
- Authors: Hongyao Tang, Johan Obando-Ceron, Pablo Samuel Castro, Aaron Courville, Glen Berseth,
- Abstract要約: 深部連続RLにおけるチャーンレンズの可塑性損失について検討した。
1) 可塑性の喪失は, ニューラルタンジェントカーネル (NTK) マトリックスの段階的ランク低下によるチャーンの悪化を伴うことを示した。
本稿では,C-CHAIN(Continuous Churn Approximated Reduction)を導入し,学習性能の向上を実証する。
- 参考スコア(独自算出の注目度): 22.354498355750465
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Plasticity, or the ability of an agent to adapt to new tasks, environments, or distributions, is crucial for continual learning. In this paper, we study the loss of plasticity in deep continual RL from the lens of churn: network output variability for out-of-batch data induced by mini-batch training. We demonstrate that (1) the loss of plasticity is accompanied by the exacerbation of churn due to the gradual rank decrease of the Neural Tangent Kernel (NTK) matrix; (2) reducing churn helps prevent rank collapse and adjusts the step size of regular RL gradients adaptively. Moreover, we introduce Continual Churn Approximated Reduction (C-CHAIN) and demonstrate it improves learning performance and outperforms baselines in a diverse range of continual learning environments on OpenAI Gym Control, ProcGen, DeepMind Control Suite, and MinAtar benchmarks.
- Abstract(参考訳): 塑性は、エージェントが新しいタスク、環境、あるいは分布に適応する能力であり、継続的な学習には不可欠である。
本稿では, チャンクレンズからの深部連続RLの可塑性損失について検討する: ミニバッチトレーニングにより誘導されるバッチ外データに対するネットワーク出力のばらつきについて検討する。
以上の結果から, 1) 可塑性の喪失は, ニューラルタンジェントカーネル (NTK) 行列の段階的な階調低下によるチャーンの悪化に伴うものであり, 2) チャーン低減はランク崩壊の防止に役立ち, 通常のRL勾配のステップサイズを適応的に調整することを示した。
さらに、C-CHAIN(Continuous Churn Approximated Reduction)を導入し、OpenAI Gym Control、ProcGen、DeepMind Control Suite、MinAtarベンチマークの様々な連続学習環境において、学習性能を改善し、ベースラインを上回っていることを示す。
関連論文リスト
- Preserving Plasticity in Continual Learning with Adaptive Linearity Injection [10.641213440191551]
ディープニューラルネットワークにおける可塑性の喪失は、漸進的に学習するモデルの能力が徐々に低下することである。
近年の研究では、深い線形ネットワークは可塑性の喪失に対して弾力性があることが示されている。
適応線形化(AdaLin)は,各ニューロンの活性化機能を動的に適応し,可塑性損失を軽減する一般的な手法である。
論文 参考訳(メタデータ) (2025-05-14T15:36:51Z) - Plasticine: Accelerating Research in Plasticity-Motivated Deep Reinforcement Learning [122.67854581396578]
Plasticineは、深層強化学習における塑性最適化をベンチマークするためのオープンソースのフレームワークである。
Plasticineは13以上の緩和メソッド、評価メトリクス10、学習シナリオの単一ファイル実装を提供する。
論文 参考訳(メタデータ) (2025-04-24T12:32:13Z) - Activation by Interval-wise Dropout: A Simple Way to Prevent Neural Networks from Plasticity Loss [3.841822016067955]
塑性損失は、新しいタスクやデータ分散のシフトに適応するモデルの能力を制限する。
本稿では,AID (Activation by Interval-wise Dropout) について紹介する。
AIDはネットワークを正規化し,可塑性損失を伴わない深い線形ネットワークに類似した振舞いを促進する。
論文 参考訳(メタデータ) (2025-02-03T13:34:53Z) - Improving Deep Reinforcement Learning by Reducing the Chain Effect of Value and Policy Churn [14.30387204093346]
ディープニューラルネットワークは、大規模な意思決定問題に対処するために強化学習(RL)強力な関数近似器を提供する。
RLの課題の1つは、出力予測が小さくなり、バッチに含まれない状態に対する各バッチ更新後の制御不能な変更につながることである。
本稿では,既存のDRLアルゴリズムに容易に接続可能なChurn Approximated ReductIoN (CHAIN) と呼ばれる,異なる設定でチェーン効果を低減させる手法を提案する。
論文 参考訳(メタデータ) (2024-09-07T11:08:20Z) - A Study of Plasticity Loss in On-Policy Deep Reinforcement Learning [7.767611890997147]
本研究は, 都市深部RLのドメインシフトにより, 可塑性損失が広まることを示す。
再生方法のクラスは, 様々な文脈において, 可塑性損失を連続的に軽減できることがわかった。
論文 参考訳(メタデータ) (2024-05-29T14:59:49Z) - Revisiting Plasticity in Visual Reinforcement Learning: Data, Modules and Training Stages [56.98243487769916]
ニューラルネットワークが新しいデータで進化する能力である塑性は、高性能でサンプル効率のよい視覚強化学習に不可欠である。
本稿では,批評家の可塑性レベルに基づいてリプレイ率を動的に調整するAdaptive RRを提案する。
論文 参考訳(メタデータ) (2023-10-11T12:05:34Z) - Decoupled Kullback-Leibler Divergence Loss [90.54331083430597]
我々は、クルバック・リブラー(KL)の除算損失がデカップリングカルバック・リブラー(DKL)の除算損失と等価であることを証明した。
我々はKL/DKLにクラスワイドなグローバル情報を導入し、個々のサンプルからバイアスを取ります。
提案手法は,新たな最先端の対人ロバスト性を公衆のリーダーボード上で実現する。
論文 参考訳(メタデータ) (2023-05-23T11:17:45Z) - Low-Precision Reinforcement Learning [63.930246183244705]
教師付き学習における計算時間、メモリフットプリント、エネルギー消費を減らすために、低精度トレーニングが一般的なアプローチになっている。
本稿では,最先端のsacエージェントを用いた継続的制御について検討し,教師あり学習による低精度適応が失敗することを実証する。
論文 参考訳(メタデータ) (2021-02-26T16:16:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。