論文の概要: AltNet: Addressing the Plasticity-Stability Dilemma in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2512.01034v1
- Date: Sun, 30 Nov 2025 19:02:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.548892
- Title: AltNet: Addressing the Plasticity-Stability Dilemma in Reinforcement Learning
- Title(参考訳): AltNet: 強化学習における塑性安定性ジレンマへの対応
- Authors: Mansi Maheshwari, John C. Raisbeck, Bruno Castro da Silva,
- Abstract要約: ツインネットワークを活用することで、性能劣化を伴わずに可塑性を復元する、リセットベースのアプローチAltNetを導入する。
我々は,DeepMind Control Suiteの高次元制御タスクにおいて,これらの利点を実証する。
- 参考スコア(独自算出の注目度): 2.1487266204344473
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural networks have shown remarkable success in supervised learning when trained on a single task using a fixed dataset. However, when neural networks are trained on a reinforcement learning task, their ability to continue learning from new experiences declines over time. This decline in learning ability is known as plasticity loss. To restore plasticity, prior work has explored periodically resetting the parameters of the learning network, a strategy that often improves overall performance. However, such resets come at the cost of a temporary drop in performance, which can be dangerous in real-world settings. To overcome this instability, we introduce AltNet, a reset-based approach that restores plasticity without performance degradation by leveraging twin networks. The use of twin networks anchors performance during resets through a mechanism that allows networks to periodically alternate roles: one network learns as it acts in the environment, while the other learns off-policy from the active network's interactions and a replay buffer. At fixed intervals, the active network is reset and the passive network, having learned from prior experiences, becomes the new active network. AltNet restores plasticity, improving sample efficiency and achieving higher performance, while avoiding performance drops that pose risks in safety-critical settings. We demonstrate these advantages in several high-dimensional control tasks from the DeepMind Control Suite, where AltNet outperforms various relevant baseline methods, as well as state-of-the-art reset-based techniques.
- Abstract(参考訳): ニューラルネットワークは、固定データセットを使用して単一のタスクでトレーニングされた場合、教師あり学習において顕著な成功を収めている。
しかし、ニューラルネットワークが強化学習タスクで訓練されると、新しい経験から学び続ける能力は時間が経つにつれて低下する。
この学習能力の低下は可塑性損失として知られている。
可塑性を回復するために、先行研究は学習ネットワークのパラメータを定期的にリセットすることを模索してきた。
しかし、そのようなリセットは一時的なパフォーマンス低下のコストがかかるため、現実の環境では危険である可能性がある。
この不安定性を克服するために,双対ネットワークを活用することで,性能劣化を伴わずに可塑性を回復する,リセットベースのアプローチAltNetを導入する。
ツインネットワークの使用は、ネットワークが定期的に役割を交代させるメカニズムを通じて、リセット中のパフォーマンスをアンカーする。一方のネットワークは環境内で動作しながら学習し、もう一方のネットワークはアクティブネットワークのインタラクションとリプレイバッファから政治から学習する。
一定間隔でアクティブネットワークがリセットされ、前回の経験から学んだ受動的ネットワークが新たなアクティブネットワークとなる。
AltNetは可塑性を回復し、サンプル効率を改善し、より高いパフォーマンスを達成すると同時に、安全クリティカルな設定のリスクを引き起こすパフォーマンス低下を回避する。
これらの利点はDeepMind Control Suiteの高次元制御タスクで実証され、AltNetは最先端のリセットベースのテクニックと同様に、様々な関連するベースラインメソッドよりも優れています。
関連論文リスト
- Network Sparsity Unlocks the Scaling Potential of Deep Reinforcement Learning [57.3885832382455]
静的ネットワークの疎結合を単独で導入することで,最先端アーキテクチャの高密度化を超えて,さらなるスケーリング可能性を実現することができることを示す。
解析の結果,高密度DRLネットワークをネーティブにスケールアップするのとは対照的に,疎ネットワークは高いパラメータ効率とネットワーク表現性を両立させることがわかった。
論文 参考訳(メタデータ) (2025-06-20T17:54:24Z) - Disentangling the Causes of Plasticity Loss in Neural Networks [55.23250269007988]
可塑性の喪失は複数の独立したメカニズムに分解できることを示す。
種々の非定常学習タスクにおいて, 層正規化と重み劣化の組み合わせは, 可塑性維持に極めて有効であることを示す。
論文 参考訳(メタデータ) (2024-02-29T00:02:33Z) - Effect of Choosing Loss Function when Using T-batching for
Representation Learning on Dynamic Networks [0.0]
Tバッチは動的ネットワークモデルをトレーニングする上で貴重なテクニックである。
t-batchingで使用する訓練損失関数の制限について検討した。
これらの問題を克服する2つの代替損失関数を提案し、結果としてトレーニング性能が向上する。
論文 参考訳(メタデータ) (2023-08-13T23:34:36Z) - Maintaining Plasticity in Deep Continual Learning [12.27972591521307]
連続学習のためのデータセットをタスクのシーケンスとして利用して,可塑性損失の実証を行う。
ImageNetでは、バイナリ分類のパフォーマンスは、初期タスクで89%の精度から77%に低下した。
新しいアルゴリズム -- 連続的なバックプロパゲーション -- は、従来のバックプロパゲーションを変更して、各例の後で、あまり使われていないユニットを再使用する。
論文 参考訳(メタデータ) (2023-06-23T23:19:21Z) - Stimulative Training++: Go Beyond The Performance Limits of Residual
Networks [91.5381301894899]
残余のネットワークは大きな成功を収め、最近のディープニューラルネットワークモデルでは欠かせないものになっている。
従来の研究では、残余ネットワークは浅いネットワークのアンサンブルと見なせることが示唆されている。
残余ネットワーク内のワークは、単独で作業するよりもグループとして働く場合の労力を減らしがちである。
論文 参考訳(メタデータ) (2023-05-04T02:38:11Z) - Stimulative Training of Residual Networks: A Social Psychology
Perspective of Loafing [86.69698062642055]
残余のネットワークは大きな成功を収め、今日のディープモデルでは欠かせないものになっている。
我々は,新たな社会的心理学的視点から,残余ネットワークのトレーニングプロセスを再検討することを目的としている。
残余ネットワークの性能を高めるための新たなトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2022-10-09T03:15:51Z) - Learning Fast and Slow for Online Time Series Forecasting [76.50127663309604]
Fast and Slow Learning Networks (FSNet)は、オンライン時系列予測のための総合的なフレームワークである。
FSNetは、最近の変更への迅速な適応と、同様の古い知識の取得のバランスを取る。
私たちのコードは公開されます。
論文 参考訳(メタデータ) (2022-02-23T18:23:07Z) - Iterative Network Pruning with Uncertainty Regularization for Lifelong
Sentiment Classification [25.13885692629219]
ディープラーニングにとって、生涯学習は簡単ではない。
本稿では,生涯的感情分類のための不確実性正則化手法を用いた新しい反復型ネットワークプルーニングを提案する。
論文 参考訳(メタデータ) (2021-06-21T15:34:13Z) - Bridging the Gap Between Target Networks and Functional Regularization [61.051716530459586]
ターゲットネットワークは暗黙の正則化器として機能し、いくつかのケースでは有益であるが、欠点もある。
本稿では,フレキシブルな関数正規化法と関数空間における凸正規化法を提案する。
この結果から,機能正規化はTarget Networksのドロップイン代替として利用でき,結果として性能が向上することが示唆された。
論文 参考訳(メタデータ) (2021-06-04T17:21:07Z) - Network Pruning That Matters: A Case Study on Retraining Variants [11.503165599245467]
本研究では,異なる再訓練機構の有効性について検討する。
ランダムに刈り取られたネットワークは、系統的に刈り取られたネットワークよりも優れた性能を達成できるという、直観に反する現象を示す。
論文 参考訳(メタデータ) (2021-05-07T12:03:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。