論文の概要: Mastering Continual Reinforcement Learning through Fine-Grained Sparse Network Allocation and Dormant Neuron Exploration
- arxiv url: http://arxiv.org/abs/2503.05246v2
- Date: Mon, 10 Mar 2025 03:22:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 11:38:39.115451
- Title: Mastering Continual Reinforcement Learning through Fine-Grained Sparse Network Allocation and Dormant Neuron Exploration
- Title(参考訳): 微細粒度スパースネットワーク配置と休眠ニューロン探索による連続強化学習の習得
- Authors: Chengqi Zheng, Haiyan Yin, Jianda Chen, Terence Ng, Yew-Soon Ong, Ivor Tsang,
- Abstract要約: 本稿では,細粒度配置戦略により塑性を向上させる新しい構造ベースアプローチであるSSDEを紹介する。
SSDEは、パラメータ空間をフォワードトランスファー(フリーズ)パラメータとタスク固有の(トレーニング可能な)パラメータに分解する。
CW10-v1 Continual Worldベンチマークの実験では、SSDEが最先端のパフォーマンスを達成し、95%の成功率に達した。
- 参考スコア(独自算出の注目度): 28.75006029656076
- License:
- Abstract: Continual Reinforcement Learning (CRL) is essential for developing agents that can learn, adapt, and accumulate knowledge over time. However, a fundamental challenge persists as agents must strike a delicate balance between plasticity, which enables rapid skill acquisition, and stability, which ensures long-term knowledge retention while preventing catastrophic forgetting. In this paper, we introduce SSDE, a novel structure-based approach that enhances plasticity through a fine-grained allocation strategy with Structured Sparsity and Dormant-guided Exploration. SSDE decomposes the parameter space into forward-transfer (frozen) parameters and task-specific (trainable) parameters. Crucially, these parameters are allocated by an efficient co-allocation scheme under sparse coding, ensuring sufficient trainable capacity for new tasks while promoting efficient forward transfer through frozen parameters. However, structure-based methods often suffer from rigidity due to the accumulation of non-trainable parameters, limiting exploration and adaptability. To address this, we further introduce a sensitivity-guided neuron reactivation mechanism that systematically identifies and resets dormant neurons, which exhibit minimal influence in the sparse policy network during inference. This approach effectively enhance exploration while preserving structural efficiency. Extensive experiments on the CW10-v1 Continual World benchmark demonstrate that SSDE achieves state-of-the-art performance, reaching a success rate of 95%, surpassing prior methods significantly in both plasticity and stability trade-offs (code is available at: https://github.com/chengqiArchy/SSDE).
- Abstract(参考訳): 継続的強化学習(CRL)は、時間とともに知識を学び、適応し、蓄積できるエージェントを開発するために不可欠である。
しかし、エージェントは、急激な技術獲得と安定性を可能にする可塑性の微妙なバランスをとらなければならず、破滅的な忘れ込みを防ぎながら長期的な知識の保持を確保できなければならないため、根本的な課題は続く。
本稿では,構造化スパシリティとドミナント誘導探索を用いた微粒化配置戦略により,塑性を高める新しい構造ベース手法であるSSDEを紹介する。
SSDEは、パラメータ空間をフォワードトランスファー(フリーズ)パラメータとタスク固有の(トレーニング可能な)パラメータに分解する。
重要なことは、これらのパラメータはスパース符号の下で効率的なコロケーションスキームによって割り当てられ、凍結されたパラメータによる効率的な転送を促進しながら、新しいタスクに十分な訓練可能なキャパシティが確保される。
しかし、構造に基づく手法は、しばしば訓練不可能なパラメータの蓄積によって剛性に悩まされ、探索と適応性を制限する。
これを解決するために、我々は、スパルスポリシーネットワークにおいて最小限の影響を示す休眠ニューロンを系統的に同定し、リセットする感度誘導ニューロン再活性化機構をさらに導入する。
このアプローチは、構造的効率を維持しながら、探索を効果的に強化する。
CW10-v1 Continual Worldベンチマークの大規模な実験では、SSDEは最先端のパフォーマンスを達成し、95%の成功率に達し、可塑性と安定性のトレードオフの両方において、以前の手法を大幅に上回っている(コードはhttps://github.com/chengqiArchy/SSDEで公開されている)。
関連論文リスト
- SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - ProAct: Progressive Training for Hybrid Clipped Activation Function to Enhance Resilience of DNNs [0.4660328753262075]
State-of-the-artメソッドは、ニューロンワイドまたは層ワイドクリッピングアクティベーション機能を提供する。
層単位で切断されたアクティベーション関数はDNNのレジリエンスを高いビット誤り率で保持することはできない。
本稿では,ニューロンワイド法とレイヤバイ層法を統合したハイブリッドクリップ型アクティベーション関数を提案する。
論文 参考訳(メタデータ) (2024-06-10T14:31:38Z) - Fast Value Tracking for Deep Reinforcement Learning [7.648784748888187]
強化学習(Reinforcement Learning, RL)は、環境と対話するエージェントを作成することによって、シーケンシャルな意思決定問題に取り組む。
既存のアルゴリズムはしばしばこれらの問題を静的とみなし、期待される報酬を最大化するためにモデルパラメータの点推定に重点を置いている。
我々の研究は、カルマンパラダイムを活用して、Langevinized Kalman TemporalTDと呼ばれる新しい定量化およびサンプリングアルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-03-19T22:18:19Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - TC-LIF: A Two-Compartment Spiking Neuron Model for Long-Term Sequential
Modelling [54.97005925277638]
潜在的な可能性や危険に関連する感覚的手がかりの同定は、長期間の遅延によって有用な手がかりを分離する無関係な事象によってしばしば複雑になる。
SNN(State-of-the-art spiking Neural Network)は、遠方のキュー間の長期的な時間的依存関係を確立する上で、依然として困難な課題である。
そこで本研究では,T-LIFとよばれる,生物学的にインスパイアされたTwo-compartment Leaky Integrate- and-Fireのスパイキングニューロンモデルを提案する。
論文 参考訳(メタデータ) (2023-08-25T08:54:41Z) - Long Short-term Memory with Two-Compartment Spiking Neuron [64.02161577259426]
LSTM-LIFとよばれる,生物学的にインスパイアされたLong Short-Term Memory Leaky Integrate-and-Fireのスパイキングニューロンモデルを提案する。
実験結果は,時間的分類タスクの多種多様な範囲において,優れた時間的分類能力,迅速な訓練収束,ネットワークの一般化性,LSTM-LIFモデルの高エネルギー化を実証した。
したがって、この研究は、新しいニューロモルフィック・コンピューティング・マシンにおいて、困難な時間的処理タスクを解決するための、無数の機会を開放する。
論文 参考訳(メタデータ) (2023-07-14T08:51:03Z) - Investigating the Edge of Stability Phenomenon in Reinforcement Learning [20.631461205889487]
強化学習(RL)における安定性現象の端点を探る
教師付き学習との大きな違いにもかかわらず、安定性現象の端は、非政治的な深いRLに存在している。
この結果から,ニューラルネットワーク構造は問題領域間の移動を最適化するダイナミクスをもたらす可能性があるが,深いRL最適化の特定の側面は,教師付き学習のような領域と区別できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-07-09T15:46:27Z) - Learning Bayesian Sparse Networks with Full Experience Replay for
Continual Learning [54.7584721943286]
継続学習(CL)手法は、機械学習モデルが、以前にマスターされたタスクを壊滅的に忘れることなく、新しいタスクを学習できるようにすることを目的としている。
既存のCLアプローチは、しばしば、事前に確認されたサンプルのバッファを保持し、知識蒸留を行い、あるいはこの目標に向けて正規化技術を使用する。
我々は,現在および過去のタスクを任意の段階で学習するために,スパースニューロンのみを活性化し,選択することを提案する。
論文 参考訳(メタデータ) (2022-02-21T13:25:03Z) - Natural continual learning: success is a journey, not (just) a
destination [9.462808515258464]
自然継続学習(NCL)は、重み付け正規化と射影勾配降下を統一する新しい手法である。
提案手法は,RNNにおける連続学習問題に適用した場合,標準重み付け正規化手法とプロジェクションベースアプローチの両方に優れる。
トレーニングされたネットワークは、生体回路の実験的な発見と同様に、新しいタスクが学習されると強く保存されるタスク固有ダイナミクスを進化させる。
論文 参考訳(メタデータ) (2021-06-15T12:24:53Z) - On The Verification of Neural ODEs with Stochastic Guarantees [14.490826225393096]
時間連続型ニューラルネットワークの新興クラスであるneural odesは,グローバル最適化問題の集合を解いて検証できることを示す。
密なReachtubeを構築するための抽象化ベースのテクニックであるLagran Reachability(SLR)を紹介する。
論文 参考訳(メタデータ) (2020-12-16T11:04:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。