論文の概要: Neuron-level Balance between Stability and Plasticity in Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2504.08000v1
- Date: Wed, 09 Apr 2025 05:43:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-14 14:19:54.568628
- Title: Neuron-level Balance between Stability and Plasticity in Deep Reinforcement Learning
- Title(参考訳): 深部強化学習における安定性と塑性のニューロンレベルのバランス
- Authors: Jiahua Lan, Sen Zhang, Haixia Pan, Ruijun Liu, Li Shen, Dacheng Tao,
- Abstract要約: 安定度と塑性度(NBSP)のニューロンレベルバランスについて検討する。
N BSPは特定のニューロンがタスク関連スキルに強く関係しているという観察から着想を得ている。
N BSPは、安定性と可塑性のバランスをとる既存のアプローチを著しく上回っている。
- 参考スコア(独自算出の注目度): 47.023972617451044
- License:
- Abstract: In contrast to the human ability to continuously acquire knowledge, agents struggle with the stability-plasticity dilemma in deep reinforcement learning (DRL), which refers to the trade-off between retaining existing skills (stability) and learning new knowledge (plasticity). Current methods focus on balancing these two aspects at the network level, lacking sufficient differentiation and fine-grained control of individual neurons. To overcome this limitation, we propose Neuron-level Balance between Stability and Plasticity (NBSP) method, by taking inspiration from the observation that specific neurons are strongly relevant to task-relevant skills. Specifically, NBSP first (1) defines and identifies RL skill neurons that are crucial for knowledge retention through a goal-oriented method, and then (2) introduces a framework by employing gradient masking and experience replay techniques targeting these neurons to preserve the encoded existing skills while enabling adaptation to new tasks. Numerous experimental results on the Meta-World and Atari benchmarks demonstrate that NBSP significantly outperforms existing approaches in balancing stability and plasticity.
- Abstract(参考訳): 知識を継続的に獲得する人間の能力とは対照的に、エージェントは深層強化学習(DRL)における安定性-塑性ジレンマに苦慮し、これは既存のスキル(安定性)の保持と新しい知識(塑性)の学習のトレードオフを指す。
現在の手法では、これらの2つの側面をネットワークレベルでバランスさせることに重点を置いており、個々のニューロンの十分な分化ときめ細かい制御が欠如している。
この制限を克服するために、特定のニューロンがタスク関連スキルに強く関係しているという観察から着想を得て、安定性と塑性の間のニューロンレベルバランス(NBSP)法を提案する。
特に,NBSPは,まず,目標志向の手法により知識保持に不可欠なRLスキルニューロンを定義し,識別し,次に,これらのニューロンをターゲットとした勾配マスキングと経験的リプレイ技術を用いて,新たなタスクへの適応を図りながら,既存のスキルを保持できるフレームワークを導入する。
Meta-World と Atari のベンチマークにおける多くの実験結果から、NBSP は安定性と塑性のバランスをとる既存のアプローチよりも著しく優れていることが示されている。
関連論文リスト
- Neuroplastic Expansion in Deep Reinforcement Learning [9.297543779239826]
学習エージェントにおける可塑性の喪失は、強化学習における学習と適応を著しく阻害する。
本稿では,認知科学における皮質拡大に触発された新しいアプローチであるニューロプラスティック・エクスパンジョン(NE)を提案する。
NEは、ネットワークを小さな初期サイズからフル次元に動的に拡大することにより、トレーニングプロセス全体を通して学習性と適応性を維持します。
論文 参考訳(メタデータ) (2024-10-10T14:51:14Z) - Enhancing learning in spiking neural networks through neuronal heterogeneity and neuromodulatory signaling [52.06722364186432]
人工ニューラルネットワーク(ANN)の強化のための生物学的インフォームドフレームワークを提案する。
提案したデュアルフレームアプローチは、多様なスパイキング動作をエミュレートするためのスパイキングニューラルネットワーク(SNN)の可能性を強調している。
提案手法は脳にインスパイアされたコンパートメントモデルとタスク駆動型SNN, バイオインスピレーション, 複雑性を統合している。
論文 参考訳(メタデータ) (2024-07-05T14:11:28Z) - Incorporating Neuro-Inspired Adaptability for Continual Learning in
Artificial Intelligence [59.11038175596807]
継続的な学習は、現実世界に強い適応性を持つ人工知能を強化することを目的としている。
既存の進歩は主に、破滅的な忘れを克服するために記憶安定性を維持することに焦点を当てている。
本稿では,学習の可塑性を改善するため,パラメータ分布の古い記憶を適切に減衰させる汎用的手法を提案する。
論文 参考訳(メタデータ) (2023-08-29T02:43:58Z) - Achieving a Better Stability-Plasticity Trade-off via Auxiliary Networks
in Continual Learning [23.15206507040553]
本稿では、ニューラルネットワークに現在の課題を学習する能力を持たせるために、補助的ネットワーク継続学習(ANCL)を提案する。
ANCLは、主に安定性に焦点を当てた継続的な学習モデルに可塑性を促進する補助ネットワークを付加する。
より具体的には、提案するフレームワークは、可塑性と安定性を自然に補間する正規化器として実現されている。
論文 参考訳(メタデータ) (2023-03-16T17:00:42Z) - Learning threshold neurons via the "edge of stability" [33.64379851307296]
既存のニューラルネットワークトレーニングの分析は、非常に少ない学習率という非現実的な仮定の下で運用されることが多い。
安定のエッジ」あるいは「不安定なダイナミクス」は2層ニューラルネットワークで動作する。
本稿では,2層ニューラルネットワークの単純化モデルに対する勾配勾配勾配の詳細な解析を行う。
論文 参考訳(メタデータ) (2022-12-14T19:27:03Z) - Balancing Stability and Plasticity through Advanced Null Space in
Continual Learning [77.94570903726856]
我々は,従来のタスクの古いデータを格納することなく,安定性と可塑性のバランスをとるために,新しい連続学習手法Advanced Null Space(AdNS)を提案する。
また,現在のタスクの性能向上を図るため,タスク内蒸留を簡便かつ効果的に行う方法を提案する。
実験結果から,提案手法は最先端の連続学習手法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2022-07-25T11:04:22Z) - Modeling Associative Plasticity between Synapses to Enhance Learning of
Spiking Neural Networks [4.736525128377909]
Spiking Neural Networks(SNN)は、ニューラルネットワークの第3世代であり、ニューロモルフィックハードウェア上でエネルギー効率の高い実装を可能にする。
本稿では,シナプス間の結合可塑性をモデル化し,頑健で効果的な学習機構を提案する。
本手法は静的および最先端のニューロモルフィックデータセット上での優れた性能を実現する。
論文 参考訳(メタデータ) (2022-07-24T06:12:23Z) - Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。
本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文 参考訳(メタデータ) (2022-06-05T08:49:16Z) - SpikePropamine: Differentiable Plasticity in Spiking Neural Networks [0.0]
スパイキングニューラルネットワーク(SNN)におけるシナプス可塑性と神経調節シナプス可塑性のダイナミクスを学習するための枠組みを導入する。
異なる可塑性で強化されたSNNは、時間的学習課題の集合を解決するのに十分であることを示す。
これらのネットワークは、高次元のロボット学習タスクで移動を生成できることも示されている。
論文 参考訳(メタデータ) (2021-06-04T19:29:07Z) - Understanding the Role of Training Regimes in Continual Learning [51.32945003239048]
破滅的な忘れは、ニューラルネットワークのトレーニングに影響を与え、複数のタスクを逐次学習する能力を制限する。
本研究では,タスクの局所的なミニマを拡大するトレーニング体制の形成に及ぼすドロップアウト,学習速度の低下,バッチサイズの影響について検討した。
論文 参考訳(メタデータ) (2020-06-12T06:00:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。