論文の概要: Recovering Plasticity of Neural Networks via Soft Weight Rescaling
- arxiv url: http://arxiv.org/abs/2507.04683v1
- Date: Mon, 07 Jul 2025 06:02:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.290581
- Title: Recovering Plasticity of Neural Networks via Soft Weight Rescaling
- Title(参考訳): ソフトウェイト・リスケーリングによるニューラルネットワークの塑性回復
- Authors: Seungwon Oh, Sangyeon Park, Isaac Han, Kyung-Joong Kim,
- Abstract要約: 無拘束の重量成長は、可塑性損失の主な原因の1つである。
本稿では,情報を失うことなく未拘束の体重増加を防止する手法として,ソフトウェイト・リスケーリング(SWR)を提案する。
SWRは学習プロセスの各ステップの重みを単純にスケールダウンすることで、ネットワークの可塑性を回復する。
- 参考スコア(独自算出の注目度): 3.841822016067955
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies have shown that as training progresses, neural networks gradually lose their capacity to learn new information, a phenomenon known as plasticity loss. An unbounded weight growth is one of the main causes of plasticity loss. Furthermore, it harms generalization capability and disrupts optimization dynamics. Re-initializing the network can be a solution, but it results in the loss of learned information, leading to performance drops. In this paper, we propose Soft Weight Rescaling (SWR), a novel approach that prevents unbounded weight growth without losing information. SWR recovers the plasticity of the network by simply scaling down the weight at each step of the learning process. We theoretically prove that SWR bounds weight magnitude and balances weight magnitude between layers. Our experiment shows that SWR improves performance on warm-start learning, continual learning, and single-task learning setups on standard image classification benchmarks.
- Abstract(参考訳): 最近の研究では、トレーニングが進むにつれて、ニューラルネットワークは新しい情報を学ぶ能力が徐々に失われることが示されている。
無拘束の重量成長は、可塑性損失の主な原因の1つである。
さらに、一般化能力が損なわれ、最適化のダイナミクスが破壊される。
ネットワークの再起動はソリューションになり得るが、学習した情報が失われ、パフォーマンスが低下する。
本稿では,情報を失うことなく未拘束の体重増加を防止する手法として,ソフトウェイト・リスケーリング(SWR)を提案する。
SWRは学習プロセスの各ステップの重みを単純にスケールダウンすることで、ネットワークの可塑性を回復する。
理論的には、SWRは重みの等級を束縛し、重みの等級を層間でバランスする。
実験の結果,SWRは,標準画像分類ベンチマークにおいて,ウォームスタート学習,連続学習,シングルタスク学習の設定の性能を向上させることがわかった。
関連論文リスト
- Network Sparsity Unlocks the Scaling Potential of Deep Reinforcement Learning [57.3885832382455]
静的ネットワークの疎結合を単独で導入することで,最先端アーキテクチャの高密度化を超えて,さらなるスケーリング可能性を実現することができることを示す。
解析の結果,高密度DRLネットワークをネーティブにスケールアップするのとは対照的に,疎ネットワークは高いパラメータ効率とネットワーク表現性を両立させることがわかった。
論文 参考訳(メタデータ) (2025-06-20T17:54:24Z) - DASH: Warm-Starting Neural Network Training in Stationary Settings without Loss of Plasticity [11.624569521079426]
我々は,実世界のニューラルネットワークトレーニングを模擬したフレームワークを開発し,静止データ上での暖房開始時の可塑性損失の主な原因としてノイズ記憶を同定する。
そこで本研究では,学習した特徴を保ちながら雑音を選択的に忘れることによって可塑性損失を軽減することを目的としたDASH(Direction-Aware SHrinking)を提案する。
論文 参考訳(メタデータ) (2024-10-30T22:57:54Z) - CLASSP: a Biologically-Inspired Approach to Continual Learning through Adjustment Suppression and Sparsity Promotion [0.0]
本稿では,適応抑制・分散促進(CLASSP)による継続学習という新しい学習手法を提案する。
CLASSPは神経科学、特にシナプス伝達と長期増強の文脈で観察される2つの主要な原理に基づいている。
Elastic Weight Consolidation (EWC)データセットと比較すると、CLASSPは精度とメモリフットプリントの点で優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-04-29T13:31:00Z) - Disentangling the Causes of Plasticity Loss in Neural Networks [55.23250269007988]
可塑性の喪失は複数の独立したメカニズムに分解できることを示す。
種々の非定常学習タスクにおいて, 層正規化と重み劣化の組み合わせは, 可塑性維持に極めて有効であることを示す。
論文 参考訳(メタデータ) (2024-02-29T00:02:33Z) - Maintaining Plasticity in Deep Continual Learning [12.27972591521307]
連続学習のためのデータセットをタスクのシーケンスとして利用して,可塑性損失の実証を行う。
ImageNetでは、バイナリ分類のパフォーマンスは、初期タスクで89%の精度から77%に低下した。
新しいアルゴリズム -- 連続的なバックプロパゲーション -- は、従来のバックプロパゲーションを変更して、各例の後で、あまり使われていないユニットを再使用する。
論文 参考訳(メタデータ) (2023-06-23T23:19:21Z) - Random Weights Networks Work as Loss Prior Constraint for Image
Restoration [50.80507007507757]
「画像復元の優先制約としてランダムウェイトネットワークを機能させることができる」という信念を提示する。」
我々の信念は、計算コストのトレーニングやテストなしに、既存のネットワークに直接挿入することができる。
強調しておきたいのは、損失関数の領域を刺激し、現在無視されている状態を保存することです。
論文 参考訳(メタデータ) (2023-03-29T03:43:51Z) - Improving Deep Neural Network Random Initialization Through Neuronal
Rewiring [14.484787903053208]
神経強度のばらつきは低下するが, 神経強度のばらつきは低下し, 神経強度のばらつきは改善する。
次に、その強度に基づいて、優先アタッチメント(PA)ルールに従って神経細胞接続をリワイヤする新しい方法を提案する。
この意味では、PAは重みの大きさと分布を保ちながら、接続を再編成するのみである。
論文 参考訳(メタデータ) (2022-07-17T11:52:52Z) - BiTAT: Neural Network Binarization with Task-dependent Aggregated
Transformation [116.26521375592759]
量子化は、与えられたニューラルネットワークの高精度ウェイトとアクティベーションを、メモリ使用量と計算量を減らすために、低精度ウェイト/アクティベーションに変換することを目的としている。
コンパクトに設計されたバックボーンアーキテクチャの極端量子化(1ビットの重み/1ビットのアクティベーション)は、深刻な性能劣化をもたらす。
本稿では,性能劣化を効果的に緩和する新しいQAT法を提案する。
論文 参考訳(メタデータ) (2022-07-04T13:25:49Z) - Flattening Sharpness for Dynamic Gradient Projection Memory Benefits
Continual Learning [67.99349091593324]
連続学習シナリオにおける減量景観と感度安定性の関係について検討した。
提案手法は,忘れを効果的に軽減しつつ,新しいスキルを習得する能力に優れたベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2021-10-09T15:13:44Z) - Neural networks with late-phase weights [66.72777753269658]
学習後期に重みのサブセットを組み込むことで,SGDの解をさらに改善できることを示す。
学習の終わりに、重み空間における空間平均を取ることにより、1つのモデルを取得する。
論文 参考訳(メタデータ) (2020-07-25T13:23:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。