論文の概要: A Theory of Initialisation's Impact on Specialisation
- arxiv url: http://arxiv.org/abs/2503.02526v1
- Date: Tue, 04 Mar 2025 11:39:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:16:18.751517
- Title: A Theory of Initialisation's Impact on Specialisation
- Title(参考訳): 初期化が特殊化に与える影響の理論
- Authors: Devon Jarvis, Sebastian Lee, Clémentine Carla Juliette Dominé, Andrew M Saxe, Stefano Sarao Mannelli,
- Abstract要約: 重みの不均衡と高重エントロピーは特殊解を好むことを示す。
次に,非特定ネットワークにおけるタスク類似性と忘れのモノトニックな関係の出現を示す。
- 参考スコア(独自算出の注目度): 13.486658531315213
- License:
- Abstract: Prior work has demonstrated a consistent tendency in neural networks engaged in continual learning tasks, wherein intermediate task similarity results in the highest levels of catastrophic interference. This phenomenon is attributed to the network's tendency to reuse learned features across tasks. However, this explanation heavily relies on the premise that neuron specialisation occurs, i.e. the emergence of localised representations. Our investigation challenges the validity of this assumption. Using theoretical frameworks for the analysis of neural networks, we show a strong dependence of specialisation on the initial condition. More precisely, we show that weight imbalance and high weight entropy can favour specialised solutions. We then apply these insights in the context of continual learning, first showing the emergence of a monotonic relation between task-similarity and forgetting in non-specialised networks. {Finally, we show that specialization by weight imbalance is beneficial on the commonly employed elastic weight consolidation regularisation technique.
- Abstract(参考訳): 従来の研究は、連続的な学習タスクに従事するニューラルネットワークにおいて一貫した傾向を示しており、中間的なタスクの類似性は破滅的な干渉の最高レベルをもたらす。
この現象は、ネットワークがタスク間で学習した機能を再利用する傾向にあるためである。
しかし、この説明は神経細胞の特殊化、すなわち局所的な表現の出現の前提に大きく依存している。
我々の調査は、この仮定の妥当性に疑問を投げかける。
ニューラルネットワーク解析の理論的枠組みを用いて,初期状態に対する特殊化の強い依存性を示す。
より正確には、ウェイト不均衡とハイウェイトエントロピーは特殊解を好むことを示す。
次に、これらの知見を連続学習の文脈に応用し、まず、非特殊化ネットワークにおけるタスク類似性と忘れとの単調な関係の出現を示す。
重みの不均衡による特殊化は、一般的に用いられる弾性重み統合正規化技術において有益であることを示す。
関連論文リスト
- On the Role of Initialization on the Implicit Bias in Deep Linear
Networks [8.272491066698041]
本研究は,遊びにおける暗黙の偏見に起因する現象を探索することに焦点を当てた。
ステップサイズ、重み初期化、最適化アルゴリズム、パラメータ数など、暗黙バイアスの様々な情報源が特定されている。
論文 参考訳(メタデータ) (2024-02-04T11:54:07Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - On the generalization of learning algorithms that do not converge [54.122745736433856]
ディープラーニングの一般化解析は、訓練が一定の点に収束すると仮定するのが一般的である。
最近の結果は、実際には勾配降下に最適化されたディープニューラルネットワークの重みは、しばしば無限に振動することを示している。
論文 参考訳(メタデータ) (2022-08-16T21:22:34Z) - How You Start Matters for Generalization [26.74340246715699]
ニューラルネットワークの一般化は、その初期化に強く結びついていることが示される。
議論を呼んでいるフラットミニマ予想に反論する。
論文 参考訳(メタデータ) (2022-06-17T05:30:56Z) - Formalizing Generalization and Robustness of Neural Networks to Weight
Perturbations [58.731070632586594]
非負のモノトーンアクティベーション機能を備えたフィードフォワードニューラルネットワークの重量変動に対する最初の形式解析を提供します。
また,重みの摂動に対して一般化し頑健なニューラルネットワークを訓練するための新しい理論駆動損失関数を設計した。
論文 参考訳(メタデータ) (2021-03-03T06:17:03Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - Understanding Generalization in Deep Learning via Tensor Methods [53.808840694241]
圧縮の観点から,ネットワークアーキテクチャと一般化可能性の関係について理解を深める。
本稿では、ニューラルネットワークの圧縮性と一般化性を強く特徴付ける、直感的で、データ依存的で、測定が容易な一連の特性を提案する。
論文 参考訳(メタデータ) (2020-01-14T22:26:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。