論文の概要: It's not a Lottery, it's a Race: Understanding How Gradient Descent Adapts the Network's Capacity to the Task
- arxiv url: http://arxiv.org/abs/2602.04832v1
- Date: Wed, 04 Feb 2026 18:22:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.679229
- Title: It's not a Lottery, it's a Race: Understanding How Gradient Descent Adapts the Network's Capacity to the Task
- Title(参考訳): ネットワークのキャパシティをタスクに適応させる方法を理解する
- Authors: Hannah Pinson,
- Abstract要約: 勾配降下がこれを実現するメカニズムについて検討する。
トレーニング後にしばしばキャパシティを削減できる理由を説明する3つのダイナミックな原則を特定します。
具体的には、宝くじの予測の背後にあるメカニズムや、あるニューロンの特定の有益な初期条件が、より高い重量ノルムをもたらす理由を具体的に説明する。
- 参考スコア(独自算出の注目度): 1.3537117504260623
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Our theoretical understanding of neural networks is lagging behind their empirical success. One of the important unexplained phenomena is why and how, during the process of training with gradient descent, the theoretical capacity of neural networks is reduced to an effective capacity that fits the task. We here investigate the mechanism by which gradient descent achieves this through analyzing the learning dynamics at the level of individual neurons in single hidden layer ReLU networks. We identify three dynamical principles -- mutual alignment, unlocking and racing -- that together explain why we can often successfully reduce capacity after training through the merging of equivalent neurons or the pruning of low norm weights. We specifically explain the mechanism behind the lottery ticket conjecture, or why the specific, beneficial initial conditions of some neurons lead them to obtain higher weight norms.
- Abstract(参考訳): ニューラルネットワークに関する我々の理論的理解は、その経験的成功に遅れを取っている。
重要な説明できない現象の1つは、なぜ、なぜ、勾配降下を伴うトレーニングの過程で、ニューラルネットワークの理論的能力が、そのタスクに適合する効果的な能力に還元されるのかである。
本稿では、単一の隠蔽層ReLUネットワークにおいて、個々のニューロンのレベルでの学習ダイナミクスを解析することにより、勾配降下がこれを達成できるメカニズムについて検討する。
相互アライメント、アンロック、レースという3つのダイナミックな原則は、等価ニューロンのマージや低ノルム重量のプルーニングを通じて、トレーニング後にしばしばキャパシティを削減できる理由を説明するものです。
具体的には、宝くじの予測の背後にあるメカニズムや、あるニューロンの特定の有益な初期条件が、より高い重量ノルムをもたらす理由を具体的に説明する。
関連論文リスト
- Toward a Physics of Deep Learning and Brains [0.0]
生体脳における神経細胞の雪崩を記述するために用いられる方程式は、深部神経ネットワークにおける活動のカスケードにも適用可能であることを示す。
この理論的枠組みは、普遍的な特徴が生物学的ニューラルネットワークと人工ニューラルネットワークの両方で共有されていることを示す。
論文 参考訳(メタデータ) (2025-09-26T17:59:57Z) - Simple and Effective Transfer Learning for Neuro-Symbolic Integration [50.592338727912946]
この問題の潜在的な解決策はNeuro-Symbolic Integration (NeSy)であり、ニューラルアプローチとシンボリック推論を組み合わせる。
これらの手法のほとんどは、認識をシンボルにマッピングするニューラルネットワークと、下流タスクの出力を予測する論理的論理的推論を利用する。
それらは、緩やかな収束、複雑な知覚タスクの学習困難、局所的なミニマへの収束など、いくつかの問題に悩まされている。
本稿では,これらの問題を改善するための簡易かつ効果的な方法を提案する。
論文 参考訳(メタデータ) (2024-02-21T15:51:01Z) - Learning threshold neurons via the "edge of stability" [33.64379851307296]
既存のニューラルネットワークトレーニングの分析は、非常に少ない学習率という非現実的な仮定の下で運用されることが多い。
安定のエッジ」あるいは「不安定なダイナミクス」は2層ニューラルネットワークで動作する。
本稿では,2層ニューラルネットワークの単純化モデルに対する勾配勾配勾配の詳細な解析を行う。
論文 参考訳(メタデータ) (2022-12-14T19:27:03Z) - Spiking neural network for nonlinear regression [68.8204255655161]
スパイクニューラルネットワークは、メモリとエネルギー消費を大幅に削減する可能性を持っている。
彼らは、次世代のニューロモルフィックハードウェアによって活用できる時間的および神経的疎結合を導入する。
スパイキングニューラルネットワークを用いた回帰フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-06T13:04:45Z) - Benign Overfitting in Two-layer Convolutional Neural Networks [90.75603889605043]
2層畳み込みニューラルネットワーク(CNN)の訓練における良性過剰適合現象の検討
信号対雑音比が一定の条件を満たすと、勾配降下により訓練された2層CNNが任意に小さな訓練と試験損失を達成できることを示す。
一方、この条件が保たない場合、オーバーフィッティングは有害となり、得られたCNNは一定レベルのテスト損失しか達成できない。
論文 参考訳(メタデータ) (2022-02-14T07:45:51Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z) - Neuron-based explanations of neural networks sacrifice completeness and interpretability [67.53271920386851]
我々は、ImageNetで事前訓練されたAlexNetに対して、ニューロンに基づく説明法が完全性と解釈可能性の両方を犠牲にすることを示す。
我々は、最も重要な主成分が、最も重要なニューロンよりも完全で解釈可能な説明を提供することを示す。
この結果から,AlexNet などのネットワークに対する説明手法は,ニューロンを埋め込みの基盤として使用するべきではないことが示唆された。
論文 参考訳(メタデータ) (2020-11-05T21:26:03Z) - Bidirectionally Self-Normalizing Neural Networks [46.20979546004718]
本研究では, ニューラルネットワークの幅が十分であれば, 消失/爆発の勾配問題は高い確率で消失することを示す厳密な結果を与える。
我々の主な考えは、新しい種類の活性化関数を通して、非線形ニューラルネットワークにおける前方信号と後方信号の伝搬を制限することである。
論文 参考訳(メタデータ) (2020-06-22T12:07:29Z) - A neural network model of perception and reasoning [0.0]
生物学的に一貫した構成原理の単純なセットが神経ネットワークにこれらの能力を与えることを示す。
我々はこれらの原理を、最適化の代わりに概念構築に基づく新しい機械学習アルゴリズムで実装し、説明可能なニューロン活動で推論されるディープニューラルネットワークを設計する。
論文 参考訳(メタデータ) (2020-02-26T06:26:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。