論文の概要: Probabilistic bounds on neuron death in deep rectifier networks
- arxiv url: http://arxiv.org/abs/2007.06192v2
- Date: Thu, 10 Jun 2021 20:54:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 22:30:07.301901
- Title: Probabilistic bounds on neuron death in deep rectifier networks
- Title(参考訳): 深部整流回路網におけるニューロン死の確率的境界
- Authors: Blaine Rister and Daniel L. Rubin
- Abstract要約: 神経細胞死は、モデルの訓練可能性に影響を及ぼす複雑な現象である。
本研究では、ReLUネットワークがトレーニング可能な点に到達する確率に基づいて、上界と下界の両方を導出する。
幅が大きくなる限り,ネットワークの深さを無限に増加させることができることを示す。
- 参考スコア(独自算出の注目度): 6.167486561517023
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neuron death is a complex phenomenon with implications for model
trainability: the deeper the network, the lower the probability of finding a
valid initialization. In this work, we derive both upper and lower bounds on
the probability that a ReLU network is initialized to a trainable point, as a
function of model hyperparameters. We show that it is possible to increase the
depth of a network indefinitely, so long as the width increases as well.
Furthermore, our bounds are asymptotically tight under reasonable assumptions:
first, the upper bound coincides with the true probability for a single-layer
network with the largest possible input set. Second, the true probability
converges to our lower bound as the input set shrinks to a single point, or as
the network complexity grows under an assumption about the output variance. We
confirm these results by numerical simulation, showing rapid convergence to the
lower bound with increasing network depth. Then, motivated by the theory, we
propose a practical sign flipping scheme which guarantees that the ratio of
living data points in a $k$-layer network is at least $2^{-k}$. Finally, we
show how these issues are mitigated by network design features currently seen
in practice, such as batch normalization, residual connections, dense networks
and skip connections. This suggests that neuron death may provide insight into
the efficacy of various model architectures.
- Abstract(参考訳): ニューロンの死は、モデルトレーサビリティに影響を及ぼす複雑な現象である:ネットワークが深くなるほど、有効な初期化を見つける確率が低くなる。
本研究では、モデルハイパーパラメータの関数として、ReLUネットワークがトレーニング可能な点に初期化される確率に基づいて、上下境界を導出する。
ネットワークの幅が大きくなる限り,ネットワークの深さを無期限に増やすことが可能であることを示す。
さらに、我々の境界は合理的な仮定の下で漸近的に厳密である: まず、上限は入力集合が最大となる単一層ネットワークの真確率と一致する。
第二に、真確率は入力集合が単一点に縮まるとき、またはネットワークの複雑さが出力分散に関する仮定の下で増加するとき、下界に収束する。
これらの結果を数値シミュレーションにより検証し,ネットワーク深度の増加に伴う下界への急速な収束を示す。
そこで,この理論に動機づけられて,k$層ネットワークにおけるリビングデータポイントの比率が少なくとも$2^{-k}$であることを保証する,実用的な符号フリップスキームを提案する。
最後に、バッチ正規化、残留接続、密ネットワーク、スキップ接続など、現在実際に見られるネットワーク設計機能によってこれらの問題をいかに緩和するかを示す。
これは、ニューロンの死が様々なモデルアーキテクチャの有効性についての洞察を与えることを示唆している。
関連論文リスト
- Deep Neural Networks Tend To Extrapolate Predictably [51.303814412294514]
ニューラルネットワークの予測は、アウト・オブ・ディストリビューション(OOD)入力に直面した場合、予測不可能で過信される傾向がある。
我々は、入力データがOODになるにつれて、ニューラルネットワークの予測が一定値に向かう傾向があることを観察する。
我々は、OOD入力の存在下でリスクに敏感な意思決定を可能にするために、私たちの洞察を実際に活用する方法を示します。
論文 参考訳(メタデータ) (2023-10-02T03:25:32Z) - Semantic Strengthening of Neuro-Symbolic Learning [85.6195120593625]
ニューロシンボリックアプローチは一般に確率論的目的のファジィ近似を利用する。
トラクタブル回路において,これを効率的に計算する方法を示す。
我々は,Warcraftにおける最小コストパスの予測,最小コスト完全マッチングの予測,スドクパズルの解法という3つの課題に対して,アプローチを検証した。
論文 参考訳(メタデータ) (2023-02-28T00:04:22Z) - Depth Degeneracy in Neural Networks: Vanishing Angles in Fully Connected ReLU Networks on Initialization [5.678271181959529]
層数の関数としてReLUニューラルネットワークへの2つの入力間の角度の進化について検討する。
モンテカルロ実験を用いて理論的結果を検証し, 有限ネットワークの挙動を正確に近似することを示した。
また,深度縮退現象が実際のネットワークのトレーニングに悪影響を及ぼすかを実証的に検討した。
論文 参考訳(メタデータ) (2023-02-20T01:30:27Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - On the Neural Tangent Kernel Analysis of Randomly Pruned Neural Networks [91.3755431537592]
ニューラルネットワークのニューラルカーネル(NTK)に重みのランダムプルーニングが及ぼす影響について検討する。
特に、この研究は、完全に接続されたニューラルネットワークとそのランダムに切断されたバージョン間のNTKの等価性を確立する。
論文 参考訳(メタデータ) (2022-03-27T15:22:19Z) - Mitigating Performance Saturation in Neural Marked Point Processes:
Architectures and Loss Functions [50.674773358075015]
本稿では,グラフ畳み込み層のみを利用するGCHPという単純なグラフベースのネットワーク構造を提案する。
我々は,GCHPがトレーニング時間を大幅に短縮し,時間間確率仮定による確率比損失がモデル性能を大幅に改善できることを示した。
論文 参考訳(メタデータ) (2021-07-07T16:59:14Z) - The Rate of Convergence of Variation-Constrained Deep Neural Networks [35.393855471751756]
変動制約のあるニューラルネットワークのクラスは、任意に小さな定数$delta$に対して、ほぼパラメトリックレート$n-1/2+delta$を達成することができることを示す。
その結果、滑らかな関数の近似に必要な神経機能空間は、しばしば知覚されるものほど大きくない可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-22T21:28:00Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - It's Hard for Neural Networks To Learn the Game of Life [4.061135251278187]
最近の研究では、ニューラルネットワークは、ソリューションに迅速に収束する"ロテリチケット"のラッキーな初期重みに依存していることが示唆されている。
本研究では,2次元セル・オートマトン・コンウェイのゲーム・オブ・ライフのn段階を予測するために訓練された小さな畳み込みネットワークについて検討する。
このタスクでトレーニングされたこのアーキテクチャのネットワークは、ほとんど収束しない。
論文 参考訳(メタデータ) (2020-09-03T00:47:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。