論文の概要: From Dead Neurons to Deep Approximators: Deep Bernstein Networks as a Provable Alternative to Residual Layers
- arxiv url: http://arxiv.org/abs/2602.04264v1
- Date: Wed, 04 Feb 2026 06:55:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.408859
- Title: From Dead Neurons to Deep Approximators: Deep Bernstein Networks as a Provable Alternative to Residual Layers
- Title(参考訳): 死ニューロンから深部近似器へ - 残留層への代替手段としてのディープ・バーンスタイン・ネットワーク
- Authors: Ibrahim Albool, Malak Gamal El-Din, Salma Elmalaki, Yasser Shoukry,
- Abstract要約: 我々は、Deep Bernstein Networksが、最適化性と表現能力の両立を図りながら、残余のないアーキテクチャとして振る舞うことができることを示す。
我々のアーキテクチャは、死のニューロンを標準的なディープネットワークの90%から5%未満に減らし、ReLU、Leaky ReLU、SeLU GeLUを上回ります。
- 参考スコア(独自算出の注目度): 4.25234252803357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Residual connections are the de facto standard for mitigating vanishing gradients, yet they impose structural constraints and fail to address the inherent inefficiencies of piecewise linear activations. We show that Deep Bernstein Networks (which utilizes Bernstein polynomials as activation functions) can act as residual-free architecture while simultaneously optimize trainability and representation power. We provide a two-fold theoretical foundation for our approach. First, we derive a theoretical lower bound on the local derivative, proving it remains strictly bounded away from zero. This directly addresses the root cause of gradient stagnation; empirically, our architecture reduces ``dead'' neurons from 90\% in standard deep networks to less than 5\%, outperforming ReLU, Leaky ReLU, SeLU, and GeLU. Second, we establish that the approximation error for Bernstein-based networks decays exponentially with depth, a significant improvement over the polynomial rates of ReLU-based architectures. By unifying these results, we demonstrate that Bernstein activations provide a superior mechanism for function approximation and signal flow. Our experiments on HIGGS and MNIST confirm that Deep Bernstein Networks achieve high-performance training without skip-connections, offering a principled path toward deep, residual-free architectures with enhanced expressive capacity.
- Abstract(参考訳): 残留接続は、消失する勾配を緩和するデファクト標準であるが、構造的制約を課し、断片的線形活性化の固有の非効率性に対処することができない。
我々は、(ベルンシュタイン多項式を活性化関数として利用する)ディープバーンスタインネットワークが、訓練性と表現力を同時に最適化しながら、残余のないアーキテクチャとして機能することを示します。
我々は、我々のアプローチの2倍の理論的基礎を提供する。
まず、局所微分の理論的下界を導出し、それがゼロから厳密に離れていることを証明した。
我々のアーキテクチャは、標準的なディープネットワークの「死」ニューロンを90 %から5 %未満に減らし、ReLU、Leaky ReLU、SeLU、GeLUを上回ります。
第二に、ベルンシュタイン型ネットワークの近似誤差は、ReLU型アーキテクチャの多項式速度よりも大幅に改善され、指数関数的に減衰することを示す。
これらの結果を統一することにより、ベルンシュタインの活性化が関数近似と信号流の優れたメカニズムを提供することを示した。
HIGGS と MNIST に関する実験により,Deep Bernstein Networks がスキップ接続なしで高性能な学習を行なえることを確認した。
関連論文リスト
- Multigrade Neural Network Approximation [13.496991650323038]
深層ニューラルネットワークにおける構造的誤り改善のための基本的枠組みを開発する。
任意の連続的対象関数に対して、固定幅ブロックの多重グレード $textttRe$LU が存在し、その残差はグレードによって減少し、一様収束することを示す。
論文 参考訳(メタデータ) (2026-01-23T16:46:25Z) - Optimal Depth of Neural Networks [2.1756081703276]
本稿では,ニューラルネットワークの最適深さの決定に対処する公式な理論的枠組みを提案する。
我々は、シーケンシャルな決定プロセスとして、隠蔽表現の層間進化をモデル化する。
本稿では,ネットワークが効率よく早期終了可能な表現を学習することを奨励する,新規で実用的な正規化用語である$mathcalL_rm depth$を提案する。
論文 参考訳(メタデータ) (2025-06-20T09:26:01Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Convergence and Implicit Regularization Properties of Gradient Descent
for Deep Residual Networks [7.090165638014331]
一定の層幅とスムーズな活性化関数を持つ深層残留ネットワークのトレーニングにおいて,勾配勾配の線形収束性を大域最小限に証明する。
トレーニングされた重みは、層指数の関数として、ネットワークの深さが無限大になる傾向にあるため、H"古い"スケーリング制限が連続であることを示す。
論文 参考訳(メタデータ) (2022-04-14T22:50:28Z) - How do noise tails impact on deep ReLU networks? [2.5889847253961418]
非パラメトリック回帰関数のクラスにおける最適収束速度が p, 滑らか度, 内在次元に依存することを示す。
我々はまた、深部ReLUニューラルネットワークの近似理論に関する新しい結果にも貢献する。
論文 参考訳(メタデータ) (2022-03-20T00:27:32Z) - Toward Trainability of Deep Quantum Neural Networks [87.04438831673063]
ランダムな構造を持つ量子ニューラルネットワーク(QNN)は、回路深さと量子ビット数が増加するにつれて指数関数的に減少する勾配のため、トレーニング性に乏しい。
理論的保証のある深部QNNに対して、消滅する勾配問題に対する最初の実現可能な解決策を提供する。
論文 参考訳(メタデータ) (2021-12-30T10:27:08Z) - Optimization-Based Separations for Neural Networks [57.875347246373956]
本研究では,2層のシグモダルアクティベーションを持つディープ2ニューラルネットワークを用いて,ボールインジケータ関数を効率よく学習できることを示す。
これは最適化に基づく最初の分離結果であり、より強力なアーキテクチャの近似の利点は、実際に確実に現れる。
論文 参考訳(メタデータ) (2021-12-04T18:07:47Z) - Non-Gradient Manifold Neural Network [79.44066256794187]
ディープニューラルネットワーク(DNN)は通常、勾配降下による最適化に数千のイテレーションを要します。
非次最適化に基づく新しい多様体ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-15T06:39:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。