論文の概要: Universal Smoothness via Bernstein Polynomials: A Constructive Approximation Approach for Activation Functions
- arxiv url: http://arxiv.org/abs/2605.02591v1
- Date: Mon, 04 May 2026 13:38:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.308971
- Title: Universal Smoothness via Bernstein Polynomials: A Constructive Approximation Approach for Activation Functions
- Title(参考訳): ベルンシュタイン多項式による普遍的平滑性:活性化関数に対する構成的近似法
- Authors: Wentao Zhang, Yutong Zhang, Yifan Zhu, Wentao Mo,
- Abstract要約: ディープニューラルネットワークの有効性は、非線形活性化関数の設計に大きく依存している。
提案手法は厳密な連続微分可能性と1の非拡張リプシッツ定数を保証する。
このアプローチは、標準画像分類ベンチマークにおける最先端のベースラインを一貫して上回る。
- 参考スコア(独自算出の注目度): 16.856453018275467
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The efficacy of deep neural networks is heavily reliant on the design of non-linear activation functions, yet existing approaches often struggle to balance optimization stability with computational efficiency. While piecewise linear functions offer inference speed, they suffer from optimization instability due to non-differentiability at the origin, whereas smooth counterparts typically incur significant computational overhead through their reliance on transcendental operations. To address these limitations, this paper proposes a general smoothing framework based on constructive approximation theory and introduces the Bernstein Linear Unit (BerLU). This novel activation function utilizes Bernstein polynomials to construct a differentiable quadratic transition region that effectively eliminates singularities while maintaining a piecewise linear structure. Theoretical analysis demonstrates that the proposed method guarantees strictly continuous differentiability and a non-expansive Lipschitz constant of one, which ensures stable gradient propagation and prevents the gradient explosion problems common in deep architectures. Comprehensive empirical evaluations across representative Vision Transformer and Convolutional Neural Network architectures confirm that this approach consistently outperforms state-of-the-art baselines on standard image classification benchmarks while delivering superior computational and memory efficiency.
- Abstract(参考訳): ディープニューラルネットワークの有効性は非線形活性化関数の設計に大きく依存しているが、既存のアプローチでは最適化安定性と計算効率のバランスをとるのに苦労することが多い。
分数線形関数は推論速度を提供するが、原点における微分不可能性による最適化の不安定性に悩まされる一方、スムーズな関数は超越演算に依存することで計算上のオーバーヘッドを生じさせるのが一般的である。
これらの制約に対処するために,構成近似理論に基づく一般的な平滑化フレームワークを提案し,Berstein Linear Unit (BerLU) を提案する。
この新しい活性化関数はベルンシュタイン多項式を利用して微分可能な二次遷移領域を構築し、断片的線形構造を維持しながら特異性を効果的に排除する。
理論的解析により,提案手法は厳密な連続的な微分可能性と拡張不可能なリプシッツ定数を保証し,安定な勾配伝播を保証し,深層構造に共通する勾配爆発問題を防止できることを示した。
代表的なVision TransformerとConvolutional Neural Networkアーキテクチャ間の総合的な経験的評価により、このアプローチが標準画像分類ベンチマークの最先端ベースラインを一貫して上回り、優れた計算とメモリ効率を提供することを確認した。
関連論文リスト
- Optimal Effective Hamiltonian for Quantum Computing and Simulation [1.0359978670015826]
実効モデルの基本原理としてLast Action Unitary Transformationを確立します。
この枠組みを超伝導量子プロセッサの実験データに対して検証する。
この研究は、高精度なシステム学習とハミルトン工学のための体系的で実験的に検証されたルートを提供する。
論文 参考訳(メタデータ) (2026-02-03T15:09:29Z) - An Accelerated Alternating Partial Bregman Algorithm for ReLU-based Matrix Decomposition [0.0]
本稿では,非負行列上に補正されたスパース低ランク特性について検討する。
本稿では,クラスタリングと圧縮タスクに有用な構造を取り入れた新しい正規化項を提案する。
我々は、任意の$Lge 1$に対して常に持つ$L$-smoothプロパティを維持しながら、対応する閉形式解を導出する。
論文 参考訳(メタデータ) (2025-03-04T08:20:34Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Efficient Bound of Lipschitz Constant for Convolutional Layers by Gram
Iteration [122.51142131506639]
循環行列理論を用いて畳み込み層のスペクトルノルムに対して、精密で高速で微分可能な上界を導入する。
提案手法は, 精度, 計算コスト, スケーラビリティの観点から, 他の最先端手法よりも優れていることを示す。
これは畳み込みニューラルネットワークのリプシッツ正則化に非常に効果的であり、並行アプローチに対する競合的な結果である。
論文 参考訳(メタデータ) (2023-05-25T15:32:21Z) - Breaking the Convergence Barrier: Optimization via Fixed-Time Convergent
Flows [4.817429789586127]
本稿では, 固定時間安定力学系の概念に基づいて, 加速を実現するための多言語最適化フレームワークを提案する。
提案手法の高速化された収束特性を,最先端の最適化アルゴリズムに対して様々な数値例で検証する。
論文 参考訳(メタデータ) (2021-12-02T16:04:40Z) - On dissipative symplectic integration with applications to
gradient-based optimization [77.34726150561087]
本稿では,離散化を体系的に実現する幾何学的枠組みを提案する。
我々は、シンプレクティックな非保守的、特に散逸的なハミルトン系への一般化が、制御された誤差まで収束率を維持することができることを示す。
論文 参考訳(メタデータ) (2020-04-15T00:36:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。