論文の概要: Smoothness Adaptivity in Constant-Depth Neural Networks: Optimal Rates via Smooth Activations
- arxiv url: http://arxiv.org/abs/2602.19691v1
- Date: Mon, 23 Feb 2026 10:38:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.771749
- Title: Smoothness Adaptivity in Constant-Depth Neural Networks: Optimal Rates via Smooth Activations
- Title(参考訳): 一定深度ニューラルネットワークにおける滑らか性適応性:滑らかな活性化による最適速度
- Authors: Yuhao Liu, Zilin Wang, Lei Wu, Shaobo Zhang,
- Abstract要約: 本研究では,スムーズなアクティベーションを備えた定数深度ネットワークが,目標関数のスムーズさを任意に高次に活用することを証明する。
我々は,活性化の滑らかさを,統計的最適性を達成するための基本的なメカニズムとして認識する。
- 参考スコア(独自算出の注目度): 11.1057367593811
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Smooth activation functions are ubiquitous in modern deep learning, yet their theoretical advantages over non-smooth counterparts remain poorly understood. In this work, we characterize both approximation and statistical properties of neural networks with smooth activations over the Sobolev space $W^{s,\infty}([0,1]^d)$ for arbitrary smoothness $s>0$. We prove that constant-depth networks equipped with smooth activations automatically exploit arbitrarily high orders of target function smoothness, achieving the minimax-optimal approximation and estimation error rates (up to logarithmic factors). In sharp contrast, networks with non-smooth activations, such as ReLU, lack this adaptivity: their attainable approximation order is strictly limited by depth, and capturing higher-order smoothness requires proportional depth growth. These results identify activation smoothness as a fundamental mechanism, alternative to depth, for attaining statistical optimality. Technically, our results are established via a constructive approximation framework that produces explicit neural network approximators with carefully controlled parameter norms and model size. This complexity control ensures statistical learnability under empirical risk minimization (ERM) and removes the impractical sparsity constraints commonly required in prior analyses.
- Abstract(参考訳): スムース・アクティベーション(英語版)関数は現代のディープラーニングにおいてユビキタスであるが、非スムース・アクティベーション関数に対する理論上の優位性は理解されていない。
本研究では、ソボレフ空間$W^{s,\infty}([0,1]^d)$ 上のスムーズな活性化を伴うニューラルネットワークの近似と統計的性質を、任意の滑らかさ$s>0$ に対して特徴付ける。
本研究では,スムーズなアクティベーションを備えた定数深度ネットワークが,目標関数のスムーズさを任意に高次に活用し,最小最大近似と推定誤差率(対数係数まで)を達成することを証明した。
鋭い対照的に、ReLUのような非滑らかな活性化を持つネットワークは、この適応性に欠けており、到達可能な近似順序は、深さによって厳密に制限され、高次の滑らかさを捉えるには、比例的な深さ成長が必要である。
これらの結果から, アクティベーション・スムースネスを, 統計的最適性を達成するための基本的なメカニズムとして同定した。
技術的には,パラメータノルムとモデルサイズを慎重に制御した明示的ニューラルネットワーク近似器を構築的近似フレームワークで構築する。
この複雑性制御は、経験的リスク最小化(ERM)の下での統計的学習性を保証し、事前分析で一般的に必要とされる非現実的な空間的制約を取り除く。
関連論文リスト
- Optimal Rates for Robust Stochastic Convex Optimization [12.620782629498812]
我々は、$epsilon$-contaminationモデルの下で、最小最適過剰リスク(対数因子まで)を達成する新しいアルゴリズムを開発した。
我々のアルゴリズムは、個々のサンプル関数のリプシッツ連続性や滑らかさを含む厳密な仮定を必要としない。
我々は、ロバストSCOのための厳密な情報理論の下限でアルゴリズム開発を補完する。
論文 参考訳(メタデータ) (2024-12-15T00:52:08Z) - A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - Convergence of Gradient Descent for Recurrent Neural Networks: A Nonasymptotic Analysis [16.893624100273108]
教師付き学習環境において,勾配降下を訓練した斜め隠れ重み行列を用いた繰り返しニューラルネットワークの解析を行った。
我々は,パラメータ化を伴わずに勾配降下が最適性を実現することを証明した。
この結果は、繰り返しニューラルネットワークによって近似および学習できる力学系のクラスを明示的に評価することに基づいている。
論文 参考訳(メタデータ) (2024-02-19T15:56:43Z) - Achieving Constraints in Neural Networks: A Stochastic Augmented
Lagrangian Approach [49.1574468325115]
DNN(Deep Neural Networks)の正規化は、一般化性の向上とオーバーフィッティングの防止に不可欠である。
制約付き最適化問題としてトレーニングプロセスのフレーミングによるDNN正規化に対する新しいアプローチを提案する。
我々はAugmented Lagrangian (SAL) 法を用いて、より柔軟で効率的な正規化機構を実現する。
論文 参考訳(メタデータ) (2023-10-25T13:55:35Z) - Soft Merging: A Flexible and Robust Soft Model Merging Approach for
Enhanced Neural Network Performance [6.599368083393398]
グラディエント(SGD)はしばしばモデル性能を改善するために局所最適化を収束させることに制限される。
エム・ソフト・マージング法は、望ましくない結果で得られた局所最適モデルを最小化する。
実験は、統合されたネットワークの有効性を裏付けるものである。
論文 参考訳(メタデータ) (2023-09-21T17:07:31Z) - Optimization Guarantees of Unfolded ISTA and ADMM Networks With Smooth
Soft-Thresholding [57.71603937699949]
我々は,学習エポックの数の増加とともに,ほぼゼロに近いトレーニング損失を達成するための最適化保証について検討した。
トレーニングサンプル数に対する閾値は,ネットワーク幅の増加とともに増加することを示す。
論文 参考訳(メタデータ) (2023-09-12T13:03:47Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Support recovery and sup-norm convergence rates for sparse pivotal
estimation [79.13844065776928]
高次元スパース回帰では、ピボット推定器は最適な正規化パラメータがノイズレベルに依存しない推定器である。
非滑らかで滑らかな単一タスクとマルチタスク正方形ラッソ型推定器に対するミニマックス超ノルム収束率を示す。
論文 参考訳(メタデータ) (2020-01-15T16:11:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。