論文の概要: Smoothness Adaptivity in Constant-Depth Neural Networks: Optimal Rates via Smooth Activations
- arxiv url: http://arxiv.org/abs/2602.19691v2
- Date: Sat, 28 Feb 2026 11:33:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 13:35:12.288219
- Title: Smoothness Adaptivity in Constant-Depth Neural Networks: Optimal Rates via Smooth Activations
- Title(参考訳): 一定深度ニューラルネットワークにおける滑らか性適応性:滑らかな活性化による最適速度
- Authors: Yuhao Liu, Zilin Wang, Lei Wu, Shaobo Zhang,
- Abstract要約: ソボレフ空間における学習関数を円滑に活性化するニューラルネットワークの近似と統計的性質について検討した。
本研究では,スムーズなアクティベーションを備えた定数深度ネットワークが,スムーズな適応性を実現することを証明した。
本稿では,ソボレフ関数クラスに対する最適速度を達成するための基本的なメカニズムとして,活性化の滑らかさを同定する。
- 参考スコア(独自算出の注目度): 11.1057367593811
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Smooth activation functions are ubiquitous in modern deep learning, yet their theoretical advantages over non-smooth counterparts remain poorly understood. In this work, we study both approximation and statistical properties of neural networks with smooth activations for learning functions in the Sobolev space $W^{s,\infty}([0,1]^d)$ with $s>0$. We prove that constant-depth networks equipped with smooth activations achieve smoothness adaptivity: increasing width alone suffices to attain the minimax-optimal approximation and estimation error rates (up to logarithmic factors). In contrast, for non-smooth activations such as ReLU, smoothness adaptivity is fundamentally limited by depth: the attainable approximation order is bounded by depth, and higher-order smoothness requires proportional depth growth. These results identify activation smoothness as a fundamental mechanism, complementary to depth, for achieving optimal rates over Sobolev function classes. Technically, our analysis is based on a multi-scale approximation framework that yields explicit neural network approximators with controlled parameter norms and model size. This complexity control ensures statistical learnability under empirical risk minimization (ERM) and avoids the impractical $\ell^0$-sparsity constraints commonly required in prior analyses.
- Abstract(参考訳): スムース・アクティベーション(英語版)関数は現代のディープラーニングにおいてユビキタスであるが、非スムース・アクティベーション関数に対する理論上の優位性は理解されていない。
本研究では,ソボレフ空間$W^{s,\infty}([0,1]^d)$と$s>0$の学習関数を円滑に活性化するニューラルネットワークの近似と統計特性について検討する。
本研究では,スムーズなアクティベーションを備えた定数深度ネットワークがスムーズな適応性を実現することを証明した。
対照的に、ReLUのような非滑らかな活性化では、滑らかさ適応性は基本的に深さによって制限され、到達可能な近似順序は深さによって境界付けられ、高次の滑らかさは比例的な深さ成長を必要とする。
これらの結果は、ソボレフ関数クラスに対する最適な速度を達成するための基本的なメカニズムとして、活性化の滑らかさを識別する。
技術的には、制御されたパラメータノルムとモデルサイズを持つ明示的なニューラルネットワーク近似器を生成するマルチスケール近似フレームワークに基づいている。
この複雑性制御は、経験的リスク最小化(ERM)の下での統計的学習性を保証し、事前分析で一般的に必要とされる非現実的な$\ell^0$-sparsity制約を回避する。
関連論文リスト
- Generalization Bounds of Stochastic Gradient Descent in Homogeneous Neural Networks [29.858071115963472]
本稿では、ReReReアクティベートを伴う完全連結ニューラルネットワークとニューラル畳み込みニューラルネットワークを含む同種ネットワークについて述べる。
この発見は、ReReReアクティベートを備えた完全連結ニューラルネットワークを含む同質ネットワークとして、広く適用可能である。
論文 参考訳(メタデータ) (2026-02-26T12:26:32Z) - Safeguarded Stochastic Polyak Step Sizes for Non-smooth Optimization: Robust Performance Without Small (Sub)Gradients [16.39606116102731]
適応型ニューラルネットワークを提供するPolyakの消滅は、勾配降下(SGD)にとって有望な選択であることが証明された。
ディープネットワークに関する総合的な実験は、タイトな凸ネットワーク理論を腐食させる。
本研究では、強い仮定を必要とせず、非滑らかな最適化に対して厳密な収束保証を提供する。
論文 参考訳(メタデータ) (2025-12-02T02:24:32Z) - Decentralized Nonconvex Composite Federated Learning with Gradient Tracking and Momentum [78.27945336558987]
分散サーバ(DFL)はクライアント・クライアント・アーキテクチャへの依存をなくす。
非滑らかな正規化はしばしば機械学習タスクに組み込まれる。
本稿では,これらの問題を解決する新しいDNCFLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-17T08:32:25Z) - Global Convergence and Rich Feature Learning in $L$-Layer Infinite-Width Neural Networks under $μ$P Parametrization [66.03821840425539]
本稿では, テンソル勾配プログラム(SGD)フレームワークを用いた$L$層ニューラルネットワークのトレーニング力学について検討する。
SGDにより、これらのネットワークが初期値から大きく逸脱する線形独立な特徴を学習できることを示す。
このリッチな特徴空間は、関連するデータ情報をキャプチャし、トレーニングプロセスの収束点が世界最小であることを保証する。
論文 参考訳(メタデータ) (2025-03-12T17:33:13Z) - Scale-Insensitive Neural Network Significance Tests [0.0]
本稿では、ニューラルネットワークの重要度テストのためのスケールインセンティブなフレームワークを開発する。
我々は、計量エントロピー計算をラデマッハ複雑性境界に置き換える。
対象関数上の正則性条件を弱め、ソボレフ空間メンバシップのみを必要とする。
論文 参考訳(メタデータ) (2025-01-27T03:45:26Z) - Optimal Rates for Robust Stochastic Convex Optimization [12.620782629498812]
我々は、$epsilon$-contaminationモデルの下で、最小最適過剰リスク(対数因子まで)を達成する新しいアルゴリズムを開発した。
我々のアルゴリズムは、個々のサンプル関数のリプシッツ連続性や滑らかさを含む厳密な仮定を必要としない。
我々は、ロバストSCOのための厳密な情報理論の下限でアルゴリズム開発を補完する。
論文 参考訳(メタデータ) (2024-12-15T00:52:08Z) - A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - Convergence of Gradient Descent for Recurrent Neural Networks: A Nonasymptotic Analysis [16.893624100273108]
教師付き学習環境において,勾配降下を訓練した斜め隠れ重み行列を用いた繰り返しニューラルネットワークの解析を行った。
我々は,パラメータ化を伴わずに勾配降下が最適性を実現することを証明した。
この結果は、繰り返しニューラルネットワークによって近似および学習できる力学系のクラスを明示的に評価することに基づいている。
論文 参考訳(メタデータ) (2024-02-19T15:56:43Z) - Achieving Constraints in Neural Networks: A Stochastic Augmented
Lagrangian Approach [49.1574468325115]
DNN(Deep Neural Networks)の正規化は、一般化性の向上とオーバーフィッティングの防止に不可欠である。
制約付き最適化問題としてトレーニングプロセスのフレーミングによるDNN正規化に対する新しいアプローチを提案する。
我々はAugmented Lagrangian (SAL) 法を用いて、より柔軟で効率的な正規化機構を実現する。
論文 参考訳(メタデータ) (2023-10-25T13:55:35Z) - Soft Merging: A Flexible and Robust Soft Model Merging Approach for
Enhanced Neural Network Performance [6.599368083393398]
グラディエント(SGD)はしばしばモデル性能を改善するために局所最適化を収束させることに制限される。
エム・ソフト・マージング法は、望ましくない結果で得られた局所最適モデルを最小化する。
実験は、統合されたネットワークの有効性を裏付けるものである。
論文 参考訳(メタデータ) (2023-09-21T17:07:31Z) - Optimization Guarantees of Unfolded ISTA and ADMM Networks With Smooth
Soft-Thresholding [57.71603937699949]
我々は,学習エポックの数の増加とともに,ほぼゼロに近いトレーニング損失を達成するための最適化保証について検討した。
トレーニングサンプル数に対する閾値は,ネットワーク幅の増加とともに増加することを示す。
論文 参考訳(メタデータ) (2023-09-12T13:03:47Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Measuring Model Complexity of Neural Networks with Curve Activation
Functions [100.98319505253797]
本稿では,線形近似ニューラルネットワーク(LANN)を提案する。
ニューラルネットワークのトレーニングプロセスを実験的に検討し、オーバーフィッティングを検出する。
我々は、$L1$と$L2$正規化がモデルの複雑さの増加を抑制することを発見した。
論文 参考訳(メタデータ) (2020-06-16T07:38:06Z) - Neural Control Variates [71.42768823631918]
ニューラルネットワークの集合が、積分のよい近似を見つけるという課題に直面していることを示す。
理論的に最適な分散最小化損失関数を導出し、実際に安定したオンライントレーニングを行うための代替の複合損失を提案する。
具体的には、学習した光場近似が高次バウンスに十分な品質であることを示し、誤差補正を省略し、無視可能な可視バイアスのコストでノイズを劇的に低減できることを示した。
論文 参考訳(メタデータ) (2020-06-02T11:17:55Z) - Support recovery and sup-norm convergence rates for sparse pivotal
estimation [79.13844065776928]
高次元スパース回帰では、ピボット推定器は最適な正規化パラメータがノイズレベルに依存しない推定器である。
非滑らかで滑らかな単一タスクとマルチタスク正方形ラッソ型推定器に対するミニマックス超ノルム収束率を示す。
論文 参考訳(メタデータ) (2020-01-15T16:11:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。