論文の概要: Provable Benefits of Sinusoidal Activation for Modular Addition
- arxiv url: http://arxiv.org/abs/2511.23443v1
- Date: Fri, 28 Nov 2025 18:37:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:56.026019
- Title: Provable Benefits of Sinusoidal Activation for Modular Addition
- Title(参考訳): モジュラー付加における正弦波活性化の防止効果
- Authors: Tianlong Huang, Zhiyuan Li,
- Abstract要約: 罪は任意の固定長$m$に対して2$の正確な実現を認め、偏りがあれば、すべての長さに対して2$の正確な実現を認める。
次に、正弦ネットワークに対する新しいナタラジャン次元一般化を提供し、定数幅の正弦ネットワーク上でのERMに対して、ほぼ最適なサンプル複雑性を$widetildemathcalO(p)$とする。
また、過度にパラメータ化された状態における正弦波ネットワークの幅非依存のマージンベース一般化を導出し、検証する。
- 参考スコア(独自算出の注目度): 6.836203507099085
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper studies the role of activation functions in learning modular addition with two-layer neural networks. We first establish a sharp expressivity gap: sine MLPs admit width-$2$ exact realizations for any fixed length $m$ and, with bias, width-$2$ exact realizations uniformly over all lengths. In contrast, the width of ReLU networks must scale linearly with $m$ to interpolate, and they cannot simultaneously fit two lengths with different residues modulo $p$. We then provide a novel Natarajan-dimension generalization bound for sine networks, yielding nearly optimal sample complexity $\widetilde{\mathcal{O}}(p)$ for ERM over constant-width sine networks. We also derive width-independent, margin-based generalization for sine networks in the overparametrized regime and validate it. Empirically, sine networks generalize consistently better than ReLU networks across regimes and exhibit strong length extrapolation.
- Abstract(参考訳): 本稿では,2層ニューラルネットワークを用いたモジュラ付加学習におけるアクティベーション関数の役割について検討する。
厳密な MLP は任意の固定長に対して 2$$m$ の正確な実現を認め、バイアスにより、すべての長さに対して 2$$ の正確な実現を認める。
対照的に、ReLUネットワークの幅は$m$で線形にスケールしなければならないし、異なる残余を持つ2つの長さを同時に合わせることはできない。
次に、正弦ネットワークに対する新しいナタラジャン次元一般化を提供し、定数幅の正弦ネットワーク上のERMに対して、ほぼ最適なサンプル複雑性$\widetilde{\mathcal{O}}(p)$を得る。
また、過度にパラメータ化された状態における正弦波ネットワークの幅非依存のマージンベース一般化を導出し、検証する。
実証的に、正弦波ネットワークはレジーム間のReLUネットワークよりも一貫して一般化し、強い長さの外挿を示す。
関連論文リスト
- Constructive Universal Approximation and Finite Sample Memorization by Narrow Deep ReLU Networks [0.0]
我々は$N$の異なる点を持つデータセットが$mathbbRd$と$M$の出力クラスを正確に分類できることを示した。
また、任意の有界領域に対して$Lp(Omega; mathbbRm)$の普遍近似定理も証明する。
我々の結果は、深層ニューラルネットワークにおける制御性、表現性、およびトレーニングのダイナミクスを接続する統一的で解釈可能なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-09-10T14:31:21Z) - Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks [54.177130905659155]
近年の研究では、再生カーネルヒルベルト空間(RKHS)がニューラルネットワークによる関数のモデル化に適した空間ではないことが示されている。
本稿では,有界ノルムを持つオーバーパラメータ化された2層ニューラルネットワークに適した関数空間について検討する。
論文 参考訳(メタデータ) (2024-04-29T15:04:07Z) - Depth Separation in Norm-Bounded Infinite-Width Neural Networks [55.21840159087921]
無限幅ニューラルネットワークでは,重みの総和$ell$-normで複雑性を制御できる。
本稿では,標準制御深度3ReLUネットワークによる入力次元のサンプル複雑性を学習可能な関数が存在するが,標準制御深度2ReLUネットワークによるサブ指数サンプル複雑性では学習できないことを示す。
論文 参考訳(メタデータ) (2024-02-13T21:26:38Z) - Universal approximation with complex-valued deep narrow neural networks [0.0]
境界幅と任意の深さを持つ複素数値ニューラルネットワークの普遍性について検討する。
より狭い複素数値ネットワークは、その活性化関数が正則でもなく、反正則でもなく、$mathbbR$-affineでもない場合に限り普遍であることを示す。
論文 参考訳(メタデータ) (2023-05-26T13:22:14Z) - The Onset of Variance-Limited Behavior for Networks in the Lazy and Rich
Regimes [75.59720049837459]
無限幅挙動からこの分散制限状態への遷移をサンプルサイズ$P$とネットワーク幅$N$の関数として検討する。
有限サイズ効果は、ReLUネットワークによる回帰のために、$P* sim sqrtN$の順序で非常に小さなデータセットに関係があることが分かる。
論文 参考訳(メタデータ) (2022-12-23T04:48:04Z) - On the Universal Approximation Property of Deep Fully Convolutional
Neural Networks [15.716533830931766]
我々は, 深い残差完全畳み込みネットワークとその連続層ネットワークが, 一定のチャネル幅で対称関数の普遍近似を実現できることを証明した。
これらの要件は、チャネルが少なく、カーネルが少ないネットワークが普遍的な近似器にならないという意味で必要であることを示す。
論文 参考訳(メタデータ) (2022-11-25T12:02:57Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - Minimum Width for Universal Approximation [91.02689252671291]
我々は、$Lp$関数の普遍近似に必要な最小幅がちょうど$maxd_x+1,d_y$であることを証明する。
また、同じ結論がReLUと一様近似に当てはまるのではなく、追加のしきい値アクティベーション関数で成り立つことを証明している。
論文 参考訳(メタデータ) (2020-06-16T01:24:21Z) - Neural Networks are Convex Regularizers: Exact Polynomial-time Convex
Optimization Formulations for Two-layer Networks [70.15611146583068]
我々は、線形整列ユニット(ReLU)を用いた2層ニューラルネットワークのトレーニングの正確な表現を開発する。
我々の理論は半無限双対性と最小ノルム正規化を利用する。
論文 参考訳(メタデータ) (2020-02-24T21:32:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。