論文の概要: Learning a Single Neuron for Non-monotonic Activation Functions
- arxiv url: http://arxiv.org/abs/2202.08064v1
- Date: Wed, 16 Feb 2022 13:44:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-17 15:01:03.176836
- Title: Learning a Single Neuron for Non-monotonic Activation Functions
- Title(参考訳): 非単調活性化機能を持つ単一ニューロンの学習
- Authors: Lei Wu
- Abstract要約: 非単調活性化関数は、多くの応用において伝統的な単調関数よりも優れる。
サンプル時間における学習性を保証するのに$sigma$の穏やかな条件が十分であることを示す。
また,2層ニューラルネットワークのトレーニングにおいて,既存の負の結果に肯定的な結果がどう関係しているかについても論じる。
- 参考スコア(独自算出の注目度): 3.890410443467757
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of learning a single neuron $\mathbf{x}\mapsto
\sigma(\mathbf{w}^T\mathbf{x})$ with gradient descent (GD). All the existing
positive results are limited to the case where $\sigma$ is monotonic. However,
it is recently observed that non-monotonic activation functions outperform the
traditional monotonic ones in many applications. To fill this gap, we establish
learnability without assuming monotonicity. Specifically, when the input
distribution is the standard Gaussian, we show that mild conditions on $\sigma$
(e.g., $\sigma$ has a dominating linear part) are sufficient to guarantee the
learnability in polynomial time and polynomial samples. Moreover, with a
stronger assumption on the activation function, the condition of input
distribution can be relaxed to a non-degeneracy of the marginal distribution.
We remark that our conditions on $\sigma$ are satisfied by practical
non-monotonic activation functions, such as SiLU/Swish and GELU. We also
discuss how our positive results are related to existing negative results on
training two-layer neural networks.
- Abstract(参考訳): 我々は、勾配降下(GD)を伴う単一ニューロン $\mathbf{x}\mapsto \sigma(\mathbf{w}^T\mathbf{x})$ の学習問題を研究する。
既存の正の結果はすべて、$\sigma$ が単調である場合に限られる。
しかし、最近、多くの応用において非単調活性化関数が従来の単調関数よりも優れていることが観察された。
このギャップを埋めるために,単調性を仮定せずに学習能力を確立する。
具体的には、入力分布が標準ガウスである場合、$\sigma$(例えば$\sigma$ が支配する線形部分を持つ)の軽度条件が多項式時間と多項式サンプルの学習可能性を保証するのに十分であることを示す。
さらに、活性化関数をより強く仮定することで、入力分布の条件を限界分布の非退化に緩和することができる。
我々は、$\sigma$ の条件は silu/swish や gelu のような実用的な非単調な活性化関数によって満たされると述べた。
また,2層ニューラルネットワークのトレーニングにおいて,既存の負の結果に肯定的な結果がどう関係しているかについても論じる。
関連論文リスト
- A Mathematical Certification for Positivity Conditions in Neural Networks with Applications to Partial Monotonicity and Ethical AI [48.623199394622546]
LipVorは、ANNのようなブラックボックスモデルが有限個の評価に基づいて正であるかどうかを認証するアルゴリズムである。
我々の手法は、ANNが部分的に単調であるかどうかを数学的に証明できるが、制約のあるANNのアーキテクチャや断片的な線形アクティベーション関数は不要である。
論文 参考訳(メタデータ) (2024-06-12T07:33:38Z) - Interpolation with deep neural networks with non-polynomial activations: necessary and sufficient numbers of neurons [0.0]
我々は、活性化関数が点ではなく点において実数である限り、$Theta(sqrtnd')$ニューロンは十分であることを示す。
これは、パワーを失うことなく、アクティベーション関数を問題依存的に自由に選択できることを意味する。
論文 参考訳(メタデータ) (2024-05-22T15:29:45Z) - Learning a Single Neuron with Adversarial Label Noise via Gradient
Descent [50.659479930171585]
モノトン活性化に対する $mathbfxmapstosigma(mathbfwcdotmathbfx)$ の関数について検討する。
学習者の目標は仮説ベクトル $mathbfw$ that $F(mathbbw)=C, epsilon$ を高い確率で出力することである。
論文 参考訳(メタデータ) (2022-06-17T17:55:43Z) - Constrained Monotonic Neural Networks [0.685316573653194]
金融や医療といった多くの重要な分野におけるニューラルネットワークの採用は、その予測を説明する必要性によって妨げられている。
モノトニック性制約は、現実世界のシナリオで最も要求された特性の1つである。
我々は、$mathbbRn$ のコンパクト部分集合上の任意の連続単調関数を近似できることを示した。
論文 参考訳(メタデータ) (2022-05-24T04:26:10Z) - Deformed semicircle law and concentration of nonlinear random matrices
for ultra-wide neural networks [29.03095282348978]
本稿では、$f(X)$に付随する2つの経験的カーネル行列のスペクトル分布の制限について検討する。
経験的カーネルによって誘導されるランダムな特徴回帰は、超広範体制下でのカーネル回帰の制限と同じ性能を達成することを示す。
論文 参考訳(メタデータ) (2021-09-20T05:25:52Z) - Learning a Single Neuron with Bias Using Gradient Descent [53.15475693468925]
単一ニューロンをバイアス項で学習する基本的な問題について検討する。
これはバイアスのないケースとは大きく異なり、より難しい問題であることを示す。
論文 参考訳(メタデータ) (2021-06-02T12:09:55Z) - Learning Over-Parametrized Two-Layer ReLU Neural Networks beyond NTK [58.5766737343951]
2層ニューラルネットワークを学習する際の降下のダイナミクスについて考察する。
過度にパラメータ化された2層ニューラルネットワークは、タンジェントサンプルを用いて、ほとんどの地上で勾配損失を許容的に学習できることを示す。
論文 参考訳(メタデータ) (2020-07-09T07:09:28Z) - Agnostic Learning of a Single Neuron with Gradient Descent [92.7662890047311]
期待される正方形損失から、最も適合した単一ニューロンを学習することの問題点を考察する。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
論文 参考訳(メタデータ) (2020-05-29T07:20:35Z) - Learning a Single Neuron with Gradient Methods [39.291483556116454]
単一ニューロン$xmaptosigma(wtop x)$を標準勾配法で学習する根本的な問題を考える。
より一般的な結果が、より穏やかな仮定の下で達成可能かどうかを問う。
論文 参考訳(メタデータ) (2020-01-15T10:02:45Z) - Gaussian Error Linear Units (GELUs) [58.195342948092964]
本稿では,入力の重み付けを行うニューラルネットワークアクティベーション関数を提案する。
コンピュータビジョン、自然言語処理、音声タスクのすべてにおいて、パフォーマンスが改善されている。
論文 参考訳(メタデータ) (2016-06-27T19:20:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。