論文の概要: Gaussian Error Linear Units (GELUs)
- arxiv url: http://arxiv.org/abs/1606.08415v5
- Date: Tue, 6 Jun 2023 01:53:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-08 00:26:30.404718
- Title: Gaussian Error Linear Units (GELUs)
- Title(参考訳): ガウス誤差線形ユニット(GELU)
- Authors: Dan Hendrycks and Kevin Gimpel
- Abstract要約: 本稿では,入力の重み付けを行うニューラルネットワークアクティベーション関数を提案する。
コンピュータビジョン、自然言語処理、音声タスクのすべてにおいて、パフォーマンスが改善されている。
- 参考スコア(独自算出の注目度): 58.195342948092964
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose the Gaussian Error Linear Unit (GELU), a high-performing neural
network activation function. The GELU activation function is $x\Phi(x)$, where
$\Phi(x)$ the standard Gaussian cumulative distribution function. The GELU
nonlinearity weights inputs by their value, rather than gates inputs by their
sign as in ReLUs ($x\mathbf{1}_{x>0}$). We perform an empirical evaluation of
the GELU nonlinearity against the ReLU and ELU activations and find performance
improvements across all considered computer vision, natural language
processing, and speech tasks.
- Abstract(参考訳): 本稿では,高性能ニューラルネットワーク活性化機能であるGaussian Error Linear Unit (GELU)を提案する。
GELU の活性化関数は $x\Phi(x)$ であり、$\Phi(x)$ は標準ガウス累積分布関数である。
GELUの非線形性は、ReLUs(x\mathbf{1}_{x>0}$)のようにゲートの入力よりも、その値によって入力される。
GELUの非線形性をReLUとELUのアクティベーションに対して実証的に評価し,コンピュータビジョン,自然言語処理,音声タスクにまたがる性能改善について検討した。
関連論文リスト
- ReLU$^2$ Wins: Discovering Efficient Activation Functions for Sparse
LLMs [91.31204876440765]
本稿では、ニューロンの出力の等級と調整された等級しきい値によってニューロンの活性化を定義する一般的な方法を提案する。
スパース計算における最も効率的なアクティベーション関数を見つけるために,本手法を提案する。
我々は、ReLU、SwiGLU、ReGLU、ReLU$2$といった異なるアクティベーション機能を利用したLCMの徹底的な実験を行う。
論文 参考訳(メタデータ) (2024-02-06T08:45:51Z) - A Unifying Generator Loss Function for Generative Adversarial Networks [5.5575224613422725]
二重目的生成逆数ネットワーク(GAN)に対する$alpha$-parametrized generator loss関数の導入
ジェネレータ損失関数は対称クラス確率推定型関数である$mathcalL_alpha$に基づいており、その結果のGANシステムは$mathcalL_alpha$-GANと呼ばれる。
論文 参考訳(メタデータ) (2023-08-14T16:16:31Z) - Efficiently Learning One-Hidden-Layer ReLU Networks via Schur
Polynomials [50.90125395570797]
正方形損失に関して、標準的なガウス分布の下での$k$ReLU活性化の線形結合をPAC学習する問題をmathbbRd$で検討する。
本研究の主な成果は,この学習課題に対して,サンプルおよび計算複雑性が$(dk/epsilon)O(k)$で,epsilon>0$が目標精度である。
論文 参考訳(メタデータ) (2023-07-24T14:37:22Z) - Learning a Single Neuron for Non-monotonic Activation Functions [3.890410443467757]
非単調活性化関数は、多くの応用において伝統的な単調関数よりも優れる。
サンプル時間における学習性を保証するのに$sigma$の穏やかな条件が十分であることを示す。
また,2層ニューラルネットワークのトレーニングにおいて,既存の負の結果に肯定的な結果がどう関係しているかについても論じる。
論文 参考訳(メタデータ) (2022-02-16T13:44:25Z) - Graph-adaptive Rectified Linear Unit for Graph Neural Networks [64.92221119723048]
グラフニューラルネットワーク(GNN)は、従来の畳み込みを非ユークリッドデータでの学習に拡張することで、目覚ましい成功を収めた。
本稿では,周辺情報を利用した新しいパラメトリックアクティベーション機能であるグラフ適応整流線形ユニット(GRELU)を提案する。
我々は,GNNのバックボーンと様々な下流タスクによって,プラグアンドプレイGRELU法が効率的かつ効果的であることを示す包括的実験を行った。
論文 参考訳(メタデータ) (2022-02-13T10:54:59Z) - Convergence and Sample Complexity of SGD in GANs [15.25030172685628]
SGDによるGAN(Generative Adversarial Networks)のトレーニングにおける収束保証を提供する。
我々は,非線形アクティベーション機能を持つ1層ジェネレータネットワークによってモデル化されたターゲット分布の学習を検討する。
この結果は、ReLUを含む幅広い非線形アクティベーション関数 $phi$ に適用され、切り離された統計との接続によって実現される。
論文 参考訳(メタデータ) (2020-12-01T18:50:38Z) - Optimal Robust Linear Regression in Nearly Linear Time [97.11565882347772]
学習者が生成モデル$Y = langle X,w* rangle + epsilon$から$n$のサンプルにアクセスできるような高次元頑健な線形回帰問題について検討する。
i) $X$ is L4-L2 hypercontractive, $mathbbE [XXtop]$ has bounded condition number and $epsilon$ has bounded variance, (ii) $X$ is sub-Gaussian with identity second moment and $epsilon$ is
論文 参考訳(メタデータ) (2020-07-16T06:44:44Z) - Overcoming Overfitting and Large Weight Update Problem in Linear
Rectifiers: Thresholded Exponential Rectified Linear Units [0.0]
TEELU(Thresholded Indexic rectified linear unit)活性化関数は, オーバーフィッティングの軽減に有効である。
我々は,他のアクティベーションデータセットと比較して,TERELUアクティベーション手法を考慮し,ニューラルネットワークを用いて様々な性能を示す。
論文 参考訳(メタデータ) (2020-06-04T11:55:47Z) - Least $k$th-Order and R\'{e}nyi Generative Adversarial Networks [12.13405065406781]
実験結果から,MNISTデータセットとCelebAデータセットに適用した損失関数は,それぞれ$k$と$alpha$のパラメータによって提供される余分な自由度により,性能上のメリットが期待できることがわかった。
本研究は GAN に適用されているが,提案手法は汎用的であり,情報理論の他の応用例,例えば人工知能における公正性やプライバシの問題などに応用することができる。
論文 参考訳(メタデータ) (2020-06-03T18:44:05Z) - Agnostic Learning of a Single Neuron with Gradient Descent [92.7662890047311]
期待される正方形損失から、最も適合した単一ニューロンを学習することの問題点を考察する。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
論文 参考訳(メタデータ) (2020-05-29T07:20:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。