論文の概要: A Significantly Better Class of Activation Functions Than ReLU Like Activation Functions
- arxiv url: http://arxiv.org/abs/2405.04459v1
- Date: Tue, 7 May 2024 16:24:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 13:21:31.885122
- Title: A Significantly Better Class of Activation Functions Than ReLU Like Activation Functions
- Title(参考訳): ReLUがアクティベーション関数を好むよりもはるかに優れたアクティベーション関数のクラス
- Authors: Mathew Mithra Noel, Yug Oswal,
- Abstract要約: 本稿では、ほぼ普遍的に使われているReLUlikeやSigmoidalのアクティベーション関数よりもはるかに優れたアクティベーション関数のクラスを導入する。
2つの新しいアクティベーション関数は、一般的なアクティベーション関数と大きく異なるコーンとパラボリックコーンと呼ばれる。
本稿では,多くの非線形実世界のデータセットを半空間よりも少ないハイパーストリップで分離できることを示す。
- 参考スコア(独自算出の注目度): 0.8287206589886881
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a significantly better class of activation functions than the almost universally used ReLU like and Sigmoidal class of activation functions. Two new activation functions referred to as the Cone and Parabolic-Cone that differ drastically from popular activation functions and significantly outperform these on the CIFAR-10 and Imagenette benchmmarks are proposed. The cone activation functions are positive only on a finite interval and are strictly negative except at the end-points of the interval, where they become zero. Thus the set of inputs that produce a positive output for a neuron with cone activation functions is a hyperstrip and not a half-space as is the usual case. Since a hyper strip is the region between two parallel hyper-planes, it allows neurons to more finely divide the input feature space into positive and negative classes than with infinitely wide half-spaces. In particular the XOR function can be learn by a single neuron with cone-like activation functions. Both the cone and parabolic-cone activation functions are shown to achieve higher accuracies with significantly fewer neurons on benchmarks. The results presented in this paper indicate that many nonlinear real-world datasets may be separated with fewer hyperstrips than half-spaces. The Cone and Parabolic-Cone activation functions have larger derivatives than ReLU and are shown to significantly speedup training.
- Abstract(参考訳): 本稿では、ほぼ普遍的に使われているReLUlikeやSigmoidalのアクティベーション関数よりもはるかに優れたアクティベーション関数のクラスを導入する。
CIFAR-10 と Imagenette のベンチマークでは、一般的なアクティベーション関数と大きく異なる2つの新しいアクティベーション関数が提案されている。
円錐活性化関数は有限区間でのみ正であり、その区間の終点を除いて厳密に負となる。
したがって、円錐活性化関数を持つニューロンに対して正の出力を生成する入力の集合は、通常の場合のように半空間ではなく超ストリップである。
ハイパーストリップは2つの平行超平面の間の領域であるため、ニューロンは無限に広い半空間を持つよりも、入力特徴空間を正と負のクラスに細分化することができる。
特に、XOR関数は錐体様活性化関数を持つ単一ニューロンによって学習することができる。
コーンとパラボリックコーンの活性化関数は、ベンチマーク上のニューロンが著しく少ない高い精度を達成することが示されている。
本稿では,多くの非線形実世界のデータセットを半空間よりも少ないハイパーストリップで分離できることを示す。
Cone と Parabolic-Cone の活性化関数は ReLU よりも大きな微分を持ち、非常に高速なトレーニングが示される。
関連論文リスト
- Latent Assistance Networks: Rediscovering Hyperbolic Tangents in RL [8.647614188619315]
活性化関数は、ニューラルネットワークの重要な構成要素の1つである。
本稿では,活性化機能が神経細胞の発生と有効ランクの大きさにどのように影響するかを考察する。
アタリ領域では、学習の高速化、死んだ神経細胞の減少、効果的なランクの向上が示される。
論文 参考訳(メタデータ) (2024-06-13T13:03:37Z) - ReLU$^2$ Wins: Discovering Efficient Activation Functions for Sparse
LLMs [91.31204876440765]
本稿では、ニューロンの出力の等級と調整された等級しきい値によってニューロンの活性化を定義する一般的な方法を提案する。
スパース計算における最も効率的なアクティベーション関数を見つけるために,本手法を提案する。
我々は、ReLU、SwiGLU、ReGLU、ReLU$2$といった異なるアクティベーション機能を利用したLCMの徹底的な実験を行う。
論文 参考訳(メタデータ) (2024-02-06T08:45:51Z) - Parametric Leaky Tanh: A New Hybrid Activation Function for Deep
Learning [0.0]
活性化機能(AF)はディープニューラルネットワーク(DNN)の重要な構成要素である
本稿では,Tanh と Leaky ReLU の双方の活性化関数の強みを組み合わせたハイブリッド活性化関数を提案する。
PLanh はすべての点で微分可能であり、負の入力に対する非ゼロ勾配を保証することで 'dying ReLU' 問題に対処する。
論文 参考訳(メタデータ) (2023-08-11T08:59:27Z) - Neural Estimation of Submodular Functions with Applications to
Differentiable Subset Selection [50.14730810124592]
サブモジュール関数と変種は、多様性とカバレッジを特徴付ける能力を通じて、データ選択と要約のための重要なツールとして登場した。
本稿では,モノトーンおよび非モノトーン部分モジュラー関数のためのフレキシブルニューラルネットワークであるFLEXSUBNETを提案する。
論文 参考訳(メタデータ) (2022-10-20T06:00:45Z) - Nish: A Novel Negative Stimulated Hybrid Activation Function [5.482532589225552]
負刺激ハイブリッド活性化関数(Nish)と呼ばれる新しい非単調活性化関数を提案する。
これは、0より大きい値に対するRectified Linear Unit (ReLU)関数や、0より小さい値に対する正弦-正弦波関数のように振る舞う。
提案関数はシグモイド波と正弦波を包含し、従来のReLU活性化に対する新しいダイナミクスを可能にする。
論文 参考訳(メタデータ) (2022-10-17T13:32:52Z) - Transformers with Learnable Activation Functions [63.98696070245065]
我々は、Rational Activation Function (RAF) を用いて、入力データに基づいてトレーニング中の最適なアクティベーション関数を学習する。
RAFは、学習されたアクティベーション関数に従って事前学習されたモデルを分析し、解釈するための新しい研究方向を開く。
論文 参考訳(メタデータ) (2022-08-30T09:47:31Z) - Graph-adaptive Rectified Linear Unit for Graph Neural Networks [64.92221119723048]
グラフニューラルネットワーク(GNN)は、従来の畳み込みを非ユークリッドデータでの学習に拡張することで、目覚ましい成功を収めた。
本稿では,周辺情報を利用した新しいパラメトリックアクティベーション機能であるグラフ適応整流線形ユニット(GRELU)を提案する。
我々は,GNNのバックボーンと様々な下流タスクによって,プラグアンドプレイGRELU法が効率的かつ効果的であることを示す包括的実験を行った。
論文 参考訳(メタデータ) (2022-02-13T10:54:59Z) - Biologically Inspired Oscillating Activation Functions Can Bridge the
Performance Gap between Biological and Artificial Neurons [2.362412515574206]
本稿では,ヒト錐体ニューロンにインスパイアされた4つの新しい振動活性化関数を提案する。
振動活性化関数は、一般的なアクティベーション関数とは異なり、全ての入力に対して非飽和である。
一般的なモノトニックや非モノトニックなシングルゼロアクティベーション関数の代わりに発振活性化関数を使用すると、ニューラルネットワークはより速くトレーニングし、少ない層で分類問題を解くことができる。
論文 参考訳(メタデータ) (2021-11-07T07:31:58Z) - Growing Cosine Unit: A Novel Oscillatory Activation Function That Can
Speedup Training and Reduce Parameters in Convolutional Neural Networks [0.1529342790344802]
畳み込みニューラルネットワークは多くの社会的に重要で経済的に重要な問題を解くことに成功した。
ディープネットワークのトレーニングを可能にする重要な発見は、Rectified Linear Unit (ReLU) アクティベーション機能の採用であった。
新しい活性化関数 C(z) = z cos z は様々なアーキテクチャ上で Sigmoids, Swish, Mish, ReLU より優れる。
論文 参考訳(メタデータ) (2021-08-30T01:07:05Z) - On Function Approximation in Reinforcement Learning: Optimism in the
Face of Large State Spaces [208.67848059021915]
強化学習のコアにおける探索・探索トレードオフについて検討する。
特に、関数クラス $mathcalF$ の複雑さが関数の複雑さを特徴づけていることを証明する。
私たちの後悔の限界はエピソードの数とは無関係です。
論文 参考訳(メタデータ) (2020-11-09T18:32:22Z) - Gaussian Error Linear Units (GELUs) [58.195342948092964]
本稿では,入力の重み付けを行うニューラルネットワークアクティベーション関数を提案する。
コンピュータビジョン、自然言語処理、音声タスクのすべてにおいて、パフォーマンスが改善されている。
論文 参考訳(メタデータ) (2016-06-27T19:20:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。