論文の概要: Deeper Learning with CoLU Activation
- arxiv url: http://arxiv.org/abs/2112.12078v1
- Date: Sat, 18 Dec 2021 21:11:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-24 02:51:14.946188
- Title: Deeper Learning with CoLU Activation
- Title(参考訳): CoLU Activationによるより深い学習
- Authors: Advait Vagerwal
- Abstract要約: CoLUは、プロパティにおいてSwishやMishに似たアクティベーション機能である。
CoLUは通常、より深いニューラルネットワーク上の他の機能よりも優れていることが観察されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In neural networks, non-linearity is introduced by activation functions. One
commonly used activation function is Rectified Linear Unit (ReLU). ReLU has
been a popular choice as an activation but has flaws. State-of-the-art
functions like Swish and Mish are now gaining attention as a better choice as
they combat many flaws presented by other activation functions. CoLU is an
activation function similar to Swish and Mish in properties. It is defined as
f(x)=x/(1-xe^-(x+e^x)). It is smooth, continuously differentiable, unbounded
above, bounded below, non-saturating, and non-monotonic. Based on experiments
done with CoLU with different activation functions, it is observed that CoLU
usually performs better than other functions on deeper neural networks. While
training different neural networks on MNIST on an incrementally increasing
number of convolutional layers, CoLU retained the highest accuracy for more
layers. On a smaller network with 8 convolutional layers, CoLU had the highest
mean accuracy, closely followed by ReLU. On VGG-13 trained on Fashion-MNIST,
CoLU had a 4.20% higher accuracy than Mish and 3.31% higher accuracy than ReLU.
On ResNet-9 trained on Cifar-10, CoLU had 0.05% higher accuracy than Swish,
0.09% higher accuracy than Mish, and 0.29% higher accuracy than ReLU. It is
observed that activation functions may behave better than other activation
functions based on different factors including the number of layers, types of
layers, number of parameters, learning rate, optimizer, etc. Further research
can be done on these factors and activation functions for more optimal
activation functions and more knowledge on their behavior.
- Abstract(参考訳): ニューラルネットワークでは、非線型性はアクティベーション関数によって導入される。
一般的に用いられるアクティベーション機能はRectified Linear Unit (ReLU)である。
ReLUはアクティベーションとして人気があるが、欠点がある。
swishやmishといった最先端の関数は、他のアクティベーション関数によって提示される多くの欠陥と戦うため、よりよい選択肢として注目を集めています。
CoLUは、プロパティにおいてSwishやMishに似たアクティベーション機能である。
f(x)=x/(1-xe^-(x+e^x) と定義される。
滑らかで連続的に微分可能で、上述の非有界、下界、非飽和、非単調である。
異なるアクティベーション関数を持つcoluの実験に基づいて、coluはより深いニューラルネットワークの他の機能よりもパフォーマンスが良いことが観察された。
MNIST上で異なるニューラルネットワークをトレーニングする一方で、CoLUはより多くのレイヤに対して高い精度を維持した。
8層の畳み込み層を持つ小さなネットワークでは、CoLUが平均精度が最も高く、ReLUがそれに近かった。
Fashion-MNISTで訓練されたVGG-13では、CoLUはMishより4.20%、ReLUより3.31%高い精度であった。
Cifar-10で訓練されたResNet-9では、CoLUはSwishより0.05%高い精度、Mishより0.09%高い精度、ReLUより0.29%高い精度であった。
活性化関数は、層数、層の種類、パラメータの数、学習率、オプティマイザなど、さまざまな要因に基づいて、他の活性化関数よりも振舞うことが観察された。
これらの因子と活性化関数についてさらなる研究が行われ、より最適な活性化機能とそれらの行動に関するさらなる知識が得られた。
関連論文リスト
- Sparsing Law: Towards Large Language Models with Greater Activation Sparsity [62.09617609556697]
活性化空間性は、除去できる活性化出力の中に、かなり弱い分散要素が存在することを表す。
PPL-$p%$ sparsity, a accurate and performance-aware activation sparsity metric。
我々は、SiLUよりも活性化関数としてReLUが効率的であることを示し、より多くのトレーニングデータを利用してアクティベーション空間を改善することができることを示した。
論文 参考訳(メタデータ) (2024-11-04T17:59:04Z) - Activation function optimization method: Learnable series linear units (LSLUs) [12.089173508371246]
LSLU (Learnable Series Linear Units) と呼ばれる直列学習可能なac-tivation関数を提案する。
この方法は、精度を向上しつつ、ディープラーニングネットワークを単純化する。
CIFAR10, CIFAR100および特定のタスクデータセット(例えばSilkworm)上でのLSLUの性能を評価する。
論文 参考訳(メタデータ) (2024-08-28T11:12:27Z) - ReLU$^2$ Wins: Discovering Efficient Activation Functions for Sparse
LLMs [91.31204876440765]
本稿では、ニューロンの出力の等級と調整された等級しきい値によってニューロンの活性化を定義する一般的な方法を提案する。
スパース計算における最も効率的なアクティベーション関数を見つけるために,本手法を提案する。
我々は、ReLU、SwiGLU、ReGLU、ReLU$2$といった異なるアクティベーション機能を利用したLCMの徹底的な実験を行う。
論文 参考訳(メタデータ) (2024-02-06T08:45:51Z) - TaLU: A Hybrid Activation Function Combining Tanh and Rectified Linear
Unit to Enhance Neural Networks [1.3477333339913569]
TaLUはTanhとReLUを組み合わせた活性化機能である。
MNIST と CIFAR-10 の深層学習モデルについて検討した。
論文 参考訳(メタデータ) (2023-05-08T01:13:59Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Activation Functions: Dive into an optimal activation function [1.52292571922932]
既存のアクティベーション関数の重み付け和として定義することで、最適なアクティベーション関数を求める。
この研究は、ReLU、tanh、 sinという3つのアクティベーション関数を3つの人気のある画像データセットに使用しています。
論文 参考訳(メタデータ) (2022-02-24T12:44:11Z) - Growing Cosine Unit: A Novel Oscillatory Activation Function That Can
Speedup Training and Reduce Parameters in Convolutional Neural Networks [0.1529342790344802]
畳み込みニューラルネットワークは多くの社会的に重要で経済的に重要な問題を解くことに成功した。
ディープネットワークのトレーニングを可能にする重要な発見は、Rectified Linear Unit (ReLU) アクティベーション機能の採用であった。
新しい活性化関数 C(z) = z cos z は様々なアーキテクチャ上で Sigmoids, Swish, Mish, ReLU より優れる。
論文 参考訳(メタデータ) (2021-08-30T01:07:05Z) - Piecewise Linear Units Improve Deep Neural Networks [0.0]
活性化機能は、ディープニューラルネットワークの非線形性の中心にある。
現在、多くの実践者は、その単純さと信頼性から、Rectified Linear Unit (ReLU) を好んでいる。
本稿では,ニューラルネットワークの各次元に対して独立に学習可能な適応的ピースワイド線形活性化関数Piecewise Linear Unit(PiLU)を提案する。
論文 参考訳(メタデータ) (2021-08-02T08:09:38Z) - Comparisons among different stochastic selection of activation layers
for convolutional neural networks for healthcare [77.99636165307996]
ニューラルネットワークのアンサンブルを用いて生体医用画像の分類を行う。
ReLU, leaky ReLU, Parametric ReLU, ELU, Adaptive Piecewice Linear Unit, S-Shaped ReLU, Swish, Mish, Mexican Linear Unit, Parametric Deformable Linear Unit, Soft Root Sign。
論文 参考訳(メタデータ) (2020-11-24T01:53:39Z) - Dynamic ReLU [74.973224160508]
本稿では、すべてのインプット要素上のハイパー関数によって生成されるパラメータの動的入力である動的ReLU(DY-ReLU)を提案する。
静的に比較すると、DY-ReLUは余分な計算コストは無視できるが、表現能力ははるかに高い。
単にDY-ReLUをMobileNetV2に使用することで、ImageNet分類のトップ-1の精度は72.0%から76.2%に向上し、追加のFLOPは5%に留まった。
論文 参考訳(メタデータ) (2020-03-22T23:45:35Z) - Gaussian Error Linear Units (GELUs) [58.195342948092964]
本稿では,入力の重み付けを行うニューラルネットワークアクティベーション関数を提案する。
コンピュータビジョン、自然言語処理、音声タスクのすべてにおいて、パフォーマンスが改善されている。
論文 参考訳(メタデータ) (2016-06-27T19:20:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。