論文の概要: SwishReLU: A Unified Approach to Activation Functions for Enhanced Deep Neural Networks Performance
- arxiv url: http://arxiv.org/abs/2407.08232v1
- Date: Thu, 11 Jul 2024 07:14:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 18:39:04.602973
- Title: SwishReLU: A Unified Approach to Activation Functions for Enhanced Deep Neural Networks Performance
- Title(参考訳): SwishReLU: 深層ニューラルネットワーク性能向上のためのアクティベーション関数の統一的アプローチ
- Authors: Jamshaid Ul Rahman, Rubiqa Zulfiqar, Asad Khan, Nimra,
- Abstract要約: ディープニューラルネットワークでよく使われるアクティベーション関数であるReLUは、"Dying ReLU"の問題に傾向がある。
ELU、SeLU、Swishなどいくつかの改良版が導入されており、一般的には使われていないと考えられている。
本稿では,ReLUとSwishの要素を組み合わせた新しいアクティベーション機能であるSwishReLUを提案する。
- 参考スコア(独自算出の注目度): 1.2724528787590168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: ReLU, a commonly used activation function in deep neural networks, is prone to the issue of "Dying ReLU". Several enhanced versions, such as ELU, SeLU, and Swish, have been introduced and are considered to be less commonly utilized. However, replacing ReLU can be somewhat challenging due to its inconsistent advantages. While Swish offers a smoother transition similar to ReLU, its utilization generally incurs a greater computational burden compared to ReLU. This paper proposes SwishReLU, a novel activation function combining elements of ReLU and Swish. Our findings reveal that SwishReLU outperforms ReLU in performance with a lower computational cost than Swish. This paper undertakes an examination and comparison of different types of ReLU variants with SwishReLU. Specifically, we compare ELU and SeLU along with Tanh on three datasets: CIFAR-10, CIFAR-100 and MNIST. Notably, applying SwishReLU in the VGG16 model described in Algorithm 2 yields a 6% accuracy improvement on the CIFAR-10 dataset.
- Abstract(参考訳): ディープニューラルネットワークでよく使われるアクティベーション関数であるReLUは、"Dying ReLU"の問題に傾向がある。
ELU、SeLU、Swishなどいくつかの改良版が導入されており、一般的には使われていないと考えられている。
しかし、ReLUの置き換えは、一貫性のない利点のため、やや難しい場合がある。
SwishはReLUと同様のスムーズな遷移を提供するが、その利用は一般にReLUよりも計算負担が大きい。
本稿では,ReLUとSwishの要素を組み合わせた新しいアクティベーション機能であるSwishReLUを提案する。
以上の結果から,SwishReLUはSwishよりも計算コストの低いReLUよりも優れた性能を示した。
本稿では,様々な種類のReLU変種とSwishReLUの比較を行った。
具体的には,CIFAR-10,CIFAR-100,MNISTの3つのデータセットについて,ELUとSeLUを比較した。
特に、アルゴリズム2で記述されたVGG16モデルにSwishReLUを適用すると、CIFAR-10データセットの精度が6%向上する。
関連論文リスト
- LoRA Done RITE: Robust Invariant Transformation Equilibration for LoRA Optimization [78.93425154518705]
低ランク適応 (LoRA) は、メモリ要求を低減し、LLMのパラメータ効率の高い微調整法である。
本稿では,LoRA最適化のための適応行列プレコンディショニング手法であるLoRA-RITEを紹介する。
論文 参考訳(メタデータ) (2024-10-27T22:57:12Z) - ReLU$^2$ Wins: Discovering Efficient Activation Functions for Sparse
LLMs [91.31204876440765]
本稿では、ニューロンの出力の等級と調整された等級しきい値によってニューロンの活性化を定義する一般的な方法を提案する。
スパース計算における最も効率的なアクティベーション関数を見つけるために,本手法を提案する。
我々は、ReLU、SwiGLU、ReGLU、ReLU$2$といった異なるアクティベーション機能を利用したLCMの徹底的な実験を行う。
論文 参考訳(メタデータ) (2024-02-06T08:45:51Z) - TaLU: A Hybrid Activation Function Combining Tanh and Rectified Linear
Unit to Enhance Neural Networks [1.3477333339913569]
TaLUはTanhとReLUを組み合わせた活性化機能である。
MNIST と CIFAR-10 の深層学習モデルについて検討した。
論文 参考訳(メタデータ) (2023-05-08T01:13:59Z) - A Study on ReLU and Softmax in Transformer [51.0740713922741]
Transformerアーキテクチャは、キーバリューメモリと見なせる自己アテンションとフィードフォワードネットワーク(FFN)で構成されている。
まず、FFNとキー値メモリの接続をReLUとSoftmaxの広範な研究により再構築する。
さらに、ReLUは値スロット数が大きければFFNとキー値メモリの両方でSoftmaxより優れている。
論文 参考訳(メタデータ) (2023-02-13T15:41:20Z) - Rotate the ReLU to implicitly sparsify deep networks [13.203765985718201]
本稿では,ReLUアクティベーションを回転させてアーキテクチャにさらなる自由度を与える,という新しいアイデアを提案する。
トレーニングによって回転が学習されるこのアクティベーションは、タスクに重要でないネットワーク内のこれらのパラメータ/フィルタの除去をもたらすことを示す。
論文 参考訳(メタデータ) (2022-06-01T13:38:45Z) - SAU: Smooth activation function using convolution with approximate
identities [1.5267236995686555]
ReLU や Leaky ReLU のようなよく知られた活性化関数は原点において微分不可能である。
そこで本研究では, 微分不可能なアクティベーション関数を近似IDで結合することで, 新たなスムーズな近似式を提案する。
論文 参考訳(メタデータ) (2021-09-27T17:31:04Z) - Reducing ReLU Count for Privacy-Preserving CNN Speedup [25.86435513157795]
プライバシ保存機械学習アルゴリズムは、分類精度とデータのプライバシのバランスをとる必要がある。
CNNは通常、畳み込み層または線形層と、ReLUのような非線形関数からなる。
最近の研究は、ReLUが通信帯域の大部分を担っていることを示唆している。
具体的には、あるアクティベーションのReLU決定を他の人が利用できるようにし、そのようなアクティベーションのグループに対してReLUを決定する様々な方法を模索する。
論文 参考訳(メタデータ) (2021-01-28T06:49:31Z) - ALReLU: A different approach on Leaky ReLU activation function to
improve Neural Networks Performance [0.0]
古典的ReLUアクティベーション関数(AF)はディープニューラルネットワーク(DNN)に広く応用されている
ReLUの一般的な勾配問題は、アカデミーや産業分野での応用に課題をもたらす。
LReLUの変種であるAbsolute Leaky ReLU (ALReLU) AFは、一般的な「ダイングReLU問題」を解決する代替手法として提案されている。
論文 参考訳(メタデータ) (2020-12-11T06:46:42Z) - Comparisons among different stochastic selection of activation layers
for convolutional neural networks for healthcare [77.99636165307996]
ニューラルネットワークのアンサンブルを用いて生体医用画像の分類を行う。
ReLU, leaky ReLU, Parametric ReLU, ELU, Adaptive Piecewice Linear Unit, S-Shaped ReLU, Swish, Mish, Mexican Linear Unit, Parametric Deformable Linear Unit, Soft Root Sign。
論文 参考訳(メタデータ) (2020-11-24T01:53:39Z) - Efficient Integer-Arithmetic-Only Convolutional Neural Networks [87.01739569518513]
我々は従来のReLUを境界ReLUに置き換え、その減少は活性化量子化によるものであることを示す。
我々の整数ネットワークは、対応するFPNネットワークと同等の性能を発揮するが、メモリコストは1/4に過ぎず、最新のGPUでは2倍高速である。
論文 参考訳(メタデータ) (2020-06-21T08:23:03Z) - Dynamic ReLU [74.973224160508]
本稿では、すべてのインプット要素上のハイパー関数によって生成されるパラメータの動的入力である動的ReLU(DY-ReLU)を提案する。
静的に比較すると、DY-ReLUは余分な計算コストは無視できるが、表現能力ははるかに高い。
単にDY-ReLUをMobileNetV2に使用することで、ImageNet分類のトップ-1の精度は72.0%から76.2%に向上し、追加のFLOPは5%に留まった。
論文 参考訳(メタデータ) (2020-03-22T23:45:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。