論文の概要: Zorro: A Flexible and Differentiable Parametric Family of Activation Functions That Extends ReLU and GELU
- arxiv url: http://arxiv.org/abs/2409.19239v1
- Date: Sat, 28 Sep 2024 05:04:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 00:18:22.663853
- Title: Zorro: A Flexible and Differentiable Parametric Family of Activation Functions That Extends ReLU and GELU
- Title(参考訳): Zorro: ReLUとGELUを拡張するアクティベーション関数のフレキシブルで微分可能なパラメトリックファミリー
- Authors: Matias Roodschild, Jorge Gotay-Sardiñas, Victor A. Jimenez, Adrian Will,
- Abstract要約: 過去30年間に400以上の関数が提案され、固定パラメータやトレーニング可能なパラメータが提案されているが、広く使われているのはごくわずかである。
本稿では、ReLUとSigmoidを融合した5つの主要な関数からなる連続微分可能で柔軟なファミリーであるZorroと呼ばれる新しいアクティベーション関数のセットを紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Even in recent neural network architectures such as Transformers and Extended LSTM (xLSTM), and traditional ones like Convolutional Neural Networks, Activation Functions are an integral part of nearly all neural networks. They enable more effective training and capture nonlinear data patterns. More than 400 functions have been proposed over the last 30 years, including fixed or trainable parameters, but only a few are widely used. ReLU is one of the most frequently used, with GELU and Swish variants increasingly appearing. However, ReLU presents non-differentiable points and exploding gradient issues, while testing different parameters of GELU and Swish variants produces varying results, needing more parameters to adapt to datasets and architectures. This article introduces a novel set of activation functions called Zorro, a continuously differentiable and flexible family comprising five main functions fusing ReLU and Sigmoid. Zorro functions are smooth and adaptable, and serve as information gates, aligning with ReLU in the 0-1 range, offering an alternative to ReLU without the need for normalization, neuron death, or gradient explosions. Zorro also approximates functions like Swish, GELU, and DGELU, providing parameters to adjust to different datasets and architectures. We tested it on fully connected, convolutional, and transformer architectures to demonstrate its effectiveness.
- Abstract(参考訳): トランスフォーマーや拡張LSTM(xLSTM)といった最近のニューラルネットワークアーキテクチャや、畳み込みニューラルネットワークのような従来のアーキテクチャでさえ、アクティベーション関数は、ほぼすべてのニューラルネットワークの不可欠な部分である。
より効果的なトレーニングを可能にし、非線形データパターンをキャプチャする。
過去30年間に400以上の関数が提案され、固定パラメータやトレーニング可能なパラメータが提案されているが、広く使われているのはごくわずかである。
ReLUは最も頻繁に使われており、GELUとSwishの派生型が増えている。
しかし、ReLUは微分不可能な点と爆発的な勾配問題を示し、GELUとSwish variantの異なるパラメータのテストは、データセットやアーキテクチャに適応するためにより多くのパラメータを必要とする様々な結果を生成する。
本稿では、ReLUとSigmoidを融合した5つの主要な関数からなる連続微分可能で柔軟なファミリーであるZorroと呼ばれる新しいアクティベーション関数のセットを紹介する。
ゾロ関数は滑らかで適応可能であり、情報ゲートとして機能し、0-1の範囲でReLUと整列し、正規化、神経細胞死、勾配爆発を必要とせずにReLUに代わるものを提供する。
Zorroはまた、Swish、GELU、DGELUといった関数を近似し、異なるデータセットやアーキテクチャに合わせてパラメータを提供する。
完全に接続された、畳み込み、そしてトランスフォーマーアーキテクチャでテストし、その効果を実証しました。
関連論文リスト
- Activation function optimization method: Learnable series linear units (LSLUs) [12.089173508371246]
LSLU (Learnable Series Linear Units) と呼ばれる直列学習可能なac-tivation関数を提案する。
この方法は、精度を向上しつつ、ディープラーニングネットワークを単純化する。
CIFAR10, CIFAR100および特定のタスクデータセット(例えばSilkworm)上でのLSLUの性能を評価する。
論文 参考訳(メタデータ) (2024-08-28T11:12:27Z) - A Non-monotonic Smooth Activation Function [4.269446061678759]
活性化関数は、ネットワークに非線形性を導入するため、ディープラーニングモデルにおいて不可欠である。
本研究では,非単調かつ滑らかな機能であるSqishと呼ばれる新しいアクティベーション関数を提案する。
分類,物体検出,セグメンテーションタスク,対向ロバストネス実験において,その優位性を示した。
論文 参考訳(メタデータ) (2023-10-16T07:09:47Z) - Neural Estimation of Submodular Functions with Applications to
Differentiable Subset Selection [50.14730810124592]
サブモジュール関数と変種は、多様性とカバレッジを特徴付ける能力を通じて、データ選択と要約のための重要なツールとして登場した。
本稿では,モノトーンおよび非モノトーン部分モジュラー関数のためのフレキシブルニューラルネットワークであるFLEXSUBNETを提案する。
論文 参考訳(メタデータ) (2022-10-20T06:00:45Z) - Graph-adaptive Rectified Linear Unit for Graph Neural Networks [64.92221119723048]
グラフニューラルネットワーク(GNN)は、従来の畳み込みを非ユークリッドデータでの学習に拡張することで、目覚ましい成功を収めた。
本稿では,周辺情報を利用した新しいパラメトリックアクティベーション機能であるグラフ適応整流線形ユニット(GRELU)を提案する。
我々は,GNNのバックボーンと様々な下流タスクによって,プラグアンドプレイGRELU法が効率的かつ効果的であることを示す包括的実験を行った。
論文 参考訳(メタデータ) (2022-02-13T10:54:59Z) - SAU: Smooth activation function using convolution with approximate
identities [1.5267236995686555]
ReLU や Leaky ReLU のようなよく知られた活性化関数は原点において微分不可能である。
そこで本研究では, 微分不可能なアクティベーション関数を近似IDで結合することで, 新たなスムーズな近似式を提案する。
論文 参考訳(メタデータ) (2021-09-27T17:31:04Z) - Efficient Feature Transformations for Discriminative and Generative
Continual Learning [98.10425163678082]
継続的学習のための簡易タスク特化機能マップ変換戦略を提案する。
これらは新しいタスクを学習するための強力な柔軟性を提供し、ベースアーキテクチャに最小パラメータを追加することで実現される。
本手法の有効性と効率を,判別(cifar-100およびimagenet-1k)および生成的タスクの一連の実験を用いて実証する。
論文 参考訳(メタデータ) (2021-03-25T01:48:14Z) - GhostSR: Learning Ghost Features for Efficient Image Super-Resolution [49.393251361038025]
畳み込みニューラルネットワーク(CNN)に基づく単一の画像スーパーリゾリューション(SISR)システムは、膨大な計算コストを必要としながら派手なパフォーマンスを実現します。
SISRモデルの冗長な特徴(すなわちゴースト特徴)を生成するためにシフト演算を用いることを提案する。
提案モジュールに埋め込まれた非コンパクトかつ軽量なSISRモデルの両方が,ベースラインと同等の性能を発揮することを示す。
論文 参考訳(メタデータ) (2021-01-21T10:09:47Z) - Comparisons among different stochastic selection of activation layers
for convolutional neural networks for healthcare [77.99636165307996]
ニューラルネットワークのアンサンブルを用いて生体医用画像の分類を行う。
ReLU, leaky ReLU, Parametric ReLU, ELU, Adaptive Piecewice Linear Unit, S-Shaped ReLU, Swish, Mish, Mexican Linear Unit, Parametric Deformable Linear Unit, Soft Root Sign。
論文 参考訳(メタデータ) (2020-11-24T01:53:39Z) - Dynamic ReLU [74.973224160508]
本稿では、すべてのインプット要素上のハイパー関数によって生成されるパラメータの動的入力である動的ReLU(DY-ReLU)を提案する。
静的に比較すると、DY-ReLUは余分な計算コストは無視できるが、表現能力ははるかに高い。
単にDY-ReLUをMobileNetV2に使用することで、ImageNet分類のトップ-1の精度は72.0%から76.2%に向上し、追加のFLOPは5%に留まった。
論文 参考訳(メタデータ) (2020-03-22T23:45:35Z) - Soft-Root-Sign Activation Function [21.716884634290516]
SRS(Soft-Root-Sign)は滑らかで、非単調で有界である。
ReLUとは対照的に、SRSは独立したトレーニング可能なパラメータのペアによって出力を適応的に調整することができる。
我々のSRSはReLUや他の最先端の非線形性と一致または超えます。
論文 参考訳(メタデータ) (2020-03-01T18:38:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。