論文の概要: Saturated Non-Monotonic Activation Functions
- arxiv url: http://arxiv.org/abs/2305.07537v2
- Date: Thu, 25 May 2023 06:41:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 19:58:28.712481
- Title: Saturated Non-Monotonic Activation Functions
- Title(参考訳): 飽和非単調活性化関数
- Authors: Junjia Chen and Zhibin Pan
- Abstract要約: SGELU, SSiLU, SMishはGELU, SiLU, Mishの負の部分とReLUの正の部分から構成される。
CIFAR-100における画像分類実験の結果,提案するアクティベーション関数は,複数のディープラーニングアーキテクチャにおいて,高い有効性と,最先端のベースラインよりも優れていたことが示唆された。
- 参考スコア(独自算出の注目度): 21.16866749728754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Activation functions are essential to deep learning networks. Popular and
versatile activation functions are mostly monotonic functions, some
non-monotonic activation functions are being explored and show promising
performance. But by introducing non-monotonicity, they also alter the positive
input, which is proved to be unnecessary by the success of ReLU and its
variants. In this paper, we double down on the non-monotonic activation
functions' development and propose the Saturated Gaussian Error Linear Units by
combining the characteristics of ReLU and non-monotonic activation functions.
We present three new activation functions built with our proposed method:
SGELU, SSiLU, and SMish, which are composed of the negative portion of GELU,
SiLU, and Mish, respectively, and ReLU's positive portion. The results of image
classification experiments on CIFAR-100 indicate that our proposed activation
functions are highly effective and outperform state-of-the-art baselines across
multiple deep learning architectures.
- Abstract(参考訳): アクティベーション機能はディープラーニングネットワークに不可欠である。
一般的な多用途アクティベーション関数はほとんど単調関数であり、いくつかの非単調アクティベーション関数は探索され、有望な性能を示す。
しかし、非単調性を導入することで正の入力も変化し、これはReLUとその変種の成功によって不要であることが証明される。
本稿では,非単調活性化関数の展開を2倍にし,reluと非単調活性化関数の特性を組み合わせることにより,飽和ガウス誤差線形単位を提案する。
提案手法では,ゲル,シル,ミッシュの負の部分からなるsgelu,ssilu,smishの3つの新しい活性化関数とreluの陽性部分を提案する。
CIFAR-100における画像分類実験の結果,提案するアクティベーション関数は,複数のディープラーニングアーキテクチャにおいて,高い効率で,最先端のベースラインよりも優れていた。
関連論文リスト
- ProSparse: Introducing and Enhancing Intrinsic Activation Sparsity
within Large Language Models [76.81756526165533]
活性化スパーシリティ(Activation sparsity)とは、活性化出力の間に弱い分散要素が存在することを指す。
ほとんどの大きな言語モデル(LLM)は、固有のアクティベーション間隔のないアクティベーション機能を採用している。
本稿では, モデル性能を低下させることなく, LLMを高機能化するために, プロスパース (ProSparse) と呼ばれる効果的なスペーシフィケーション手法を提案する。
論文 参考訳(メタデータ) (2024-02-21T03:58:49Z) - ReLU$^2$ Wins: Discovering Efficient Activation Functions for Sparse
LLMs [91.31204876440765]
本稿では、ニューロンの出力の等級と調整された等級しきい値によってニューロンの活性化を定義する一般的な方法を提案する。
スパース計算における最も効率的なアクティベーション関数を見つけるために,本手法を提案する。
我々は、ReLU、SwiGLU、ReGLU、ReLU$2$といった異なるアクティベーション機能を利用したLCMの徹底的な実験を行う。
論文 参考訳(メタデータ) (2024-02-06T08:45:51Z) - Parametric Leaky Tanh: A New Hybrid Activation Function for Deep
Learning [0.0]
活性化機能(AF)はディープニューラルネットワーク(DNN)の重要な構成要素である
本稿では,Tanh と Leaky ReLU の双方の活性化関数の強みを組み合わせたハイブリッド活性化関数を提案する。
PLanh はすべての点で微分可能であり、負の入力に対する非ゼロ勾配を保証することで 'dying ReLU' 問題に対処する。
論文 参考訳(メタデータ) (2023-08-11T08:59:27Z) - Sparse Modular Activation for Efficient Sequence Modeling [94.11125833685583]
線形状態空間モデルと自己アテンション機構を組み合わせた最近のモデルでは、様々なシーケンスモデリングタスクにおいて顕著な結果が示されている。
現在のアプローチでは、アテンションモジュールを静的かつ均一に入力シーケンスのすべての要素に適用し、最適以下の品質効率のトレードオフをもたらす。
SMA(Sparse Modular Activation)は,ニューラルネットワークが配列要素のサブモジュールを異なる方法でスパースに活性化する機構である。
論文 参考訳(メタデータ) (2023-06-19T23:10:02Z) - Empirical study of the modulus as activation function in computer vision
applications [1.5099465160569119]
コンピュータビジョンタスクにおいて提案した関数を用いることで、他の非線形性よりもモデルがより一般化できることが示される。
提案する関数とそのデリバティブの単純さは、TinyMLおよびハードウェアアプリケーションに特に適している。
論文 参考訳(メタデータ) (2023-01-15T00:32:03Z) - Neural Estimation of Submodular Functions with Applications to
Differentiable Subset Selection [50.14730810124592]
サブモジュール関数と変種は、多様性とカバレッジを特徴付ける能力を通じて、データ選択と要約のための重要なツールとして登場した。
本稿では,モノトーンおよび非モノトーン部分モジュラー関数のためのフレキシブルニューラルネットワークであるFLEXSUBNETを提案する。
論文 参考訳(メタデータ) (2022-10-20T06:00:45Z) - Nish: A Novel Negative Stimulated Hybrid Activation Function [5.482532589225552]
負刺激ハイブリッド活性化関数(Nish)と呼ばれる新しい非単調活性化関数を提案する。
これは、0より大きい値に対するRectified Linear Unit (ReLU)関数や、0より小さい値に対する正弦-正弦波関数のように振る舞う。
提案関数はシグモイド波と正弦波を包含し、従来のReLU活性化に対する新しいダイナミクスを可能にする。
論文 参考訳(メタデータ) (2022-10-17T13:32:52Z) - Transformers with Learnable Activation Functions [63.98696070245065]
我々は、Rational Activation Function (RAF) を用いて、入力データに基づいてトレーニング中の最適なアクティベーション関数を学習する。
RAFは、学習されたアクティベーション関数に従って事前学習されたモデルを分析し、解釈するための新しい研究方向を開く。
論文 参考訳(メタデータ) (2022-08-30T09:47:31Z) - Activation Functions: Dive into an optimal activation function [1.52292571922932]
既存のアクティベーション関数の重み付け和として定義することで、最適なアクティベーション関数を求める。
この研究は、ReLU、tanh、 sinという3つのアクティベーション関数を3つの人気のある画像データセットに使用しています。
論文 参考訳(メタデータ) (2022-02-24T12:44:11Z) - Growing Cosine Unit: A Novel Oscillatory Activation Function That Can
Speedup Training and Reduce Parameters in Convolutional Neural Networks [0.1529342790344802]
畳み込みニューラルネットワークは多くの社会的に重要で経済的に重要な問題を解くことに成功した。
ディープネットワークのトレーニングを可能にする重要な発見は、Rectified Linear Unit (ReLU) アクティベーション機能の採用であった。
新しい活性化関数 C(z) = z cos z は様々なアーキテクチャ上で Sigmoids, Swish, Mish, ReLU より優れる。
論文 参考訳(メタデータ) (2021-08-30T01:07:05Z) - Invariant Feature Coding using Tensor Product Representation [75.62232699377877]
我々は,群不変特徴ベクトルが線形分類器を学習する際に十分な識別情報を含んでいることを証明した。
主成分分析やk平均クラスタリングにおいて,グループアクションを明示的に考慮する新たな特徴モデルを提案する。
論文 参考訳(メタデータ) (2019-06-05T07:15:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。