論文の概要: Stable and Robust Deep Learning By Hyperbolic Tangent Exponential Linear
Unit (TeLU)
- arxiv url: http://arxiv.org/abs/2402.02790v1
- Date: Mon, 5 Feb 2024 07:56:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 17:21:35.875892
- Title: Stable and Robust Deep Learning By Hyperbolic Tangent Exponential Linear
Unit (TeLU)
- Title(参考訳): 双曲型タンジェント指数線形ユニット(TeLU)による安定・ロバスト深層学習
- Authors: Alfredo Fernandez and Ankur Mali
- Abstract要約: 本稿では,f(x) = xcdottanh(ex)$と表現された新しいニューラルネットワーク活性化関数を提案する。
TeLUは、ReLU、GELU、Mishといった従来のアクティベーション機能の制限を克服するように設計されている。
我々の理論的解析と実証評価により、TeLUは既存の活性化関数よりも安定性と堅牢性で優れていることが判明した。
- 参考スコア(独自算出の注目度): 2.1485350418225244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce the Hyperbolic Tangent Exponential Linear Unit
(TeLU), a novel neural network activation function, represented as $f(x) =
x{\cdot}tanh(e^x)$. TeLU is designed to overcome the limitations of
conventional activation functions like ReLU, GELU, and Mish by addressing the
vanishing and, to an extent, the exploding gradient problems. Our theoretical
analysis and empirical assessments reveal that TeLU outperforms existing
activation functions in stability and robustness, effectively adjusting
activation outputs' mean towards zero for enhanced training stability and
convergence. Extensive evaluations against popular activation functions (ReLU,
GELU, SiLU, Mish, Logish, Smish) across advanced architectures, including
Resnet-50, demonstrate TeLU's lower variance and superior performance, even
under hyperparameter conditions optimized for other functions. In large-scale
tests with challenging datasets like CIFAR-10, CIFAR-100, and TinyImageNet,
encompassing 860 scenarios, TeLU consistently showcased its effectiveness,
positioning itself as a potential new standard for neural network activation
functions, boosting stability and performance in diverse deep learning
applications.
- Abstract(参考訳): 本稿では,f(x) = x{\cdot}tanh(e^x)$として表現される新しいニューラルネットワーク活性化関数である双曲的接指数線形単位(telu)について述べる。
TeLUは、ReLU、GELU、Mishのような従来のアクティベーション関数の制限を、消滅と爆発的な勾配問題に対処することによって克服するように設計されている。
我々の理論解析と実証評価により、TeLUは既存の活性化関数よりも安定性と堅牢性を向上し、活性化出力の平均をゼロに効果的に調整し、訓練安定性と収束性を高めた。
Resnet-50を含む先進アーキテクチャにおける一般的なアクティベーション関数(ReLU、GELU、SiLU、Mish、Logish、Smish)に対する広範な評価は、他の関数に最適化されたハイパーパラメータ条件下であっても、TeLUの低分散と優れた性能を示している。
CIFAR-10、CIFAR-100、TinyImageNetといった挑戦的なデータセットを使った大規模なテストでは、860のシナリオを網羅し、TeLUはその効果を一貫して示し、ニューラルネットワークアクティベーション機能の潜在的な新しい標準として位置づけ、多様なディープラーニングアプリケーションにおける安定性とパフォーマンスを高めた。
関連論文リスト
- ProSparse: Introducing and Enhancing Intrinsic Activation Sparsity
within Large Language Models [76.81756526165533]
活性化スパーシリティ(Activation sparsity)とは、活性化出力の間に弱い分散要素が存在することを指す。
ほとんどの大きな言語モデル(LLM)は、固有のアクティベーション間隔のないアクティベーション機能を採用している。
本稿では, モデル性能を低下させることなく, LLMを高機能化するために, プロスパース (ProSparse) と呼ばれる効果的なスペーシフィケーション手法を提案する。
論文 参考訳(メタデータ) (2024-02-21T03:58:49Z) - ReLU$^2$ Wins: Discovering Efficient Activation Functions for Sparse
LLMs [91.31204876440765]
本稿では、ニューロンの出力の等級と調整された等級しきい値によってニューロンの活性化を定義する一般的な方法を提案する。
スパース計算における最も効率的なアクティベーション関数を見つけるために,本手法を提案する。
我々は、ReLU、SwiGLU、ReGLU、ReLU$2$といった異なるアクティベーション機能を利用したLCMの徹底的な実験を行う。
論文 参考訳(メタデータ) (2024-02-06T08:45:51Z) - Parametric Leaky Tanh: A New Hybrid Activation Function for Deep
Learning [0.0]
活性化機能(AF)はディープニューラルネットワーク(DNN)の重要な構成要素である
本稿では,Tanh と Leaky ReLU の双方の活性化関数の強みを組み合わせたハイブリッド活性化関数を提案する。
PLanh はすべての点で微分可能であり、負の入力に対する非ゼロ勾配を保証することで 'dying ReLU' 問題に対処する。
論文 参考訳(メタデータ) (2023-08-11T08:59:27Z) - The Implicit Bias of Minima Stability in Multivariate Shallow ReLU
Networks [53.95175206863992]
本研究では,2次損失を持つ1層多変量ReLUネットワークをトレーニングする際に,勾配勾配勾配が収束する解のタイプについて検討する。
我々は、浅いReLUネットワークが普遍近似器であるにもかかわらず、安定した浅層ネットワークは存在しないことを証明した。
論文 参考訳(メタデータ) (2023-06-30T09:17:39Z) - GELU Activation Function in Deep Learning: A Comprehensive Mathematical
Analysis and Performance [2.458437232470188]
GELU活性化関数の可微分性, 有界性, 定常性, 滑らか性について検討した。
GELUは,他のアクティベーション機能と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2023-05-20T03:22:43Z) - TaLU: A Hybrid Activation Function Combining Tanh and Rectified Linear
Unit to Enhance Neural Networks [1.3477333339913569]
TaLUはTanhとReLUを組み合わせた活性化機能である。
MNIST と CIFAR-10 の深層学習モデルについて検討した。
論文 参考訳(メタデータ) (2023-05-08T01:13:59Z) - Transformers with Learnable Activation Functions [63.98696070245065]
我々は、Rational Activation Function (RAF) を用いて、入力データに基づいてトレーニング中の最適なアクティベーション関数を学習する。
RAFは、学習されたアクティベーション関数に従って事前学習されたモデルを分析し、解釈するための新しい研究方向を開く。
論文 参考訳(メタデータ) (2022-08-30T09:47:31Z) - Toward Fast, Flexible, and Robust Low-Light Image Enhancement [87.27326390675155]
我々は、現実の低照度シナリオにおいて、高速でフレキシブルで頑健な鮮明化のための新しい自己校正イルミネーション(SCI)学習フレームワークを開発した。
カスケードパターンの計算負担を考慮すると、各ステージの結果の収束を実現する自己校正モジュールを構築する。
我々は,SCI固有の特性について,操作不感適応性やモデル非関係の一般性を含む包括的探索を行う。
論文 参考訳(メタデータ) (2022-04-21T14:40:32Z) - Adversarially Robust Learning for Security-Constrained Optimal Power
Flow [55.816266355623085]
我々は、N-kセキュリティ制約付き最適電力流(SCOPF)の課題に取り組む。
N-k SCOPFは電力網の運用における中核的な問題である。
N-k SCOPF を極小最適化問題とみなす。
論文 参考訳(メタデータ) (2021-11-12T22:08:10Z) - Growing Cosine Unit: A Novel Oscillatory Activation Function That Can
Speedup Training and Reduce Parameters in Convolutional Neural Networks [0.1529342790344802]
畳み込みニューラルネットワークは多くの社会的に重要で経済的に重要な問題を解くことに成功した。
ディープネットワークのトレーニングを可能にする重要な発見は、Rectified Linear Unit (ReLU) アクティベーション機能の採用であった。
新しい活性化関数 C(z) = z cos z は様々なアーキテクチャ上で Sigmoids, Swish, Mish, ReLU より優れる。
論文 参考訳(メタデータ) (2021-08-30T01:07:05Z) - Soft-Root-Sign Activation Function [21.716884634290516]
SRS(Soft-Root-Sign)は滑らかで、非単調で有界である。
ReLUとは対照的に、SRSは独立したトレーニング可能なパラメータのペアによって出力を適応的に調整することができる。
我々のSRSはReLUや他の最先端の非線形性と一致または超えます。
論文 参考訳(メタデータ) (2020-03-01T18:38:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。