Fugu-MT 論文翻訳(概要): Stable and Robust Deep Learning By Hyperbolic Tangent Exponential Linear Unit (TeLU)

論文の概要: Stable and Robust Deep Learning By Hyperbolic Tangent Exponential Linear Unit (TeLU)

arxiv url: http://arxiv.org/abs/2402.02790v1
Date: Mon, 5 Feb 2024 07:56:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-06 17:21:35.875892
Title: Stable and Robust Deep Learning By Hyperbolic Tangent Exponential Linear Unit (TeLU)
Title（参考訳）: 双曲型タンジェント指数線形ユニット(TeLU)による安定・ロバスト深層学習
Authors: Alfredo Fernandez and Ankur Mali
Abstract要約: 本稿では,f(x) = xcdottanh(ex)$と表現された新しいニューラルネットワーク活性化関数を提案する。 TeLUは、ReLU、GELU、Mishといった従来のアクティベーション機能の制限を克服するように設計されている。我々の理論的解析と実証評価により、TeLUは既存の活性化関数よりも安定性と堅牢性で優れていることが判明した。
参考スコア（独自算出の注目度）: 2.1485350418225244
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we introduce the Hyperbolic Tangent Exponential Linear Unit (TeLU), a novel neural network activation function, represented as $f(x) = x{\cdot}tanh(e^x)$. TeLU is designed to overcome the limitations of conventional activation functions like ReLU, GELU, and Mish by addressing the vanishing and, to an extent, the exploding gradient problems. Our theoretical analysis and empirical assessments reveal that TeLU outperforms existing activation functions in stability and robustness, effectively adjusting activation outputs' mean towards zero for enhanced training stability and convergence. Extensive evaluations against popular activation functions (ReLU, GELU, SiLU, Mish, Logish, Smish) across advanced architectures, including Resnet-50, demonstrate TeLU's lower variance and superior performance, even under hyperparameter conditions optimized for other functions. In large-scale tests with challenging datasets like CIFAR-10, CIFAR-100, and TinyImageNet, encompassing 860 scenarios, TeLU consistently showcased its effectiveness, positioning itself as a potential new standard for neural network activation functions, boosting stability and performance in diverse deep learning applications.
Abstract（参考訳）: 本稿では,f(x) = x{\cdot}tanh(e^x)$として表現される新しいニューラルネットワーク活性化関数である双曲的接指数線形単位(telu)について述べる。 TeLUは、ReLU、GELU、Mishのような従来のアクティベーション関数の制限を、消滅と爆発的な勾配問題に対処することによって克服するように設計されている。我々の理論解析と実証評価により、TeLUは既存の活性化関数よりも安定性と堅牢性を向上し、活性化出力の平均をゼロに効果的に調整し、訓練安定性と収束性を高めた。 Resnet-50を含む先進アーキテクチャにおける一般的なアクティベーション関数(ReLU、GELU、SiLU、Mish、Logish、Smish)に対する広範な評価は、他の関数に最適化されたハイパーパラメータ条件下であっても、TeLUの低分散と優れた性能を示している。 CIFAR-10、CIFAR-100、TinyImageNetといった挑戦的なデータセットを使った大規模なテストでは、860のシナリオを網羅し、TeLUはその効果を一貫して示し、ニューラルネットワークアクティベーション機能の潜在的な新しい標準として位置づけ、多様なディープラーニングアプリケーションにおける安定性とパフォーマンスを高めた。

関連論文リスト

Gompertz Linear Units: Leveraging Asymmetry for Enhanced Learning Dynamics [39.0860823332923]
GoLU は $mathrmGoLU(x) = x, MathrmGompertz(x)$, wheremathrmGompertz(x) = e-e-x$ と定義される新しい自己ゲート活性化関数である。 GoLUの最先端のアクティベーション関数に対する優れたパフォーマンスは、既存のアクティベーション関数に対する堅牢な代替として、GoLUを強調している。
論文参考訳（メタデータ） (2025-02-05T22:32:22Z)
TeLU Activation Function for Fast and Stable Deep Learning [1.9116784879310025]
双曲型Tangent Exponential Linear Unit(TeLU)は、TeLU(x)=xtanh(exp(x))として定義されるニューラルネットワーク隠れ活性化関数である。 TeLUの設計はキーアクティベーション関数の中核原理に基づいており、強い収束を達成する。我々の結果は、TeLUが活性化関数の新しい標準を設定する可能性を強調し、ディープニューラルネットワークにおけるより効率的で安定した学習を促進する。
論文参考訳（メタデータ） (2024-12-28T20:50:08Z)
Hysteresis Activation Function for Efficient Inference [3.5223695602582614]
本稿では,Hysteresis Rectified Linear Unit (HLU) を提案する。トレーニングと推論のための固定しきい値を持つ従来のアクティベーション関数とは異なり、HLUはバックプロパゲーションを洗練させる可変しきい値を使用する。
論文参考訳（メタデータ） (2024-11-15T20:46:58Z)
Activation function optimization method: Learnable series linear units (LSLUs) [12.089173508371246]
LSLU (Learnable Series Linear Units) と呼ばれる直列学習可能なac-tivation関数を提案する。この方法は、精度を向上しつつ、ディープラーニングネットワークを単純化する。 CIFAR10, CIFAR100および特定のタスクデータセット(例えばSilkworm)上でのLSLUの性能を評価する。
論文参考訳（メタデータ） (2024-08-28T11:12:27Z)
Model Surgery: Modulating LLM's Behavior Via Simple Parameter Editing [63.20133320524577]
パラメータの小さなサブセットを編集することで、大きな言語モデル(LLM)の特定の振る舞いを効果的に調節できることを示す。我々の手法は、RealToxicityPromptsデータセットで最大90.0%の毒性を減少させ、ToxiGenで49.2%を達成する。
論文参考訳（メタデータ） (2024-07-11T17:52:03Z)
Stabilizing Extreme Q-learning by Maclaurin Expansion [51.041889588036895]
XQL(Extreme Q-learning)は、ベルマン誤差がガムベル分布に従うという仮定に基づいて損失関数を用いる。オフラインとオンラインの強化学習環境では、強力なパフォーマンスを示している。安定度を高めるため,Maclaurin Expanded Extreme Q-learningを提案する。
論文参考訳（メタデータ） (2024-06-07T12:43:17Z)
A Method on Searching Better Activation Functions [15.180864683908878]
深層ニューラルネットワークにおける静的活性化関数を設計するためのエントロピーに基づくアクティベーション関数最適化(EAFO)手法を提案する。我々は、CRRELU(Correction Regularized ReLU)として知られるReLUから新しいアクティベーション関数を導出する。
論文参考訳（メタデータ） (2024-05-19T03:48:05Z)
ReLU$^2$ Wins: Discovering Efficient Activation Functions for Sparse LLMs [91.31204876440765]
本稿では、ニューロンの出力の等級と調整された等級しきい値によってニューロンの活性化を定義する一般的な方法を提案する。スパース計算における最も効率的なアクティベーション関数を見つけるために,本手法を提案する。我々は、ReLU、SwiGLU、ReGLU、ReLU$2$といった異なるアクティベーション機能を利用したLCMの徹底的な実験を行う。
論文参考訳（メタデータ） (2024-02-06T08:45:51Z)
The Implicit Bias of Minima Stability in Multivariate Shallow ReLU Networks [53.95175206863992]
本研究では,2次損失を持つ1層多変量ReLUネットワークをトレーニングする際に,勾配勾配勾配が収束する解のタイプについて検討する。我々は、浅いReLUネットワークが普遍近似器であるにもかかわらず、安定した浅層ネットワークは存在しないことを証明した。
論文参考訳（メタデータ） (2023-06-30T09:17:39Z)
TaLU: A Hybrid Activation Function Combining Tanh and Rectified Linear Unit to Enhance Neural Networks [1.3477333339913569]
TaLUはTanhとReLUを組み合わせた活性化機能である。 MNIST と CIFAR-10 の深層学習モデルについて検討した。
論文参考訳（メタデータ） (2023-05-08T01:13:59Z)
Transformers with Learnable Activation Functions [63.98696070245065]
我々は、Rational Activation Function (RAF) を用いて、入力データに基づいてトレーニング中の最適なアクティベーション関数を学習する。 RAFは、学習されたアクティベーション関数に従って事前学習されたモデルを分析し、解釈するための新しい研究方向を開く。
論文参考訳（メタデータ） (2022-08-30T09:47:31Z)
Toward Fast, Flexible, and Robust Low-Light Image Enhancement [87.27326390675155]
我々は、現実の低照度シナリオにおいて、高速でフレキシブルで頑健な鮮明化のための新しい自己校正イルミネーション(SCI)学習フレームワークを開発した。カスケードパターンの計算負担を考慮すると、各ステージの結果の収束を実現する自己校正モジュールを構築する。我々は,SCI固有の特性について,操作不感適応性やモデル非関係の一般性を含む包括的探索を行う。
論文参考訳（メタデータ） (2022-04-21T14:40:32Z)
Adversarially Robust Learning for Security-Constrained Optimal Power Flow [55.816266355623085]
我々は、N-kセキュリティ制約付き最適電力流(SCOPF)の課題に取り組む。 N-k SCOPFは電力網の運用における中核的な問題である。 N-k SCOPF を極小最適化問題とみなす。
論文参考訳（メタデータ） (2021-11-12T22:08:10Z)
Soft-Root-Sign Activation Function [21.716884634290516]
SRS(Soft-Root-Sign)は滑らかで、非単調で有界である。 ReLUとは対照的に、SRSは独立したトレーニング可能なパラメータのペアによって出力を適応的に調整することができる。我々のSRSはReLUや他の最先端の非線形性と一致または超えます。
論文参考訳（メタデータ） (2020-03-01T18:38:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。