論文の概要: TeLU Activation Function for Fast and Stable Deep Learning
- arxiv url: http://arxiv.org/abs/2412.20269v1
- Date: Sat, 28 Dec 2024 20:50:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:05:30.382725
- Title: TeLU Activation Function for Fast and Stable Deep Learning
- Title(参考訳): 高速かつ安定な深層学習のためのTeLU活性化関数
- Authors: Alfredo Fernandez, Ankur Mali,
- Abstract要約: 双曲型Tangent Exponential Linear Unit(TeLU)は、TeLU(x)=xtanh(exp(x))として定義されるニューラルネットワーク隠れ活性化関数である。
TeLUの設計はキーアクティベーション関数の中核原理に基づいており、強い収束を達成する。
我々の結果は、TeLUが活性化関数の新しい標準を設定する可能性を強調し、ディープニューラルネットワークにおけるより効率的で安定した学習を促進する。
- 参考スコア(独自算出の注目度): 1.9116784879310025
- License:
- Abstract: We propose the Hyperbolic Tangent Exponential Linear Unit (TeLU), a neural network hidden activation function defined as TeLU(x)=xtanh(exp(x)). TeLU's design is grounded in the core principles of key activation functions, achieving strong convergence by closely approximating the identity function in its active region while effectively mitigating the vanishing gradient problem in its saturating region. Its simple formulation enhances computational efficiency, leading to improvements in scalability and convergence speed. Unlike many modern activation functions, TeLU seamlessly combines the simplicity and effectiveness of ReLU with the smoothness and analytic properties essential for learning stability in deep neural networks. TeLU's ability to mimic the behavior and optimal hyperparameter settings of ReLU, while introducing the benefits of smoothness and curvature, makes it an ideal drop-in replacement. Its analytic nature positions TeLU as a powerful universal approximator, enhancing both robustness and generalization across a multitude of experiments. We rigorously validate these claims through theoretical analysis and experimental validation, demonstrating TeLU's performance across challenging benchmarks; including ResNet18 on ImageNet, Dynamic-Pooling Transformers on Text8, and Recurrent Neural Networks (RNNs) on the Penn TreeBank dataset. These results highlight TeLU's potential to set a new standard in activation functions, driving more efficient and stable learning in deep neural networks, thereby accelerating scientific discoveries across various fields.
- Abstract(参考訳): 本稿では,TeLU(x)=xtanh(exp(x))と定義されるニューラルネットワーク隠れ活性化関数TeLUを提案する。
TeLUの設計は鍵活性化関数の中核原理に基づいており、その活性領域における恒等関数を密接に近似し、飽和領域における消滅する勾配問題を効果的に緩和することにより、強い収束を達成する。
その単純な定式化により計算効率が向上し、スケーラビリティと収束速度が向上する。
多くの現代のアクティベーション関数とは異なり、TeLUはReLUの単純さと有効性と、深層ニューラルネットワークの安定性を学ぶのに不可欠な滑らかさと解析的性質をシームレスに組み合わせている。
TeLUがReLUの挙動と最適パラメータ設定を模倣する能力は、滑らかさと曲率の利点を導入しながら、理想的なドロップイン代替となる。
その解析的性質は、TeLUを強力な普遍近似器として位置づけ、多数の実験においてロバスト性と一般化の両方を高める。
我々はこれらの主張を理論的分析と実験的検証を通じて厳格に検証し、ImageNetのResNet18、Text8のDynamic-Pooling Transformers、Penn TreeBankデータセットのRecurrent Neural Networks(RNN)など、挑戦的なベンチマークでTeLUのパフォーマンスを実証した。
これらの結果は、TeLUが活性化関数の新しい標準を設定する可能性を強調し、ディープニューラルネットワークにおけるより効率的で安定した学習を推進し、様々な分野における科学的発見を加速させる。
関連論文リスト
- Gompertz Linear Units: Leveraging Asymmetry for Enhanced Learning Dynamics [39.0860823332923]
GoLU は $mathrmGoLU(x) = x, MathrmGompertz(x)$, wheremathrmGompertz(x) = e-e-x$ と定義される新しい自己ゲート活性化関数である。
GoLUの最先端のアクティベーション関数に対する優れたパフォーマンスは、既存のアクティベーション関数に対する堅牢な代替として、GoLUを強調している。
論文 参考訳(メタデータ) (2025-02-05T22:32:22Z) - Activation function optimization method: Learnable series linear units (LSLUs) [12.089173508371246]
LSLU (Learnable Series Linear Units) と呼ばれる直列学習可能なac-tivation関数を提案する。
この方法は、精度を向上しつつ、ディープラーニングネットワークを単純化する。
CIFAR10, CIFAR100および特定のタスクデータセット(例えばSilkworm)上でのLSLUの性能を評価する。
論文 参考訳(メタデータ) (2024-08-28T11:12:27Z) - Stable and Robust Deep Learning By Hyperbolic Tangent Exponential Linear
Unit (TeLU) [2.1485350418225244]
本稿では,f(x) = xcdottanh(ex)$と表現された新しいニューラルネットワーク活性化関数を提案する。
TeLUは、ReLU、GELU、Mishといった従来のアクティベーション機能の制限を克服するように設計されている。
我々の理論的解析と実証評価により、TeLUは既存の活性化関数よりも安定性と堅牢性で優れていることが判明した。
論文 参考訳(メタデータ) (2024-02-05T07:56:02Z) - Fixing the NTK: From Neural Network Linearizations to Exact Convex
Programs [63.768739279562105]
学習目標に依存しない特定のマスクウェイトを選択する場合、このカーネルはトレーニングデータ上のゲートReLUネットワークのNTKと等価であることを示す。
この目標への依存の欠如の結果として、NTKはトレーニングセット上の最適MKLカーネルよりもパフォーマンスが良くない。
論文 参考訳(メタデータ) (2023-09-26T17:42:52Z) - Parametric Leaky Tanh: A New Hybrid Activation Function for Deep
Learning [0.0]
活性化機能(AF)はディープニューラルネットワーク(DNN)の重要な構成要素である
本稿では,Tanh と Leaky ReLU の双方の活性化関数の強みを組み合わせたハイブリッド活性化関数を提案する。
PLanh はすべての点で微分可能であり、負の入力に対する非ゼロ勾配を保証することで 'dying ReLU' 問題に対処する。
論文 参考訳(メタデータ) (2023-08-11T08:59:27Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - TaLU: A Hybrid Activation Function Combining Tanh and Rectified Linear
Unit to Enhance Neural Networks [1.3477333339913569]
TaLUはTanhとReLUを組み合わせた活性化機能である。
MNIST と CIFAR-10 の深層学習モデルについて検討した。
論文 参考訳(メタデータ) (2023-05-08T01:13:59Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - NeuralStagger: Accelerating Physics-constrained Neural PDE Solver with
Spatial-temporal Decomposition [67.46012350241969]
本稿では,NeuralStaggerと呼ばれる一般化手法を提案する。
元の学習タスクをいくつかの粗い解像度のサブタスクに分解する。
本稿では,2次元および3次元流体力学シミュレーションにおけるNeuralStaggerの適用例を示す。
論文 参考訳(メタデータ) (2023-02-20T19:36:52Z) - Comparisons among different stochastic selection of activation layers
for convolutional neural networks for healthcare [77.99636165307996]
ニューラルネットワークのアンサンブルを用いて生体医用画像の分類を行う。
ReLU, leaky ReLU, Parametric ReLU, ELU, Adaptive Piecewice Linear Unit, S-Shaped ReLU, Swish, Mish, Mexican Linear Unit, Parametric Deformable Linear Unit, Soft Root Sign。
論文 参考訳(メタデータ) (2020-11-24T01:53:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。