Fugu-MT 論文翻訳(概要): GELU Activation Function in Deep Learning: A Comprehensive Mathematical Analysis and Performance

論文の概要: GELU Activation Function in Deep Learning: A Comprehensive Mathematical Analysis and Performance

arxiv url: http://arxiv.org/abs/2305.12073v2
Date: Tue, 1 Aug 2023 08:47:59 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-02 17:38:50.624053
Title: GELU Activation Function in Deep Learning: A Comprehensive Mathematical Analysis and Performance
Title（参考訳）: 深層学習におけるGELU活性化関数 : 総合的な数学的解析と性能
Authors: Minhyeok Lee
Abstract要約: GELU活性化関数の可微分性, 有界性, 定常性, 滑らか性について検討した。 GELUは,他のアクティベーション機能と比較して優れた性能を示した。
参考スコア（独自算出の注目度）: 2.458437232470188
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Selecting the most suitable activation function is a critical factor in the effectiveness of deep learning models, as it influences their learning capacity, stability, and computational efficiency. In recent years, the Gaussian Error Linear Unit (GELU) activation function has emerged as a dominant method, surpassing traditional functions such as the Rectified Linear Unit (ReLU) in various applications. This study presents a rigorous mathematical investigation of the GELU activation function, exploring its differentiability, boundedness, stationarity, and smoothness properties in detail. Additionally, we conduct an extensive experimental comparison of the GELU function against a broad range of alternative activation functions, utilizing a residual convolutional network trained on the CIFAR-10, CIFAR-100, and STL-10 datasets as the empirical testbed. Our results demonstrate the superior performance of GELU compared to other activation functions, establishing its suitability for a wide range of deep learning applications. This comprehensive study contributes to a more profound understanding of the underlying mathematical properties of GELU and provides valuable insights for practitioners aiming to select activation functions that optimally align with their specific objectives and constraints in deep learning.
Abstract（参考訳）: 最も適切なアクティベーション関数の選択は、学習能力、安定性、計算効率に影響を与えるため、ディープラーニングモデルの有効性において重要な要素である。近年,gaussian error linear unit (gelu) の活性化関数が主流となり,様々な応用においてrelu (recurtified linear unit) のような従来の関数を上回っている。本研究では,ゲルの活性化関数に関する厳密な数学的研究を行い,その微分可能性,有界性,定常性,滑らか性について詳細に検討する。さらに,CIFAR-10,CIFAR-100,STL-10データセットで訓練された残差畳み込みネットワークを実証実験台として,GELU関数の幅広い代替活性化関数との比較を行った。以上の結果から,geluは他のアクティベーション関数と比較して優れた性能を示し,幅広い深層学習アプリケーションに適用できることを示した。この総合的研究は、GELUの数学的性質のより深い理解に寄与し、深層学習における特定の目的や制約に最適なアクティベーション関数の選択を目指す実践者に貴重な洞察を提供する。

関連論文リスト

Sparsing Law: Towards Large Language Models with Greater Activation Sparsity [62.09617609556697]
活性化空間性は、除去できる活性化出力の中に、かなり弱い分散要素が存在することを表す。 PPL-$p%$ sparsity, a accurate and performance-aware activation sparsity metric。我々は、SiLUよりも活性化関数としてReLUが効率的であることを示し、より多くのトレーニングデータを利用してアクティベーション空間を改善することができることを示した。
論文参考訳（メタデータ） (2024-11-04T17:59:04Z)
Active Learning for Derivative-Based Global Sensitivity Analysis with Gaussian Processes [70.66864668709677]
高価なブラックボックス関数のグローバル感度解析におけるアクティブラーニングの問題点を考察する。関数評価は高価であるため,最も価値の高い実験資源の優先順位付けにアクティブラーニングを利用する。本稿では,デリバティブに基づくグローバル感度測定の重要量を直接対象とする,新たな能動的学習獲得関数を提案する。
論文参考訳（メタデータ） (2024-07-13T01:41:12Z)
A Method on Searching Better Activation Functions [15.180864683908878]
深層ニューラルネットワークにおける静的活性化関数を設計するためのエントロピーに基づくアクティベーション関数最適化(EAFO)手法を提案する。我々は、CRRELU(Correction Regularized ReLU)として知られるReLUから新しいアクティベーション関数を導出する。
論文参考訳（メタデータ） (2024-05-19T03:48:05Z)
APALU: A Trainable, Adaptive Activation Function for Deep Learning Networks [0.0]
APALU(Adaptive piecewise approximated activation linear unit)を新たに導入する。実験では、様々なタスクに広く使用されるアクティベーション関数よりも大幅に改善されている。 APALUは、限られたデータセットで手話認識タスクにおいて100%精度を達成する。
論文参考訳（メタデータ） (2024-02-13T06:18:42Z)
ReLU$^2$ Wins: Discovering Efficient Activation Functions for Sparse LLMs [91.31204876440765]
本稿では、ニューロンの出力の等級と調整された等級しきい値によってニューロンの活性化を定義する一般的な方法を提案する。スパース計算における最も効率的なアクティベーション関数を見つけるために,本手法を提案する。我々は、ReLU、SwiGLU、ReGLU、ReLU$2$といった異なるアクティベーション機能を利用したLCMの徹底的な実験を行う。
論文参考訳（メタデータ） (2024-02-06T08:45:51Z)
Learning Objective-Specific Active Learning Strategies with Attentive Neural Processes [72.75421975804132]
学びアクティブラーニング(LAL)は、アクティブラーニング戦略自体を学ぶことを提案し、与えられた設定に適応できるようにする。能動学習問題の対称性と独立性を利用した新しい分類法を提案する。私たちのアプローチは、筋電図から学ぶことに基づいており、モデルに標準ではない目的に適応する能力を与えます。
論文参考訳（メタデータ） (2023-09-11T14:16:37Z)
Stochastic Adaptive Activation Function [1.9199289015460212]
本研究では,単位の位置や入力の文脈に応じて,異なるしきい値と適応的なアクティベーションを促進する,シンプルで効果的なアクティベーション関数を提案する。実験により,我々のアクティベーション関数は,多くのディープラーニングアプリケーションにおいて,より正確な予測と早期収束の利点を享受できることを示した。
論文参考訳（メタデータ） (2022-10-21T01:57:25Z)
Offline Reinforcement Learning with Differentiable Function Approximation is Provably Efficient [65.08966446962845]
歴史的データを用いて意思決定戦略を最適化することを目的としたオフライン強化学習は、現実の応用に広く適用されている。微分関数クラス近似(DFA)を用いたオフライン強化学習の検討から一歩踏み出した。最も重要なことは、悲観的な適合Q-ラーニングアルゴリズムを解析することにより、オフライン微分関数近似が有効であることを示すことである。
論文参考訳（メタデータ） (2022-10-03T07:59:42Z)
Transformers with Learnable Activation Functions [63.98696070245065]
我々は、Rational Activation Function (RAF) を用いて、入力データに基づいてトレーニング中の最適なアクティベーション関数を学習する。 RAFは、学習されたアクティベーション関数に従って事前学習されたモデルを分析し、解釈するための新しい研究方向を開く。
論文参考訳（メタデータ） (2022-08-30T09:47:31Z)
Discovering Parametric Activation Functions [17.369163074697475]
本稿では,アクティベーション機能を自動でカスタマイズする手法を提案する。 CIFAR-10とCIFAR-100の画像分類データセット上の4つの異なるニューラルネットワークアーキテクチャによる実験は、このアプローチが有効であることを示している。
論文参考訳（メタデータ） (2020-06-05T00:25:33Z)
Evolutionary Optimization of Deep Learning Activation Functions [15.628118691027328]
進化的アルゴリズムは、Rectified Linear Unit(ReLU)より優れている新しいアクティベーション関数を発見できることを示す。 ReLUを活性化関数に置き換えると、統計的にネットワークの精度が向上する。これらの新しい活性化関数は、タスク間で高いパフォーマンスを達成するために一般化される。
論文参考訳（メタデータ） (2020-02-17T19:54:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。