論文の概要: Gompertz Linear Units: Leveraging Asymmetry for Enhanced Learning Dynamics
- arxiv url: http://arxiv.org/abs/2502.03654v1
- Date: Wed, 05 Feb 2025 22:32:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 14:34:29.855058
- Title: Gompertz Linear Units: Leveraging Asymmetry for Enhanced Learning Dynamics
- Title(参考訳): Gompertzリニアユニット:強化学習ダイナミクスのための非対称性の活用
- Authors: Indrashis Das, Mahmoud Safari, Steven Adriaensen, Frank Hutter,
- Abstract要約: GoLU は $mathrmGoLU(x) = x, MathrmGompertz(x)$, wheremathrmGompertz(x) = e-e-x$ と定義される新しい自己ゲート活性化関数である。
GoLUの最先端のアクティベーション関数に対する優れたパフォーマンスは、既存のアクティベーション関数に対する堅牢な代替として、GoLUを強調している。
- 参考スコア(独自算出の注目度): 39.0860823332923
- License:
- Abstract: Activation functions are fundamental elements of deep learning architectures as they significantly influence training dynamics. ReLU, while widely used, is prone to the dying neuron problem, which has been mitigated by variants such as LeakyReLU, PReLU, and ELU that better handle negative neuron outputs. Recently, self-gated activations like GELU and Swish have emerged as state-of-the-art alternatives, leveraging their smoothness to ensure stable gradient flow and prevent neuron inactivity. In this work, we introduce the Gompertz Linear Unit (GoLU), a novel self-gated activation function defined as $\mathrm{GoLU}(x) = x \, \mathrm{Gompertz}(x)$, where $\mathrm{Gompertz}(x) = e^{-e^{-x}}$. The GoLU activation leverages the asymmetry in the Gompertz function to reduce variance in the latent space more effectively compared to GELU and Swish, while preserving robust gradient flow. Extensive experiments across diverse tasks, including Image Classification, Language Modeling, Semantic Segmentation, Object Detection, Instance Segmentation, and Diffusion, highlight GoLU's superior performance relative to state-of-the-art activation functions, establishing GoLU as a robust alternative to existing activation functions.
- Abstract(参考訳): 活性化関数は、訓練力学に大きな影響を及ぼすため、ディープラーニングアーキテクチャの基本要素である。
ReLUは広く使われているが、死にゆくニューロンの問題は、LeakyReLU、PRELU、ELUなどの負のニューロン出力をよりよく扱う変異によって緩和されている。
近年、GELUやSwishのような自閉活性化が最先端の代替手段として登場し、その滑らかさを活用して安定した勾配流を確保し、ニューロンの不活性を防ぐ。
本稿では, Gompertz Linear Unit (GoLU) を導入し, $\mathrm{GoLU}(x) = x \, \mathrm{Gompertz}(x)$, $\mathrm{Gompertz}(x) = e^{-e^{-x}}$と定義する。
GoLU の活性化は、ゴアンペルツ関数の非対称性を利用して、頑健な勾配流を保ちながら、GELU や Swish よりも効率的に潜伏空間の分散を減少させる。
画像分類、言語モデリング、セマンティックセグメンテーション、オブジェクト検出、インスタンスセグメンテーション、ディフュージョンなど、さまざまなタスクにわたる広範な実験は、GoLUの最先端のアクティベーション機能に対する優れたパフォーマンスを強調し、GoLUを既存のアクティベーション機能に代わる堅牢な代替品として確立している。
関連論文リスト
- Activation function optimization method: Learnable series linear units (LSLUs) [12.089173508371246]
LSLU (Learnable Series Linear Units) と呼ばれる直列学習可能なac-tivation関数を提案する。
この方法は、精度を向上しつつ、ディープラーニングネットワークを単純化する。
CIFAR10, CIFAR100および特定のタスクデータセット(例えばSilkworm)上でのLSLUの性能を評価する。
論文 参考訳(メタデータ) (2024-08-28T11:12:27Z) - Expanded Gating Ranges Improve Activation Functions [0.0]
拡張ArcTanリニアユニット(xATLU)、拡張GELU(xGELU)、拡張SiLU(xSiLU)は、トランスアーキテクチャ内の既存のアクティベーション関数より優れていることがわかった。
また、拡張ゲーティング範囲は1次ゲーティング線形ユニット(GLU)の改善に有望な結果を示すことも示している。
論文 参考訳(メタデータ) (2024-05-25T09:12:17Z) - ReLU$^2$ Wins: Discovering Efficient Activation Functions for Sparse
LLMs [91.31204876440765]
本稿では、ニューロンの出力の等級と調整された等級しきい値によってニューロンの活性化を定義する一般的な方法を提案する。
スパース計算における最も効率的なアクティベーション関数を見つけるために,本手法を提案する。
我々は、ReLU、SwiGLU、ReGLU、ReLU$2$といった異なるアクティベーション機能を利用したLCMの徹底的な実験を行う。
論文 参考訳(メタデータ) (2024-02-06T08:45:51Z) - Saturated Non-Monotonic Activation Functions [21.16866749728754]
SGELU, SSiLU, SMishはGELU, SiLU, Mishの負の部分とReLUの正の部分から構成される。
CIFAR-100における画像分類実験の結果,提案するアクティベーション関数は,複数のディープラーニングアーキテクチャにおいて,高い有効性と,最先端のベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-05-12T15:01:06Z) - TaLU: A Hybrid Activation Function Combining Tanh and Rectified Linear
Unit to Enhance Neural Networks [1.3477333339913569]
TaLUはTanhとReLUを組み合わせた活性化機能である。
MNIST と CIFAR-10 の深層学習モデルについて検討した。
論文 参考訳(メタデータ) (2023-05-08T01:13:59Z) - Neural Estimation of Submodular Functions with Applications to
Differentiable Subset Selection [50.14730810124592]
サブモジュール関数と変種は、多様性とカバレッジを特徴付ける能力を通じて、データ選択と要約のための重要なツールとして登場した。
本稿では,モノトーンおよび非モノトーン部分モジュラー関数のためのフレキシブルニューラルネットワークであるFLEXSUBNETを提案する。
論文 参考訳(メタデータ) (2022-10-20T06:00:45Z) - Graph-adaptive Rectified Linear Unit for Graph Neural Networks [64.92221119723048]
グラフニューラルネットワーク(GNN)は、従来の畳み込みを非ユークリッドデータでの学習に拡張することで、目覚ましい成功を収めた。
本稿では,周辺情報を利用した新しいパラメトリックアクティベーション機能であるグラフ適応整流線形ユニット(GRELU)を提案する。
我々は,GNNのバックボーンと様々な下流タスクによって,プラグアンドプレイGRELU法が効率的かつ効果的であることを示す包括的実験を行った。
論文 参考訳(メタデータ) (2022-02-13T10:54:59Z) - Growing Cosine Unit: A Novel Oscillatory Activation Function That Can
Speedup Training and Reduce Parameters in Convolutional Neural Networks [0.1529342790344802]
畳み込みニューラルネットワークは多くの社会的に重要で経済的に重要な問題を解くことに成功した。
ディープネットワークのトレーニングを可能にする重要な発見は、Rectified Linear Unit (ReLU) アクティベーション機能の採用であった。
新しい活性化関数 C(z) = z cos z は様々なアーキテクチャ上で Sigmoids, Swish, Mish, ReLU より優れる。
論文 参考訳(メタデータ) (2021-08-30T01:07:05Z) - Comparisons among different stochastic selection of activation layers
for convolutional neural networks for healthcare [77.99636165307996]
ニューラルネットワークのアンサンブルを用いて生体医用画像の分類を行う。
ReLU, leaky ReLU, Parametric ReLU, ELU, Adaptive Piecewice Linear Unit, S-Shaped ReLU, Swish, Mish, Mexican Linear Unit, Parametric Deformable Linear Unit, Soft Root Sign。
論文 参考訳(メタデータ) (2020-11-24T01:53:39Z) - Gaussian Error Linear Units (GELUs) [58.195342948092964]
本稿では,入力の重み付けを行うニューラルネットワークアクティベーション関数を提案する。
コンピュータビジョン、自然言語処理、音声タスクのすべてにおいて、パフォーマンスが改善されている。
論文 参考訳(メタデータ) (2016-06-27T19:20:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。