論文の概要: IGLU: The Integrated Gaussian Linear Unit Activation Function
- arxiv url: http://arxiv.org/abs/2603.06861v1
- Date: Fri, 06 Mar 2026 20:28:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:13.211965
- Title: IGLU: The Integrated Gaussian Linear Unit Activation Function
- Title(参考訳): IGLU: ガウス線形単位活性化関数
- Authors: Mingi Kang, Zai Yang, Jeova Farias Sales Rocha Neto,
- Abstract要約: 半正規混合分布の下でGELUゲートのスケール混合として導出されるパラメトリック活性化関数IGLUを導入する。
IGLUは、ReLUとGELUのベースラインに対して、視覚と言語データセットの両方において、競争力または優れた性能を達成することを示す。
- 参考スコア(独自算出の注目度): 13.305282275999778
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Activation functions are fundamental to deep neural networks, governing gradient flow, optimization stability, and representational capacity. Within historic deep architectures, while ReLU has been the dominant choice for the activation function, modern transformer-based models increasingly are adopting smoother alternatives such as GELU and other self-gated alternatives. Despite their empirical success, the mathematical relationships among these functions and the principles underlying their effectiveness remains only partially understood. We introduce IGLU, a parametric activation function derived as a scale mixture of GELU gates under a half-normal mixing distribution. This derivation yields a closed-form expression whose gating component is exactly the Cauchy CDF, providing a principled one-parameter family that continuously interpolates between identity-like and ReLU-like behavior via a single sharpness parameter $σ$. Unlike GELU's Gaussian gate, IGLU's heavy-tailed Cauchy gate decays polynomially in the negative tail, guaranteeing non-zero gradients for all finite inputs and offering greater robustness to vanishing gradients. We further introduce IGLU-Approx, a computationally efficient rational approximation of IGLU expressed entirely in terms of ReLU operations that eliminates transcendental function evaluation. Through evaluations on CIFAR-10, CIFAR-100, and WikiText-103 across ResNet-20, ViT-Tiny, and GPT-2 Small, IGLU achieves competitive or superior performance on both vision and language datasets against ReLU and GELU baselines, with IGLU-Approx recovering this performance at substantially reduced computational cost. In particular, we show that employing a heavy-tailed gate leads to considerable performance gains in heavily imbalanced classification datasets.
- Abstract(参考訳): 活性化関数はディープニューラルネットワークの基本であり、勾配流の制御、最適化安定性、表現能力である。
歴史的に深いアーキテクチャの中では、ReLUがアクティベーション機能の主要な選択肢であるのに対して、現代のトランスフォーマーベースのモデルはGELUなどのよりスムーズな代替品を採用する傾向にある。
彼らの経験的成功にもかかわらず、これらの機能間の数学的関係とそれらの効果の根底にある原理は、まだ部分的にしか理解されていない。
半正規混合分布の下でGELUゲートのスケール混合として導出されるパラメトリック活性化関数IGLUを導入する。
この導出により、ゲーティング成分がちょうどコーシー CDF である閉形式式が得られ、単一のシャープネスパラメータ$σ$ を通じて恒常的に恒常的に恒常的なIDとReLUのような振舞いを補間する一パラメータ族が提供される。
GELUのガウス門とは異なり、IGLUの重い尾を持つコーシー門は負の尾で多項式的に崩壊し、全ての有限入力に対してゼロでない勾配を保証し、消滅する勾配に対してより堅牢性を与える。
さらに、超越関数評価をなくすReLU演算で完全に表現されたIGLUの計算効率の良い有理近似であるIGLU-Approxを導入する。
CIFAR-10, CIFAR-100, WikiText-103をResNet-20, ViT-Tiny, GPT-2で評価することで、IGLUは、ReLUとGELUのベースラインに対するビジョンデータセットと言語データセットの競合や優れたパフォーマンスを実現し、IGLU-Approxはこの性能を計算コストを大幅に削減した。
特に、重み付きゲートを用いることで、重みの不均衡な分類データセットにおいて、かなりの性能向上がもたらされることを示す。
関連論文リスト
- Unbiased Gradient Estimation for Event Binning via Functional Backpropagation [64.88399635309918]
バックプロパゲーション中に弱微分を合成することにより任意の双対関数の非バイアス勾配推定のための新しいフレームワークを提案する。
自己監督型光流ではECEが9.4%,SLAMでは5.1%低下し,事象に基づく視覚知覚において大きなメリットが示された。
論文 参考訳(メタデータ) (2026-02-13T04:05:03Z) - Gompertz Linear Units: Leveraging Asymmetry for Enhanced Learning Dynamics [39.0860823332923]
GoLU は $mathrmGoLU(x) = x, MathrmGompertz(x)$, where $mathrmGompertz(x) = e-e-x$ と定義される新しい自己ゲート活性化関数である。
GoLUは最先端のアクティベーション関数よりも優れており、既存のアクティベーション関数の強力な代替品として確立されている。
論文 参考訳(メタデータ) (2025-02-05T22:32:22Z) - Deriving Activation Functions Using Integration [8.345753173238956]
本稿では、訓練可能なアフィン変換を統合することで導かれる、訓練可能な部分的活性化関数である指数線形ユニットの拡張積分(xIELU)を紹介する。
xIELUは、(1)正の入力に対してトレーニング可能で線形に増大する勾配(reLU$2$)と(2)拡張SiLU(xSiLU)にインスパイアされた負の入力に対して負の値を取ることができる訓練可能勾配(reLU$2$)の2つの重要な性質を組み合わせる。
FineWeb Eduの125Bトークンでトレーニングされた1.1Bおよび3BパラメータLlamaモデルによる実験では、xIELUはより低い値を達成する。
論文 参考訳(メタデータ) (2024-11-20T03:24:21Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Graph-adaptive Rectified Linear Unit for Graph Neural Networks [64.92221119723048]
グラフニューラルネットワーク(GNN)は、従来の畳み込みを非ユークリッドデータでの学習に拡張することで、目覚ましい成功を収めた。
本稿では,周辺情報を利用した新しいパラメトリックアクティベーション機能であるグラフ適応整流線形ユニット(GRELU)を提案する。
我々は,GNNのバックボーンと様々な下流タスクによって,プラグアンドプレイGRELU法が効率的かつ効果的であることを示す包括的実験を行った。
論文 参考訳(メタデータ) (2022-02-13T10:54:59Z) - A Unified Off-Policy Evaluation Approach for General Value Function [131.45028999325797]
一般価値関数(GVF)は、強化学習(RL)における予測的知識と振り返り的知識の両方を表現する強力なツールである。
本稿では,GVF評価のためのGenTDと呼ばれる新しいアルゴリズムを提案する。
我々は、GenTDが単一の標準スカラー値関数と同じくらい効率的に複数の相互関連多次元GVFを学習することを示す。
論文 参考訳(メタデータ) (2021-07-06T16:20:34Z) - Approximation Schemes for ReLU Regression [80.33702497406632]
我々はReLU回帰の根本的な問題を考察する。
目的は、未知の分布から引き出された2乗損失に対して、最も適したReLUを出力することである。
論文 参考訳(メタデータ) (2020-05-26T16:26:17Z) - Gaussian Error Linear Units (GELUs) [58.195342948092964]
本稿では,入力の重み付けを行うニューラルネットワークアクティベーション関数を提案する。
コンピュータビジョン、自然言語処理、音声タスクのすべてにおいて、パフォーマンスが改善されている。
論文 参考訳(メタデータ) (2016-06-27T19:20:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。