論文の概要: Geometric Monomial (GEM): a family of rational 2N-differentiable activation functions
- arxiv url: http://arxiv.org/abs/2604.21677v1
- Date: Thu, 23 Apr 2026 13:42:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.563606
- Title: Geometric Monomial (GEM): a family of rational 2N-differentiable activation functions
- Title(参考訳): Geometric Monomial (GEM) : 2N-differentiable activation functionのファミリー
- Authors: Eylon E. Krause,
- Abstract要約: 本稿では,純粋に合理的な算術演算でReLUのような性能を実現するために,C2N$-smoothアクティベーション関数のファミリーを提案する。
GEM (base family)、E-GEM ($$$Lp$-approximation of ReLU)、SE-GEM ($C2N$ junction smoothness)の3つの変種を紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The choice of activation function plays a crucial role in the optimization and performance of deep neural networks. While the Rectified Linear Unit (ReLU) remains the dominant choice due to its simplicity and effectiveness, its lack of smoothness may hinder gradient-based optimization in deep architectures. In this work we propose a family of $C^{2N}$-smooth activation functions whose gate follows a log-logistic CDF, achieving ReLU-like performance with purely rational arithmetic. We introduce three variants: GEM (the base family), E-GEM (an $ε$-parameterized generalization enabling arbitrary $L^p$-approximation of ReLU), and SE-GEM (a piecewise variant eliminating dead neurons with $C^{2N}$ junction smoothness). An $N$-ablation study establishes $N=1$ as optimal for standard-depth networks, reducing the GELU deficit on CIFAR-100 + ResNet-56 from 6.10% to 2.12%. The smoothness parameter $N$ further reveals a CNN-transformer tradeoff: $N=1$ is preferred for deep CNNs, while $N=2$ is preferred for transformers. On MNIST, E-GEM ties the best baseline (99.23%). On CIFAR-10 + ResNet-56, SE-GEM ($ε=10^{-4}$) surpasses GELU (92.51% vs 92.44%) -- the first GEM-family activation to outperform GELU. On CIFAR-100 + ResNet-56, E-GEM reduces the GELU deficit from 6.10% (GEM $N=2$) to just 0.62%. On GPT-2 (124M), GEM achieves the lowest perplexity (72.57 vs 73.76 for GELU), with GEM $N=1$ also beating GELU (73.32). On BERT-small, E-GEM ($ε=10$) achieves the best validation loss (6.656) across all activations. The $ε$-parameterization reveals a scale-dependent optimum: small $ε$ ($10^{-4}$--$10^{-6}$) for deep CNNs and larger transformers, with the special case of small transformers (BERT-small) benefiting from large $ε$ ($ε=10$) due to its limited depth and unconstrained gradients.
- Abstract(参考訳): 活性化関数の選択は、ディープニューラルネットワークの最適化と性能において重要な役割を果たす。
Rectified Linear Unit (ReLU) は、その単純さと有効性のために依然として主要な選択肢であるが、滑らかさの欠如は、深いアーキテクチャにおける勾配に基づく最適化を妨げる可能性がある。
本研究は,論理学的なCDFに従うゲートを持つ$C^{2N}$-smoothアクティベーション関数のファミリーを提案し,純粋に有理算術でReLUのような性能を実現する。
GEM(ベースファミリー)、E-GEM(任意の$L^p$-近似を可能にする$ε$-parameterized generalization)、SE-GEM($C^{2N}$ junction smoothness)の3つの変種を紹介する。
N$-ablationの研究では、標準深度ネットワークの最適値として$N=1$を確立し、CIFAR-100 + ResNet-56のGELUの赤字を6.10%から2.12%に減らした。
滑らかなパラメータである$N$はさらにCNN変換器のトレードオフを明らかにしている:$N=1$は深いCNNで好まれるが、$N=2$は変換器で好まれる。
MNISTでは、E-GEMが最高のベースライン(99.23%)を結び付けている。
CIFAR-10+ResNet-56では、SE-GEM(ε=10^{-4}$)がGELU(92.51%対92.44%)を上回る。
CIFAR-100 + ResNet-56では、E-GEMはGELUの赤字を6.10%(GEM $N=2$)からわずか0.62%に減らす。
GPT-2 (124M) では、GELU (72.57 vs 73.76) に対して GEM $N=1$ はGELU (73.32) を上回っている。
BERT-smallでは、E-GEM(ε=10$)はすべてのアクティベーションで最高のバリデーション損失(6.656)を達成する。
small $ε$$10^{-4}$-$10^{-6}$) for deep CNNs and larger transformer, with the special case of small transformer (BERT-small) benefit with large $ε$$$ε=10$) due by its limited depth and unconstrained gradients。
関連論文リスト
- dynActivation: A Trainable Activation Family for Adaptive Nonlinearity [0.0]
dynActivationの変種は、高いパフォーマンスを維持しながらディープレイヤを線形化する傾向がある。
新しく提案されたdynActGLU-variantは5620ステップ (4.047 vs. 4.514) でSwiGLUの相対パープレキシティを10.3%削減するが、ギャップは34300ステップで消滅する。
論文 参考訳(メタデータ) (2026-03-23T16:18:28Z) - Evolution Strategies at the Hyperscale [57.75314521465674]
本稿では,大集団にバックプロップフリーな最適化を拡大するための進化戦略(ES)アルゴリズムEGGROLLを紹介する。
ESは、微分不可能またはノイズの多い目的を処理できる強力なブラックボックス最適化手法のセットである。
EGGROLLはランダム行列を$Ain mathbbRmtimes r, Bin mathbbRntimes r$ with $rll min(m,n)$ とすることでこれらのボトルネックを克服し、低ランク行列摂動を$A Btop$とする。
論文 参考訳(メタデータ) (2025-11-20T18:56:05Z) - Global Convergence of Gradient EM for Over-Parameterized Gaussian Mixtures [53.51230405648361]
勾配EMの力学を考察し, テンソル分解を用いて幾何的景観を特徴付ける。
これは、m=2$という特別な場合を超えるEMや勾配EMに対する最初の大域収束と回復の結果である。
論文 参考訳(メタデータ) (2025-06-06T23:32:38Z) - FedSVD: Adaptive Orthogonalization for Private Federated Learning with LoRA [68.44043212834204]
Low-Rank Adaptation (LoRA) は、学習における言語モデルの効率的な微調整に広く用いられている。
Low-Rank Adaptation (LoRA) は、学習における言語モデルの効率的な微調整に広く用いられている。
論文 参考訳(メタデータ) (2025-05-19T07:32:56Z) - Approximation Rates for Shallow ReLU$^k$ Neural Networks on Sobolev Spaces via the Radon Transform [12.171849953316192]
我々は,ReLU$k$アクティベーション関数がソボレフ空間からの関数をいかに効率的に近似できるかという問題を考察する。
例えば、$qleq p$, $pgeq 2$, $s leq k + (d+1)/2$ などである。
論文 参考訳(メタデータ) (2024-08-20T16:43:45Z) - Generalization and Stability of Interpolating Neural Networks with
Minimal Width [37.908159361149835]
補間系における勾配によって訓練された浅層ニューラルネットワークの一般化と最適化について検討する。
トレーニング損失数は$m=Omega(log4 (n))$ニューロンとニューロンを最小化する。
m=Omega(log4 (n))$のニューロンと$Tapprox n$で、テスト損失のトレーニングを$tildeO (1/)$に制限します。
論文 参考訳(メタデータ) (2023-02-18T05:06:15Z) - Bounding the Width of Neural Networks via Coupled Initialization -- A
Worst Case Analysis [121.9821494461427]
2層ReLUネットワークに必要なニューロン数を著しく削減する方法を示す。
また、事前の作業を改善するための新しい下位境界を証明し、ある仮定の下では、最善を尽くすことができることを証明します。
論文 参考訳(メタデータ) (2022-06-26T06:51:31Z) - Fine-Grained Gap-Dependent Bounds for Tabular MDPs via Adaptive
Multi-Step Bootstrap [84.66885506098724]
本稿では,アダプティブ・マルチステップ・ブートストラップ (AMB) を用いた表層有限水平マルコフ決定過程 (MDP) のモデルフリーアルゴリズムを提案する。
AMBは,部分最適ギャップの逆の和でのみスケールする,ギャップ依存的後悔境界を達成できることを示す。
また、AMB は $frac|Z_mul|Delta_min$ regret という追加の $frac|Z_mul|Delta_min$ を被っていることも示しています。
論文 参考訳(メタデータ) (2021-02-09T07:46:34Z) - Least $k$th-Order and R\'{e}nyi Generative Adversarial Networks [12.13405065406781]
実験結果から,MNISTデータセットとCelebAデータセットに適用した損失関数は,それぞれ$k$と$alpha$のパラメータによって提供される余分な自由度により,性能上のメリットが期待できることがわかった。
本研究は GAN に適用されているが,提案手法は汎用的であり,情報理論の他の応用例,例えば人工知能における公正性やプライバシの問題などに応用することができる。
論文 参考訳(メタデータ) (2020-06-03T18:44:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。