論文の概要: Hybrid activation functions for deep neural networks: S3 and S4 -- a novel approach to gradient flow optimization
- arxiv url: http://arxiv.org/abs/2507.22090v1
- Date: Tue, 29 Jul 2025 09:21:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 16:14:17.762659
- Title: Hybrid activation functions for deep neural networks: S3 and S4 -- a novel approach to gradient flow optimization
- Title(参考訳): ディープニューラルネットワークのためのハイブリッドアクティベーション機能:S3とS4 -- 勾配流最適化の新しいアプローチ
- Authors: Sergii Kavun,
- Abstract要約: S3(Sigmoid-Softsign)とS4(Smoothed S3)の2つの新しいハイブリッドアクティベーション機能を導入する。
S3は負の入力に対するシグモイドと正の入力に対するソフトサインを結合し、S4は急勾配パラメータkによって制御される滑らかな遷移機構を用いる。
S4は9つのベースラインのアクティベーション機能よりも優れた性能を示し、MNISTでは97.4%、アイリス分類では96.4%、ボストン住宅のレグレッションでは18.7 MSEを達成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Activation functions are critical components in deep neural networks, directly influencing gradient flow, training stability, and model performance. Traditional functions like ReLU suffer from dead neuron problems, while sigmoid and tanh exhibit vanishing gradient issues. We introduce two novel hybrid activation functions: S3 (Sigmoid-Softsign) and its improved version S4 (smoothed S3). S3 combines sigmoid for negative inputs with softsign for positive inputs, while S4 employs a smooth transition mechanism controlled by a steepness parameter k. We conducted comprehensive experiments across binary classification, multi-class classification, and regression tasks using three different neural network architectures. S4 demonstrated superior performance compared to nine baseline activation functions, achieving 97.4% accuracy on MNIST, 96.0% on Iris classification, and 18.7 MSE on Boston Housing regression. The function exhibited faster convergence (-19 for ReLU) and maintained stable gradient flow across network depths. Comparative analysis revealed S4's gradient range of [0.24, 0.59] compared to ReLU's 18% dead neurons in deep networks. The S4 activation function addresses key limitations of existing functions through its hybrid design and smooth transition mechanism. The tunable parameter k allows adaptation to different tasks and network depths, making S4 a versatile choice for deep learning applications. These findings suggest that hybrid activation functions represent a promising direction for improving neural network training dynamics.
- Abstract(参考訳): 活性化関数はディープニューラルネットワークにおいて重要なコンポーネントであり、勾配フロー、トレーニング安定性、モデルパフォーマンスに直接影響を与える。
ReLUのような伝統的な機能は死んだ神経細胞の問題に悩まされ、シグモイドとタンは消える勾配の問題を示す。
S3(Sigmoid-Softsign)とS4(Smoothed S3)の2つの新しいハイブリッドアクティベーション機能を導入する。
S3は負の入力に対するシグモイドと正の入力に対するソフトサインを結合し、S4は急勾配パラメータkによって制御される滑らかな遷移機構を用いる。
我々は3つの異なるニューラルネットワークアーキテクチャを用いて、二分分類、多クラス分類、回帰タスクの総合的な実験を行った。
S4は9つのベースラインアクティベーション関数よりも優れた性能を示し、MNISTでは97.4%、アイリス分類では96.0%、ボストン住宅回帰では18.7 MSEを達成した。
この関数はより高速な収束(ReLUの-19)を示し、ネットワーク深度にわたって安定した勾配流を維持した。
S4の勾配範囲は[0.24, 0.59]で、ReLUのデッドニューロンは18%であった。
S4アクティベーション関数は、そのハイブリッド設計と滑らかな遷移機構を通じて、既存の関数の重要な制限に対処する。
チューニング可能なパラメータkは、異なるタスクやネットワーク深さへの適応を可能にするため、S4はディープラーニングアプリケーションのための汎用的な選択である。
これらの結果は、ハイブリッドアクティベーション関数が、ニューラルネットワークのトレーニング力学を改善するための有望な方向を示すことを示唆している。
関連論文リスト
- A Stable Whitening Optimizer for Efficient Neural Network Training [101.89246340672246]
アルゴリズムのシャンプー系をベースとして,3つの重要な問題を同定・緩和し,SPlus法を提案する。
まず,行列逆が長期にわたってキャッシュされる場合,素早いシャンプーは分岐しがちであることがわかった。
第二に、ネットワーク幅をまたいで学習率の伝達を可能にするために、形状認識スケーリングを適用する。
第3に,高い学習率によってパラメータノイズが大きくなり,より高速な学習をブロックする簡単な反復学習方式を提案する。
論文 参考訳(メタデータ) (2025-06-08T18:43:31Z) - Just How Flexible are Neural Networks in Practice? [89.80474583606242]
ニューラルネットワークは、パラメータを持つ少なくとも多くのサンプルを含むトレーニングセットに適合できると広く信じられている。
しかし実際には、勾配や正規化子など、柔軟性を制限したトレーニング手順によるソリューションしか見つからない。
論文 参考訳(メタデータ) (2024-06-17T12:24:45Z) - A Non-monotonic Smooth Activation Function [4.269446061678759]
活性化関数は、ネットワークに非線形性を導入するため、ディープラーニングモデルにおいて不可欠である。
本研究では,非単調かつ滑らかな機能であるSqishと呼ばれる新しいアクティベーション関数を提案する。
分類,物体検出,セグメンテーションタスク,対向ロバストネス実験において,その優位性を示した。
論文 参考訳(メタデータ) (2023-10-16T07:09:47Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Liquid Structural State-Space Models [106.74783377913433]
Liquid-S4はLong-Range Arenaベンチマークで平均87.32%の性能を達成した。
全生音声コマンド認識では、データセットLiquid-S4は96.78%の精度で、S4と比較してパラメータ数が30%減少している。
論文 参考訳(メタデータ) (2022-09-26T18:37:13Z) - Growing Cosine Unit: A Novel Oscillatory Activation Function That Can
Speedup Training and Reduce Parameters in Convolutional Neural Networks [0.1529342790344802]
畳み込みニューラルネットワークは多くの社会的に重要で経済的に重要な問題を解くことに成功した。
ディープネットワークのトレーニングを可能にする重要な発見は、Rectified Linear Unit (ReLU) アクティベーション機能の採用であった。
新しい活性化関数 C(z) = z cos z は様々なアーキテクチャ上で Sigmoids, Swish, Mish, ReLU より優れる。
論文 参考訳(メタデータ) (2021-08-30T01:07:05Z) - Comparisons among different stochastic selection of activation layers
for convolutional neural networks for healthcare [77.99636165307996]
ニューラルネットワークのアンサンブルを用いて生体医用画像の分類を行う。
ReLU, leaky ReLU, Parametric ReLU, ELU, Adaptive Piecewice Linear Unit, S-Shaped ReLU, Swish, Mish, Mexican Linear Unit, Parametric Deformable Linear Unit, Soft Root Sign。
論文 参考訳(メタデータ) (2020-11-24T01:53:39Z) - LiSHT: Non-Parametric Linearly Scaled Hyperbolic Tangent Activation
Function for Neural Networks [14.943863837083496]
我々は,Tanhを線形にスケーリングすることで,ニューラルネットワーク(NN)のための線形スケールハイパーボリックタンジェント(LiSHT)を提案する。
マルチレイヤ・パーセプトロン(MLP)、Residual Network(ResNet)、Long-Short term memory(LSTM)を用いて、データ分類、画像分類、つぶやき分類タスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2019-01-01T02:24:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。