論文の概要: Soft-Root-Sign Activation Function
- arxiv url: http://arxiv.org/abs/2003.00547v1
- Date: Sun, 1 Mar 2020 18:38:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 13:14:09.000417
- Title: Soft-Root-Sign Activation Function
- Title(参考訳): ソフトルートサイン活性化関数
- Authors: Yuan Zhou, Dandan Li, Shuwei Huo, and Sun-Yuan Kung
- Abstract要約: SRS(Soft-Root-Sign)は滑らかで、非単調で有界である。
ReLUとは対照的に、SRSは独立したトレーニング可能なパラメータのペアによって出力を適応的に調整することができる。
我々のSRSはReLUや他の最先端の非線形性と一致または超えます。
- 参考スコア(独自算出の注目度): 21.716884634290516
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The choice of activation function in deep networks has a significant effect
on the training dynamics and task performance. At present, the most effective
and widely-used activation function is ReLU. However, because of the non-zero
mean, negative missing and unbounded output, ReLU is at a potential
disadvantage during optimization. To this end, we introduce a novel activation
function to manage to overcome the above three challenges. The proposed
nonlinearity, namely "Soft-Root-Sign" (SRS), is smooth, non-monotonic, and
bounded. Notably, the bounded property of SRS distinguishes itself from most
state-of-the-art activation functions. In contrast to ReLU, SRS can adaptively
adjust the output by a pair of independent trainable parameters to capture
negative information and provide zero-mean property, which leading not only to
better generalization performance, but also to faster learning speed. It also
avoids and rectifies the output distribution to be scattered in the
non-negative real number space, making it more compatible with batch
normalization (BN) and less sensitive to initialization. In experiments, we
evaluated SRS on deep networks applied to a variety of tasks, including image
classification, machine translation and generative modelling. Our SRS matches
or exceeds models with ReLU and other state-of-the-art nonlinearities, showing
that the proposed activation function is generalized and can achieve high
performance across tasks. Ablation study further verified the compatibility
with BN and self-adaptability for different initialization.
- Abstract(参考訳): ディープネットワークにおけるアクティベーション関数の選択は、トレーニングダイナミクスとタスクパフォーマンスに大きな影響を及ぼす。
現在、最も効果的で広く利用されているアクティベーション機能はReLUである。
しかし、ゼロではない平均、負の欠落、および非有界な出力のため、ReLUは最適化時に潜在的に不利である。
そこで本稿では,上記の3つの課題を克服するために,新たなアクティベーション機能を導入する。
提案された非線形性(Soft-Root-Sign (SRS))は滑らかで非単調で有界である。
特に、SRSの有界性は、ほとんどの最先端のアクティベーション関数と自身を区別する。
reluとは対照的に、srsは2つの独立したトレーニング可能なパラメータによって出力を適応的に調整し、負の情報をキャプチャし、ゼロ平均特性を提供する。
また、非負の実数空間に散らばる出力分布を回避・修正し、バッチ正規化(BN)との互換性を高め、初期化に敏感でないようにする。
実験では,画像分類,機械翻訳,生成モデルなど,さまざまなタスクに適用可能な深層ネットワーク上のsrsを評価した。
我々のSRSはReLUや他の最先端の非線形性とモデルに適合し、提案したアクティベーション関数が一般化され、タスク間で高い性能を達成できることを示す。
アブレーション研究はBNとの互換性と異なる初期化に対する自己適応性をさらに検証した。
関連論文リスト
- ReLU$^2$ Wins: Discovering Efficient Activation Functions for Sparse
LLMs [91.31204876440765]
本稿では、ニューロンの出力の等級と調整された等級しきい値によってニューロンの活性化を定義する一般的な方法を提案する。
スパース計算における最も効率的なアクティベーション関数を見つけるために,本手法を提案する。
我々は、ReLU、SwiGLU、ReGLU、ReLU$2$といった異なるアクティベーション機能を利用したLCMの徹底的な実験を行う。
論文 参考訳(メタデータ) (2024-02-06T08:45:51Z) - Parametric Leaky Tanh: A New Hybrid Activation Function for Deep
Learning [0.0]
活性化機能(AF)はディープニューラルネットワーク(DNN)の重要な構成要素である
本稿では,Tanh と Leaky ReLU の双方の活性化関数の強みを組み合わせたハイブリッド活性化関数を提案する。
PLanh はすべての点で微分可能であり、負の入力に対する非ゼロ勾配を保証することで 'dying ReLU' 問題に対処する。
論文 参考訳(メタデータ) (2023-08-11T08:59:27Z) - TSSR: A Truncated and Signed Square Root Activation Function for Neural
Networks [5.9622541907827875]
我々は、Trncated and Signed Square Root (TSSR) 関数と呼ばれる新しいアクティベーション関数を導入する。
この関数は奇数、非線形、単調、微分可能であるため特異である。
ニューラルネットワークの数値安定性を改善する可能性がある。
論文 参考訳(メタデータ) (2023-08-09T09:40:34Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Saturated Non-Monotonic Activation Functions [21.16866749728754]
SGELU, SSiLU, SMishはGELU, SiLU, Mishの負の部分とReLUの正の部分から構成される。
CIFAR-100における画像分類実験の結果,提案するアクティベーション関数は,複数のディープラーニングアーキテクチャにおいて,高い有効性と,最先端のベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-05-12T15:01:06Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Transformers with Learnable Activation Functions [63.98696070245065]
我々は、Rational Activation Function (RAF) を用いて、入力データに基づいてトレーニング中の最適なアクティベーション関数を学習する。
RAFは、学習されたアクティベーション関数に従って事前学習されたモデルを分析し、解釈するための新しい研究方向を開く。
論文 参考訳(メタデータ) (2022-08-30T09:47:31Z) - Growing Cosine Unit: A Novel Oscillatory Activation Function That Can
Speedup Training and Reduce Parameters in Convolutional Neural Networks [0.1529342790344802]
畳み込みニューラルネットワークは多くの社会的に重要で経済的に重要な問題を解くことに成功した。
ディープネットワークのトレーニングを可能にする重要な発見は、Rectified Linear Unit (ReLU) アクティベーション機能の採用であった。
新しい活性化関数 C(z) = z cos z は様々なアーキテクチャ上で Sigmoids, Swish, Mish, ReLU より優れる。
論文 参考訳(メタデータ) (2021-08-30T01:07:05Z) - Style Normalization and Restitution for DomainGeneralization and
Adaptation [88.86865069583149]
効果的なドメイン一般化モデルは、一般化および判別可能な特徴表現を学習することが期待される。
本稿では,ネットワークの高一般化と識別能力を確保するために,新しいスタイル正規化・再構成モジュール(SNR)を設計する。
論文 参考訳(メタデータ) (2021-01-03T09:01:39Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - Investigating the interaction between gradient-only line searches and
different activation functions [0.0]
勾配専用線探索(GOLS)は、ニューラルネットワークトレーニングにおける不連続損失関数の探索方向に沿ったステップサイズを適応的に決定する。
GOLSは様々なアクティベーション機能に対して堅牢であるが,標準フィードフォワードアーキテクチャにおけるRectified Linear Unit(ReLU)アクティベーション機能に敏感であることがわかった。
論文 参考訳(メタデータ) (2020-02-23T12:28:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。