論文の概要: SERF: Towards better training of deep neural networks using log-Softplus
ERror activation Function
- arxiv url: http://arxiv.org/abs/2108.09598v3
- Date: Wed, 25 Aug 2021 03:32:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-26 10:34:27.921459
- Title: SERF: Towards better training of deep neural networks using log-Softplus
ERror activation Function
- Title(参考訳): SERF:log-Softplus ERrorActivation Functionを用いたディープニューラルネットワークのより良いトレーニングを目指して
- Authors: Sayan Nag, Mayukh Bhattacharyya
- Abstract要約: 本稿では,自然界において自己規則化され,非単調なSerfと呼ばれる新しいアクティベーション関数を提案する。
SerfはReLU(ベースライン)およびSwishおよびMishを含む他のアクティベーション機能を大きく上回っていることが観察された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Activation functions play a pivotal role in determining the training dynamics
and neural network performance. The widely adopted activation function ReLU
despite being simple and effective has few disadvantages including the Dying
ReLU problem. In order to tackle such problems, we propose a novel activation
function called Serf which is self-regularized and nonmonotonic in nature. Like
Mish, Serf also belongs to the Swish family of functions. Based on several
experiments on computer vision (image classification and object detection) and
natural language processing (machine translation, sentiment classification and
multimodal entailment) tasks with different state-of-the-art architectures, it
is observed that Serf vastly outperforms ReLU (baseline) and other activation
functions including both Swish and Mish, with a markedly bigger margin on
deeper architectures. Ablation studies further demonstrate that Serf based
architectures perform better than those of Swish and Mish in varying scenarios,
validating the effectiveness and compatibility of Serf with varying depth,
complexity, optimizers, learning rates, batch sizes, initializers and dropout
rates. Finally, we investigate the mathematical relation between Swish and
Serf, thereby showing the impact of preconditioner function ingrained in the
first derivative of Serf which provides a regularization effect making
gradients smoother and optimization faster.
- Abstract(参考訳): アクティベーション機能は、トレーニングダイナミクスとニューラルネットワークのパフォーマンスを決定する上で重要な役割を果たす。
シンプルで有効であるにもかかわらず広く採用されているアクティベーション関数 ReLU には、Dying ReLU 問題を含むいくつかの欠点がある。
そこで本研究では,自然界において自己正規化され,非単調であるサーフと呼ばれる新しい活性化関数を提案する。
Mishと同様に、SerfもSwishファミリーに属している。
コンピュータビジョン(画像分類とオブジェクト検出)と自然言語処理(機械翻訳、感情分類、マルチモーダル・エンテーメント)の様々な実験に基づいて、SerfはReLU(ベースライン)とSwishとMishを含む他のアクティベーション機能を大きく上回っており、より深いアーキテクチャに顕著な差がある。
アブレーション研究により、serfベースのアーキテクチャは様々なシナリオにおいてswishやmishよりも優れた性能を示し、様々な深さ、複雑さ、最適化、学習率、バッチサイズ、初期化器、ドロップアウト率でserfの有効性と互換性を検証する。
最後に,SwishとSerfの数学的関係について検討し,よりスムーズかつ高速に勾配を最適化する正規化効果を提供するSerfの第1微分のプレコンディショナー関数の影響を示す。
関連論文リスト
- Linear Oscillation: A Novel Activation Function for Vision Transformer [0.0]
線形振動(LoC)活性化関数を$f(x) = x times sin(alpha x + beta)$と定義する。
非線型性を主に導入する従来の活性化関数とは違い、LoCは線形軌道と振動偏差をシームレスにブレンドする。
私たちの経験的研究によると、多様なニューラルネットワークに組み込むと、LoCアクティベーション機能は、ReLUやSigmoidといった確立したアーキテクチャよりも一貫して優れています。
論文 参考訳(メタデータ) (2023-08-25T20:59:51Z) - ErfReLU: Adaptive Activation Function for Deep Neural Network [1.9336815376402716]
近年の研究では、出力に非線形性を加えるために選択されたアクティベーション関数が、ディープラーニングネットワークの有効性に大きな影響を与えることが報告されている。
研究者は最近、学習プロセスを通してトレーニングできるアクティベーション関数の開発を始めた。
Sigmoid、ReLU、Tanhなどのアートアクティベーション機能とその特性について、簡単に説明されている。
論文 参考訳(メタデータ) (2023-06-02T13:41:47Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Offline Reinforcement Learning with Differentiable Function
Approximation is Provably Efficient [65.08966446962845]
歴史的データを用いて意思決定戦略を最適化することを目的としたオフライン強化学習は、現実の応用に広く適用されている。
微分関数クラス近似(DFA)を用いたオフライン強化学習の検討から一歩踏み出した。
最も重要なことは、悲観的な適合Q-ラーニングアルゴリズムを解析することにより、オフライン微分関数近似が有効であることを示すことである。
論文 参考訳(メタデータ) (2022-10-03T07:59:42Z) - Transformers with Learnable Activation Functions [63.98696070245065]
我々は、Rational Activation Function (RAF) を用いて、入力データに基づいてトレーニング中の最適なアクティベーション関数を学習する。
RAFは、学習されたアクティベーション関数に従って事前学習されたモデルを分析し、解釈するための新しい研究方向を開く。
論文 参考訳(メタデータ) (2022-08-30T09:47:31Z) - A Comprehensive Survey and Performance Analysis of Activation Functions
in Deep Learning [23.83339228535986]
さまざまなタイプの問題に対処するために、さまざまなタイプのニューラルネットワークが導入されている。
ニューラルネットワークの主な目標は、非線形分離可能な入力データをより線形分離可能な抽象的特徴に変換することである。
最もポピュラーで一般的な非線形層は、ロジスティックシグモド、タン、ReLU、ELU、Swish、Mishなどのアクティベーション関数(AF)である。
論文 参考訳(メタデータ) (2021-09-29T16:41:19Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - A Use of Even Activation Functions in Neural Networks [0.35172332086962865]
本稿では,データ構造に関する既存の知識や仮説を統合するために,独自のアクティベーション関数を構築する方法を提案する。
完全に接続されたレイヤの1つで偶発的なアクティベーション関数を使用することで、ニューラルネットワークの性能が向上することを示す。
論文 参考訳(メタデータ) (2020-11-23T20:33:13Z) - Influence Functions in Deep Learning Are Fragile [52.31375893260445]
影響関数は、テスト時間予測におけるサンプルの効果を近似する。
影響評価は浅いネットワークでは かなり正確です
ヘッセン正則化は、高品質な影響推定を得るために重要である。
論文 参考訳(メタデータ) (2020-06-25T18:25:59Z) - Discovering Parametric Activation Functions [17.369163074697475]
本稿では,アクティベーション機能を自動でカスタマイズする手法を提案する。
CIFAR-10とCIFAR-100の画像分類データセット上の4つの異なるニューラルネットワークアーキテクチャによる実験は、このアプローチが有効であることを示している。
論文 参考訳(メタデータ) (2020-06-05T00:25:33Z) - Towards Efficient Processing and Learning with Spikes: New Approaches
for Multi-Spike Learning [59.249322621035056]
各種タスクにおける他のベースラインよりも優れた性能を示すための2つの新しいマルチスパイク学習ルールを提案する。
特徴検出タスクでは、教師なしSTDPの能力と、その制限を提示する能力を再検討する。
提案した学習ルールは,特定の制約を適用せずに,幅広い条件で確実にタスクを解くことができる。
論文 参考訳(メタデータ) (2020-05-02T06:41:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。