Fugu-MT 論文翻訳(概要): Activation Functions: Dive into an optimal activation function

論文の概要: Activation Functions: Dive into an optimal activation function

arxiv url: http://arxiv.org/abs/2202.12065v1
Date: Thu, 24 Feb 2022 12:44:11 GMT
ステータス: 翻訳完了
システム内更新日: 2022-02-25 23:27:19.883715
Title: Activation Functions: Dive into an optimal activation function
Title（参考訳）: 活性化関数:最適な活性化関数を作る
Authors: Vipul Bansal
Abstract要約: 既存のアクティベーション関数の重み付け和として定義することで、最適なアクティベーション関数を求める。この研究は、ReLU、tanh、 sinという3つのアクティベーション関数を3つの人気のある画像データセットに使用しています。
参考スコア（独自算出の注目度）: 1.52292571922932
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Activation functions have come up as one of the essential components of neural networks. The choice of adequate activation function can impact the accuracy of these methods. In this study, we experiment for finding an optimal activation function by defining it as a weighted sum of existing activation functions and then further optimizing these weights while training the network. The study uses three activation functions, ReLU, tanh, and sin, over three popular image datasets, MNIST, FashionMNIST, and KMNIST. We observe that the ReLU activation function can easily overlook other activation functions. Also, we see that initial layers prefer to have ReLU or LeakyReLU type of activation functions, but deeper layers tend to prefer more convergent activation functions.
Abstract（参考訳）: 活性化関数はニューラルネットワークの重要な構成要素の1つである。適切なアクティベーション関数の選択は、これらの手法の精度に影響を与える可能性がある。本研究では,既存のアクティベーション関数の重み付け和として定義し,その重み付けをネットワークをトレーニングしながらさらに最適化することで,最適なアクティベーション関数を求める実験を行った。この研究では、MNIST、FashionMNIST、KMNISTという3つの人気のある画像データセットに対して、ReLU、tanh、 sinという3つのアクティベーション関数を使用している。 reluアクティベーション関数は、他のアクティベーション関数を簡単に見過ごせることを観察する。また,初期層はrelu型や leakyrelu型のアクティベーション関数を好むが,より深い層はより収束型のアクティベーション関数を好む傾向がある。

関連論文リスト

Sparsing Law: Towards Large Language Models with Greater Activation Sparsity [62.09617609556697]
活性化空間性は、除去できる活性化出力の中に、かなり弱い分散要素が存在することを表す。 PPL-$p%$ sparsity, a accurate and performance-aware activation sparsity metric。我々は、SiLUよりも活性化関数としてReLUが効率的であることを示し、より多くのトレーニングデータを利用してアクティベーション空間を改善することができることを示した。
論文参考訳（メタデータ） (2024-11-04T17:59:04Z)
Not All Diffusion Model Activations Have Been Evaluated as Discriminative Features [115.33889811527533]
拡散モデルは当初、画像生成のために設計されている。近年の研究では、バックボーンの内部シグナルはアクティベーションと呼ばれ、様々な識別タスクの高密度な特徴として機能することが示されている。
論文参考訳（メタデータ） (2024-10-04T16:05:14Z)
Trainable Highly-expressive Activation Functions [8.662179223772089]
トレーニング可能な高表現能アクティベーション機能であるDiTACを紹介する。 DiTACはモデル表現性と性能を高め、しばしば大幅な改善をもたらす。また、セマンティックセグメンテーション、画像生成、回帰問題、画像分類といったタスクにおいて、既存のアクティベーション関数(後者が固定可能かトレーニング可能かに関わらず)を上回っている。
論文参考訳（メタデータ） (2024-07-10T11:49:29Z)
ProSparse: Introducing and Enhancing Intrinsic Activation Sparsity within Large Language Models [74.59731375779934]
活性化スパーシリティ(Activation sparsity)とは、活性化出力の間に弱い分散要素が存在することを指す。本稿では,PLMを高活性化空間にプッシュするために,"ProSparse" という,シンプルで効果的なスペース化手法を提案する。
論文参考訳（メタデータ） (2024-02-21T03:58:49Z)
ReLU$^2$ Wins: Discovering Efficient Activation Functions for Sparse LLMs [91.31204876440765]
本稿では、ニューロンの出力の等級と調整された等級しきい値によってニューロンの活性化を定義する一般的な方法を提案する。スパース計算における最も効率的なアクティベーション関数を見つけるために,本手法を提案する。我々は、ReLU、SwiGLU、ReGLU、ReLU$2$といった異なるアクティベーション機能を利用したLCMの徹底的な実験を行う。
論文参考訳（メタデータ） (2024-02-06T08:45:51Z)
ErfReLU: Adaptive Activation Function for Deep Neural Network [1.9336815376402716]
近年の研究では、出力に非線形性を加えるために選択されたアクティベーション関数が、ディープラーニングネットワークの有効性に大きな影響を与えることが報告されている。研究者は最近、学習プロセスを通してトレーニングできるアクティベーション関数の開発を始めた。 Sigmoid、ReLU、Tanhなどのアートアクティベーション機能とその特性について、簡単に説明されている。
論文参考訳（メタデータ） (2023-06-02T13:41:47Z)
Saturated Non-Monotonic Activation Functions [21.16866749728754]
SGELU, SSiLU, SMishはGELU, SiLU, Mishの負の部分とReLUの正の部分から構成される。 CIFAR-100における画像分類実験の結果,提案するアクティベーション関数は,複数のディープラーニングアーキテクチャにおいて,高い有効性と,最先端のベースラインよりも優れていたことが示唆された。
論文参考訳（メタデータ） (2023-05-12T15:01:06Z)
Globally Optimal Training of Neural Networks with Threshold Activation Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文参考訳（メタデータ） (2023-03-06T18:59:13Z)
Evaluating CNN with Oscillatory Activation Function [0.0]
画像から高次元の複雑な特徴を学習できるCNNは、アクティベーション関数によって導入された非線形性である。本稿では、発振活性化関数(GCU)と、ReLu、PReLu、Mishなどの一般的なアクティベーション関数を用いて、MNISTおよびCIFAR10データセット上でのCNNアーキテクチャALexNetの性能について検討する。
論文参考訳（メタデータ） (2022-11-13T11:17:13Z)
Transformers with Learnable Activation Functions [63.98696070245065]
我々は、Rational Activation Function (RAF) を用いて、入力データに基づいてトレーニング中の最適なアクティベーション関数を学習する。 RAFは、学習されたアクティベーション関数に従って事前学習されたモデルを分析し、解釈するための新しい研究方向を開く。
論文参考訳（メタデータ） (2022-08-30T09:47:31Z)
Evolutionary Optimization of Deep Learning Activation Functions [15.628118691027328]
進化的アルゴリズムは、Rectified Linear Unit(ReLU)より優れている新しいアクティベーション関数を発見できることを示す。 ReLUを活性化関数に置き換えると、統計的にネットワークの精度が向上する。これらの新しい活性化関数は、タスク間で高いパフォーマンスを達成するために一般化される。
論文参考訳（メタデータ） (2020-02-17T19:54:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。