論文の概要: EIS -- a family of activation functions combining Exponential, ISRU, and
Softplus
- arxiv url: http://arxiv.org/abs/2009.13501v2
- Date: Mon, 12 Oct 2020 15:51:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 20:40:26.168736
- Title: EIS -- a family of activation functions combining Exponential, ISRU, and
Softplus
- Title(参考訳): EIS -- Exponential、ISRU、Softplusを組み合わせたアクティベーション機能のファミリー
- Authors: Koushik Biswas, Sandeep Kumar, Shilpak Banerjee, Ashish Kumar Pandey
- Abstract要約: 基本関数から生じるいくつかの新しい活性化関数が提案され、いくつかの挑戦的なデータセットにおいて精度が向上した。
EISファミリーのアクティベーション関数は、よく知られたデータセットやモデル上で広く使われているアクティベーション関数より優れていることを示す。
- 参考スコア(独自算出の注目度): 3.3224066223099484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Activation functions play a pivotal role in the function learning using
neural networks. The non-linearity in the learned function is achieved by
repeated use of the activation function. Over the years, numerous activation
functions have been proposed to improve accuracy in several tasks. Basic
functions like ReLU, Sigmoid, Tanh, or Softplus have been favorite among the
deep learning community because of their simplicity. In recent years, several
novel activation functions arising from these basic functions have been
proposed, which have improved accuracy in some challenging datasets. We propose
a five hyper-parameters family of activation functions, namely EIS, defined as,
\[ \frac{x(\ln(1+e^x))^\alpha}{\sqrt{\beta+\gamma x^2}+\delta e^{-\theta x}}.
\] We show examples of activation functions from the EIS family which
outperform widely used activation functions on some well known datasets and
models. For example, $\frac{x\ln(1+e^x)}{x+1.16e^{-x}}$ beats ReLU by 0.89\% in
DenseNet-169, 0.24\% in Inception V3 in CIFAR100 dataset while 1.13\% in
Inception V3, 0.13\% in DenseNet-169, 0.94\% in SimpleNet model in CIFAR10
dataset. Also, $\frac{x\ln(1+e^x)}{\sqrt{1+x^2}}$ beats ReLU by 1.68\% in
DenseNet-169, 0.30\% in Inception V3 in CIFAR100 dataset while 1.0\% in
Inception V3, 0.15\% in DenseNet-169, 1.13\% in SimpleNet model in CIFAR10
dataset.
- Abstract(参考訳): 活性化関数はニューラルネットワークを用いた関数学習において重要な役割を果たす。
学習関数の非線形性は、アクティベーション関数の繰り返し使用によって達成される。
長年にわたり、いくつかのタスクで精度を向上させるために多くのアクティベーション関数が提案されてきた。
ReLU、Sigmoid、Tanh、Softplusといった基本的な機能は、その単純さからディープラーニングコミュニティで好まれている。
近年、これらの基本関数から生じるいくつかの新しい活性化関数が提案され、いくつかの挑戦的なデータセットにおいて精度が向上した。
活性化関数の5つの超パラメータ群、すなわち EIS を \[ \frac{x(\ln(1+e^x))^\alpha}{\sqrt{\beta+\gamma x^2}+\delta e^{-\theta x}} と定義する。
筆者らは、よく知られたデータセットやモデルにおいて、広く使われているアクティベーション関数よりも優れているEISファミリーのアクティベーション関数の例を示す。
例えば、$\frac{x\ln(1+e^x)}{x+1.16e^{-x}}$は、DenseNet-169でReLUを0.89\%、CIFAR100データセットでInception V3で0.24\%、DenseNet-169で0.13\%、CIFAR10データセットでSimpleNetモデルで0.94\%を上回る。
また、$\frac{x\ln(1+e^x)}{\sqrt{1+x^2}}$は、DenseNet-169ではReLUを1.68\%、CIFAR100データセットではInception V3では0.30\%、DenseNet-169では0.15\%、CIFAR10データセットではSimpleNetモデルでは1.13\%を上回る。
関連論文リスト
- Provably Efficient Reinforcement Learning with Multinomial Logit Function Approximation [67.8414514524356]
本稿では,MNL関数近似を用いたMDPの新しいクラスについて検討し,状態空間上の確率分布の正当性を保証する。
非線型関数の導入は、計算効率と統計効率の両方において大きな課題を提起する。
我々は,$mathcalO(1)$$コストで同じ後悔を実現するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-27T11:31:54Z) - Introducing Routing Functions to Vision-Language Parameter-Efficient Fine-Tuning with Low-Rank Bottlenecks [54.31708859631821]
低ランクボトルネックにおける視覚言語(VL)アライメントを高めるために,ルーティング関数と呼ばれる操作群を提案する。
様々なVL PEFT設定において、ルーティング機能は元のPEFT法の性能を大幅に改善する。
論文 参考訳(メタデータ) (2024-03-14T13:27:42Z) - Provable Data Subset Selection For Efficient Neural Network Training [73.34254513162898]
本稿では,任意の放射基底関数ネットワーク上での入力データの損失を近似する,emphRBFNNのコアセットを構成するアルゴリズムについて紹介する。
次に、一般的なネットワークアーキテクチャやデータセット上で、関数近似とデータセットサブセットの選択に関する経験的評価を行う。
論文 参考訳(メタデータ) (2023-03-09T10:08:34Z) - Transformers with Learnable Activation Functions [63.98696070245065]
我々は、Rational Activation Function (RAF) を用いて、入力データに基づいてトレーニング中の最適なアクティベーション関数を学習する。
RAFは、学習されたアクティベーション関数に従って事前学習されたモデルを分析し、解釈するための新しい研究方向を開く。
論文 参考訳(メタデータ) (2022-08-30T09:47:31Z) - SAU: Smooth activation function using convolution with approximate
identities [1.5267236995686555]
ReLU や Leaky ReLU のようなよく知られた活性化関数は原点において微分不可能である。
そこで本研究では, 微分不可能なアクティベーション関数を近似IDで結合することで, 新たなスムーズな近似式を提案する。
論文 参考訳(メタデータ) (2021-09-27T17:31:04Z) - ErfAct: Non-monotonic smooth trainable Activation Functions [1.5267236995686555]
本稿では,ErfAct-1とErfAct-2という2つの新しい非単調なスムーズなアクティベーション関数を提案する。
実験の結果,提案機能はReLUやSwish,Mishなど,広く使われているアクティベーションに比べてネットワーク性能が大幅に向上していることがわかった。
論文 参考訳(メタデータ) (2021-09-09T16:17:38Z) - Neural networks with superexpressive activations and integer weights [91.3755431537592]
アクティベーション関数の例 $sigma$ は、アクティベーションを持つネットワーク $sigma, lfloorcdotrfloor$, integer weights と固定アーキテクチャが与えられる。
より古い連続関数の $varepsilon$-approximation に必要な整数ウェイトの範囲が導出される。
論文 参考訳(メタデータ) (2021-05-20T17:29:08Z) - Learning specialized activation functions with the Piecewise Linear Unit [7.820667552233989]
本稿では, 注意深く設計した定式化学習法を組み込んだ, 区分線形単位 (pwlu) と呼ばれる新しい活性化関数を提案する。
特殊なアクティベーション機能を学び、ImageNetやCOCOなどの大規模データセットでSOTA性能を達成できます。
PWLUは推論時に実装も簡単で効率も良く、現実世界のアプリケーションにも広く適用できる。
論文 参考訳(メタデータ) (2021-04-08T11:29:11Z) - TanhSoft -- a family of activation functions combining Tanh and Softplus [3.3224066223099484]
本稿では,いくつかのよく知られたアクティベーション関数より優れていることを示す,新しいアクティベーション関数群,すなわちTanhSoftを提案する。
例えば、ReLUをxtanh(0.6ex)に置き換えると、CIFAR-10上のトップ1の分類精度が0.46%向上する。
論文 参考訳(メタデータ) (2020-09-08T16:59:28Z) - Piecewise Linear Regression via a Difference of Convex Functions [50.89452535187813]
本稿では,データに対する凸関数(DC関数)の差を利用した線形回帰手法を提案する。
実際に実装可能であることを示すとともに,実世界のデータセット上で既存の回帰/分類手法に匹敵する性能を有することを実証的に検証した。
論文 参考訳(メタデータ) (2020-07-05T18:58:47Z) - Approximating Activation Functions [3.8834605840347667]
関数近似法を用いて,双曲型接形関数とシグモイド関数の置換法を開発した。
CPU上でのトレーニング時間を10%から37%改善する安全な近似が得られます。
我々の関数はまた、Theanoで使われるアドホック近似とWord2Vecの実装とを一致または大幅に上回っている。
論文 参考訳(メタデータ) (2020-01-17T15:25:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。