論文の概要: LiSHT: Non-Parametric Linearly Scaled Hyperbolic Tangent Activation
Function for Neural Networks
- arxiv url: http://arxiv.org/abs/1901.05894v4
- Date: Fri, 17 Feb 2023 01:49:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-25 04:40:05.953305
- Title: LiSHT: Non-Parametric Linearly Scaled Hyperbolic Tangent Activation
Function for Neural Networks
- Title(参考訳): LiSHT:ニューラルネットワークのための非パラメトリック線形拡大双曲型タンジェント活性化関数
- Authors: Swalpa Kumar Roy, Suvojit Manna, Shiv Ram Dubey, Bidyut Baran
Chaudhuri
- Abstract要約: 我々は,Tanhを線形にスケーリングすることで,ニューラルネットワーク(NN)のための線形スケールハイパーボリックタンジェント(LiSHT)を提案する。
マルチレイヤ・パーセプトロン(MLP)、Residual Network(ResNet)、Long-Short term memory(LSTM)を用いて、データ分類、画像分類、つぶやき分類タスクにおいて優れた性能を示す。
- 参考スコア(独自算出の注目度): 14.943863837083496
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The activation function in neural network introduces the non-linearity
required to deal with the complex tasks. Several activation/non-linearity
functions are developed for deep learning models. However, most of the existing
activation functions suffer due to the dying gradient problem and
non-utilization of the large negative input values. In this paper, we propose a
Linearly Scaled Hyperbolic Tangent (LiSHT) for Neural Networks (NNs) by scaling
the Tanh linearly. The proposed LiSHT is non-parametric and tackles the dying
gradient problem. We perform the experiments on benchmark datasets of different
type, such as vector data, image data and natural language data. We observe the
superior performance using Multi-layer Perceptron (MLP), Residual Network
(ResNet) and Long-short term memory (LSTM) for data classification, image
classification and tweets classification tasks, respectively. The accuracy on
CIFAR100 dataset using ResNet model with LiSHT is improved by 9.48, 3.40, 3.16,
4.26, and 1.17\% as compared to Tanh, ReLU, PReLU, LReLU, and Swish,
respectively. We also show the qualitative results using loss landscape, weight
distribution and activations maps in support of the proposed activation
function.
- Abstract(参考訳): ニューラルネットワークのアクティベーション関数は、複雑なタスクを扱うのに必要な非線形性を導入する。
ディープラーニングモデルのためのいくつかのアクティベーション/非線形関数を開発した。
しかしながら、既存のアクティベーション関数のほとんどは、ダイイング勾配問題と大きな負の入力値の非利用のために苦しめられている。
本稿では,ニューラルネットワーク(NN)のための線形スケールハイパーボリックタンジェント(LiSHT)を提案する。
提案したLiSHTは非パラメトリックであり、死の勾配問題に取り組む。
我々は,ベクトルデータ,画像データ,自然言語データなど,異なるタイプのベンチマークデータセットで実験を行った。
データ分類,画像分類,つぶやき分類に多層パーセプトロン(MLP),Residual Network(ResNet),Long-Short term memory(LSTM)を用いた。
LiSHTを用いたResNetモデルを用いたCIFAR100データセットの精度はTanh,ReLU,PReLU,LReLU,Swishと比較して9.48,3.40,3.16,4.26,1.17\%向上した。
また,提案する活性化関数をサポートするために,損失景観,重量分布,活性化マップを用いて定性的な結果を示す。
関連論文リスト
- Just How Flexible are Neural Networks in Practice? [89.80474583606242]
ニューラルネットワークは、パラメータを持つ少なくとも多くのサンプルを含むトレーニングセットに適合できると広く信じられている。
しかし実際には、勾配や正規化子など、柔軟性を制限したトレーニング手順によるソリューションしか見つからない。
論文 参考訳(メタデータ) (2024-06-17T12:24:45Z) - A Novel Explanation Against Linear Neural Networks [1.223779595809275]
線形回帰とニューラルネットワークは、データをモデル化するために広く使われている。
活性化機能を持たないニューラルネットワーク、あるいは線形ニューラルネットワークは、実際にトレーニングとテストの両方のパフォーマンスを低下させる。
この仮説は,LNNの最適化と厳密なテストにより,雑音のあるデータセット上でのLNNと線形回帰の両方のパフォーマンスを比較して証明する。
論文 参考訳(メタデータ) (2023-12-30T09:44:51Z) - ReLU soothes the NTK condition number and accelerates optimization for
wide neural networks [9.374151703899047]
ReLUは、類似したデータを分離し、ニューラル・タンジェント・カーネル(NTK)の条件付けを改善する。
以上の結果から,ReLUの活性化とReLUネットワークの深度は勾配勾配収束率の向上に寄与することが示唆された。
論文 参考訳(メタデータ) (2023-05-15T17:22:26Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Exploring Linear Feature Disentanglement For Neural Networks [63.20827189693117]
Sigmoid、ReLU、Tanhなどの非線形活性化関数は、ニューラルネットワーク(NN)において大きな成功を収めた。
サンプルの複雑な非線形特性のため、これらの活性化関数の目的は、元の特徴空間から線形分離可能な特徴空間へサンプルを投影することである。
この現象は、現在の典型的なNNにおいて、すべての特徴がすべての非線形関数によって変換される必要があるかどうかを探求することに興味をそそる。
論文 参考訳(メタデータ) (2022-03-22T13:09:17Z) - Graph-adaptive Rectified Linear Unit for Graph Neural Networks [64.92221119723048]
グラフニューラルネットワーク(GNN)は、従来の畳み込みを非ユークリッドデータでの学習に拡張することで、目覚ましい成功を収めた。
本稿では,周辺情報を利用した新しいパラメトリックアクティベーション機能であるグラフ適応整流線形ユニット(GRELU)を提案する。
我々は,GNNのバックボーンと様々な下流タスクによって,プラグアンドプレイGRELU法が効率的かつ効果的であることを示す包括的実験を行った。
論文 参考訳(メタデータ) (2022-02-13T10:54:59Z) - Scaling Neural Tangent Kernels via Sketching and Random Features [53.57615759435126]
最近の研究報告では、NTKレグレッションは、小規模データセットでトレーニングされた有限範囲のニューラルネットワークより優れている。
我々は、アークコサインカーネルの拡張をスケッチして、NTKの近距離入力スパーシティ時間近似アルゴリズムを設計する。
CNTKの特徴をトレーニングした線形回帰器が,CIFAR-10データセット上での正確なCNTKの精度と150倍の高速化を実現していることを示す。
論文 参考訳(メタデータ) (2021-06-15T04:44:52Z) - Learning specialized activation functions with the Piecewise Linear Unit [7.820667552233989]
本稿では, 注意深く設計した定式化学習法を組み込んだ, 区分線形単位 (pwlu) と呼ばれる新しい活性化関数を提案する。
特殊なアクティベーション機能を学び、ImageNetやCOCOなどの大規模データセットでSOTA性能を達成できます。
PWLUは推論時に実装も簡単で効率も良く、現実世界のアプリケーションにも広く適用できる。
論文 参考訳(メタデータ) (2021-04-08T11:29:11Z) - Comparisons among different stochastic selection of activation layers
for convolutional neural networks for healthcare [77.99636165307996]
ニューラルネットワークのアンサンブルを用いて生体医用画像の分類を行う。
ReLU, leaky ReLU, Parametric ReLU, ELU, Adaptive Piecewice Linear Unit, S-Shaped ReLU, Swish, Mish, Mexican Linear Unit, Parametric Deformable Linear Unit, Soft Root Sign。
論文 参考訳(メタデータ) (2020-11-24T01:53:39Z) - Overcoming Overfitting and Large Weight Update Problem in Linear
Rectifiers: Thresholded Exponential Rectified Linear Units [0.0]
TEELU(Thresholded Indexic rectified linear unit)活性化関数は, オーバーフィッティングの軽減に有効である。
我々は,他のアクティベーションデータセットと比較して,TERELUアクティベーション手法を考慮し,ニューラルネットワークを用いて様々な性能を示す。
論文 参考訳(メタデータ) (2020-06-04T11:55:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。