論文の概要: Learning specialized activation functions with the Piecewise Linear Unit
- arxiv url: http://arxiv.org/abs/2104.03693v1
- Date: Thu, 8 Apr 2021 11:29:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-09 13:05:17.691694
- Title: Learning specialized activation functions with the Piecewise Linear Unit
- Title(参考訳): Piecewise Linear Unit を用いた特殊アクティベーション関数の学習
- Authors: Yucong Zhou, Zezhou Zhu, Zhao Zhong
- Abstract要約: 本稿では, 注意深く設計した定式化学習法を組み込んだ, 区分線形単位 (pwlu) と呼ばれる新しい活性化関数を提案する。
特殊なアクティベーション機能を学び、ImageNetやCOCOなどの大規模データセットでSOTA性能を達成できます。
PWLUは推論時に実装も簡単で効率も良く、現実世界のアプリケーションにも広く適用できる。
- 参考スコア(独自算出の注目度): 7.820667552233989
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The choice of activation functions is crucial for modern deep neural
networks. Popular hand-designed activation functions like Rectified Linear
Unit(ReLU) and its variants show promising performance in various tasks and
models. Swish, the automatically discovered activation function, has been
proposed and outperforms ReLU on many challenging datasets. However, it has two
main drawbacks. First, the tree-based search space is highly discrete and
restricted, which is difficult for searching. Second, the sample-based
searching method is inefficient, making it infeasible to find specialized
activation functions for each dataset or neural architecture. To tackle these
drawbacks, we propose a new activation function called Piecewise Linear
Unit(PWLU), which incorporates a carefully designed formulation and learning
method. It can learn specialized activation functions and achieves SOTA
performance on large-scale datasets like ImageNet and COCO. For example, on
ImageNet classification dataset, PWLU improves 0.9%/0.53%/1.0%/1.7%/1.0% top-1
accuracy over Swish for
ResNet-18/ResNet-50/MobileNet-V2/MobileNet-V3/EfficientNet-B0. PWLU is also
easy to implement and efficient at inference, which can be widely applied in
real-world applications.
- Abstract(参考訳): アクティベーション関数の選択は、現代のディープニューラルネットワークにとって不可欠である。
Rectified Linear Unit(ReLU)などの手作業で設計されたアクティベーション関数は、様々なタスクやモデルで有望なパフォーマンスを示す。
自動検出アクティベーション関数であるswishが提案され、多くの挑戦的なデータセットでreluを上回っている。
しかし、主な欠点は2つある。
第一に、木に基づく探索空間は高度に離散的で制限され、探索は困難である。
第二に、サンプルベースの探索法は非効率であり、データセットやニューラルアーキテクチャごとに特別なアクティベーション関数を見つけることは不可能である。
これらの欠点に対処するために、慎重に設計された定式化と学習手法を組み込んだPiecewise Linear Unit(PWLU)と呼ばれる新しいアクティベーション関数を提案する。
特別なアクティベーション関数を学習し、ImageNetやCOCOといった大規模データセット上でSOTAパフォーマンスを達成することができる。
例えば、ImageNet分類データセットでは、PWLUはResNet-18/ResNet-50/MobileNet-V2/MobileNet-V3/EfficientNet-B0のSwishよりも0.9%/0.53%/1.0%/1.7%/1.0%トップ-1精度を改善している。
PWLUは推論時に実装も簡単で効率も良く、現実世界のアプリケーションにも広く適用できる。
関連論文リスト
- APALU: A Trainable, Adaptive Activation Function for Deep Learning
Networks [0.0]
APALU(Adaptive piecewise approximated activation linear unit)を新たに導入する。
実験では、様々なタスクに広く使用されるアクティベーション関数よりも大幅に改善されている。
APALUは、限られたデータセットで手話認識タスクにおいて100%精度を達成する。
論文 参考訳(メタデータ) (2024-02-13T06:18:42Z) - ReLU$^2$ Wins: Discovering Efficient Activation Functions for Sparse
LLMs [91.31204876440765]
本稿では、ニューロンの出力の等級と調整された等級しきい値によってニューロンの活性化を定義する一般的な方法を提案する。
スパース計算における最も効率的なアクティベーション関数を見つけるために,本手法を提案する。
我々は、ReLU、SwiGLU、ReGLU、ReLU$2$といった異なるアクティベーション機能を利用したLCMの徹底的な実験を行う。
論文 参考訳(メタデータ) (2024-02-06T08:45:51Z) - A Non-monotonic Smooth Activation Function [4.269446061678759]
活性化関数は、ネットワークに非線形性を導入するため、ディープラーニングモデルにおいて不可欠である。
本研究では,非単調かつ滑らかな機能であるSqishと呼ばれる新しいアクティベーション関数を提案する。
分類,物体検出,セグメンテーションタスク,対向ロバストネス実験において,その優位性を示した。
論文 参考訳(メタデータ) (2023-10-16T07:09:47Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Transformers with Learnable Activation Functions [63.98696070245065]
我々は、Rational Activation Function (RAF) を用いて、入力データに基づいてトレーニング中の最適なアクティベーション関数を学習する。
RAFは、学習されたアクティベーション関数に従って事前学習されたモデルを分析し、解釈するための新しい研究方向を開く。
論文 参考訳(メタデータ) (2022-08-30T09:47:31Z) - Efficient Feature Transformations for Discriminative and Generative
Continual Learning [98.10425163678082]
継続的学習のための簡易タスク特化機能マップ変換戦略を提案する。
これらは新しいタスクを学習するための強力な柔軟性を提供し、ベースアーキテクチャに最小パラメータを追加することで実現される。
本手法の有効性と効率を,判別(cifar-100およびimagenet-1k)および生成的タスクの一連の実験を用いて実証する。
論文 参考訳(メタデータ) (2021-03-25T01:48:14Z) - Lightweight Single-Image Super-Resolution Network with Attentive
Auxiliary Feature Learning [73.75457731689858]
本稿では,SISR の注意補助機能 (A$2$F) に基づく計算効率が高く正確なネットワークを構築した。
大規模データセットを用いた実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2020-11-13T06:01:46Z) - Discovering Parametric Activation Functions [17.369163074697475]
本稿では,アクティベーション機能を自動でカスタマイズする手法を提案する。
CIFAR-10とCIFAR-100の画像分類データセット上の4つの異なるニューラルネットワークアーキテクチャによる実験は、このアプローチが有効であることを示している。
論文 参考訳(メタデータ) (2020-06-05T00:25:33Z) - Activation functions are not needed: the ratio net [3.9636371287541086]
本稿では,新しい関数近似器の設計に焦点をあてる。
新しいアクティベーション関数やカーネル関数を設計する代わりに、新しい提案されたネットワークは分数形式を使用する。
その結果、ほとんどの場合、比率ネットはより速く収束し、分類とRBFの両方を上回っていることがわかった。
論文 参考訳(メタデータ) (2020-05-14T01:07:56Z) - Evolving Normalization-Activation Layers [100.82879448303805]
我々は、うまく機能しない候補層を迅速にフィルタリングする効率的な拒絶プロトコルを開発した。
EvoNormsは、新しい正規化活性化層であり、新しい構造を持ち、時には驚くべき構造を持つ。
我々の実験は、EvoNormsがResNets、MobileNets、EfficientNetsなどの画像分類モデルでうまく機能していることを示している。
論文 参考訳(メタデータ) (2020-04-06T19:52:48Z) - Evolutionary Optimization of Deep Learning Activation Functions [15.628118691027328]
進化的アルゴリズムは、Rectified Linear Unit(ReLU)より優れている新しいアクティベーション関数を発見できることを示す。
ReLUを活性化関数に置き換えると、統計的にネットワークの精度が向上する。
これらの新しい活性化関数は、タスク間で高いパフォーマンスを達成するために一般化される。
論文 参考訳(メタデータ) (2020-02-17T19:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。