論文の概要: AReLU: Attention-based Rectified Linear Unit
- arxiv url: http://arxiv.org/abs/2006.13858v2
- Date: Fri, 2 Oct 2020 09:16:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 08:58:26.848611
- Title: AReLU: Attention-based Rectified Linear Unit
- Title(参考訳): ARELU: 注意に基づく整流線形ユニット
- Authors: Dengsheng Chen and Jun Li and Kai Xu
- Abstract要約: 本稿では,学習可能なアクティベーション関数を要素的注意機構で定式化する手法を提案する。
各ネットワーク層において,アクティベーション前機能マップの要素単位の符号に基づくアテンションマップを学習するアテンションモジュールを考案する。
注意モジュールは基本的に、ReLUをアイデンティティ変換と見なすことができるので、入力の活性化部分の要素ワイズ残基を学習する。
- 参考スコア(独自算出の注目度): 15.404893421951837
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Element-wise activation functions play a critical role in deep neural
networks via affecting the expressivity power and the learning dynamics.
Learning-based activation functions have recently gained increasing attention
and success. We propose a new perspective of learnable activation function
through formulating them with element-wise attention mechanism. In each network
layer, we devise an attention module which learns an element-wise, sign-based
attention map for the pre-activation feature map. The attention map scales an
element based on its sign. Adding the attention module with a rectified linear
unit (ReLU) results in an amplification of positive elements and a suppression
of negative ones, both with learned, data-adaptive parameters. We coin the
resulting activation function Attention-based Rectified Linear Unit (AReLU).
The attention module essentially learns an element-wise residue of the
activated part of the input, as ReLU can be viewed as an identity
transformation. This makes the network training more resistant to gradient
vanishing. The learned attentive activation leads to well-focused activation of
relevant regions of a feature map. Through extensive evaluations, we show that
AReLU significantly boosts the performance of most mainstream network
architectures with only two extra learnable parameters per layer introduced.
Notably, AReLU facilitates fast network training under small learning rates,
which makes it especially suited in the case of transfer learning and meta
learning. Our source code has been released (see
https://github.com/densechen/AReLU).
- Abstract(参考訳): 要素ワイドアクティベーション関数は、表現力と学習力学に影響を与えることによって、ディープニューラルネットワークにおいて重要な役割を果たす。
学習に基づく活性化関数は最近注目を集め、成功している。
本稿では,要素的注意機構を用いて学習可能なアクティベーション機能の新たな展望を提案する。
各ネットワーク層において,プリアクティベーション機能マップのための要素毎のサインベースアテンションマップを学習するアテンションモジュールを考案する。
注意マップは、その記号に基づいて要素をスケールする。
ReLU(rerectified linear unit)によるアテンションモジュールの追加は、正の要素の増幅と、学習されたデータ適応パラメータによる負の要素の抑制をもたらす。
結果として得られた活性化関数の注意力に基づく整流線形単位(arelu)を導出する。
注意モジュールは基本的に、ReLUをアイデンティティ変換と見なすことができるので、入力の活性化部分の要素ワイズ残基を学習する。
これにより、ネットワークトレーニングは勾配の消失に耐性が増す。
学習された注意的アクティベーションは、機能マップの関連領域を十分に焦点を絞ったアクティベーションに導く。
広範囲な評価により、ARELUは各層に2つの学習可能なパラメータしか導入せず、主要なネットワークアーキテクチャの性能を大幅に向上させることを示した。
特にareluは、小さな学習率で高速なネットワークトレーニングを促進するため、転送学習やメタ学習に特に適している。
ソースコードがリリースされた(https://github.com/densechen/AReLU)。
関連論文リスト
- Features that Make a Difference: Leveraging Gradients for Improved Dictionary Learning [4.051777802443125]
スパースオートエンコーダ(SAE)は、ニューラルネットワーク表現を抽出するための有望なアプローチである。
我々は、TopKアクティベーション関数を増強することにより、$k$-sparseのオートエンコーダアーキテクチャを変更するGradient SAEを紹介する。
g-SAEが任意の文脈でモデルを操る上で平均的に効果的である潜伏者を学ぶ証拠が見つかる。
論文 参考訳(メタデータ) (2024-11-15T18:03:52Z) - A Non-monotonic Smooth Activation Function [4.269446061678759]
活性化関数は、ネットワークに非線形性を導入するため、ディープラーニングモデルにおいて不可欠である。
本研究では,非単調かつ滑らかな機能であるSqishと呼ばれる新しいアクティベーション関数を提案する。
分類,物体検出,セグメンテーションタスク,対向ロバストネス実験において,その優位性を示した。
論文 参考訳(メタデータ) (2023-10-16T07:09:47Z) - Elephant Neural Networks: Born to Be a Continual Learner [7.210328077827388]
破滅的な忘れ物は、何十年にもわたって継続的な学習にとって重要な課題である。
ニューラルネットワークのトレーニング力学におけるアクティベーション機能の役割と,その破滅的忘れに対する影響について検討した。
古典的な活性化関数を象の活性化関数に置き換えることで、破滅的な忘れ物に対するニューラルネットワークのレジリエンスを大幅に改善できることを示す。
論文 参考訳(メタデータ) (2023-10-02T17:27:39Z) - Evaluating CNN with Oscillatory Activation Function [0.0]
画像から高次元の複雑な特徴を学習できるCNNは、アクティベーション関数によって導入された非線形性である。
本稿では、発振活性化関数(GCU)と、ReLu、PReLu、Mishなどの一般的なアクティベーション関数を用いて、MNISTおよびCIFAR10データセット上でのCNNアーキテクチャALexNetの性能について検討する。
論文 参考訳(メタデータ) (2022-11-13T11:17:13Z) - Energy-based Latent Aligner for Incremental Learning [83.0135278697976]
ディープラーニングモデルは、新しいタスクを漸進的に学習しながら、以前の知識を忘れる傾向があります。
この振る舞いは、新しいタスクに最適化されたパラメータ更新が、古いタスクに適したアップデートとうまく一致しない可能性があるため現れます。
ELI: インクリメンタルラーニングのためのエネルギーベースラテントアリグナーを提案する。
論文 参考訳(メタデータ) (2022-03-28T17:57:25Z) - Neural Function Modules with Sparse Arguments: A Dynamic Approach to
Integrating Information across Layers [84.57980167400513]
Neural Function Modules (NFM)は、ディープラーニングに同じ構造機能を導入することを目的としている。
トップダウンとボトムアップのフィードバックを組み合わせたフィードフォワードネットワークのコンテキストにおける作業のほとんどは、分類の問題に限られている。
私たちの仕事の重要な貢献は、フレキシブルなアルゴリズムで注意、疎結合、トップダウン、ボトムアップのフィードバックを組み合わせることです。
論文 参考訳(メタデータ) (2020-10-15T20:43:17Z) - Fast Few-Shot Classification by Few-Iteration Meta-Learning [173.32497326674775]
数ショット分類のための高速な最適化に基づくメタラーニング手法を提案する。
我々の戦略はメタ学習において学習すべき基礎学習者の目的の重要な側面を可能にする。
我々は、我々のアプローチの速度と効果を実証し、総合的な実験分析を行う。
論文 参考訳(メタデータ) (2020-10-01T15:59:31Z) - Deep Reinforced Attention Learning for Quality-Aware Visual Recognition [73.15276998621582]
我々は,任意の畳み込みニューラルネットワークにおける中間注意マップの弱教師付き生成機構を構築した。
メタ批評家ネットワークを導入し、メインネットワークにおける注目マップの質を評価する。
論文 参考訳(メタデータ) (2020-07-13T02:44:38Z) - Incremental Training of a Recurrent Neural Network Exploiting a
Multi-Scale Dynamic Memory [79.42778415729475]
本稿では,マルチスケール学習を対象とする,漸進的に訓練された再帰的アーキテクチャを提案する。
隠れた状態を異なるモジュールに分割することで、シンプルなRNNのアーキテクチャを拡張する方法を示す。
新しいモジュールがモデルに反復的に追加され、徐々に長い依存関係を学習するトレーニングアルゴリズムについて議論する。
論文 参考訳(メタデータ) (2020-06-29T08:35:49Z) - Global Context-Aware Progressive Aggregation Network for Salient Object
Detection [117.943116761278]
我々は,低レベルな外観特徴,高レベルな意味特徴,グローバルな文脈特徴を統合化するための新しいネットワークGCPANetを提案する。
提案手法は, 定量的かつ定性的に, 最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-03-02T04:26:10Z) - Investigating the interaction between gradient-only line searches and
different activation functions [0.0]
勾配専用線探索(GOLS)は、ニューラルネットワークトレーニングにおける不連続損失関数の探索方向に沿ったステップサイズを適応的に決定する。
GOLSは様々なアクティベーション機能に対して堅牢であるが,標準フィードフォワードアーキテクチャにおけるRectified Linear Unit(ReLU)アクティベーション機能に敏感であることがわかった。
論文 参考訳(メタデータ) (2020-02-23T12:28:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。