論文の概要: Data-aware customization of activation functions reduces neural network
error
- arxiv url: http://arxiv.org/abs/2301.06635v1
- Date: Mon, 16 Jan 2023 23:38:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-18 15:15:11.473808
- Title: Data-aware customization of activation functions reduces neural network
error
- Title(参考訳): データアウェアによるアクティベーション機能のカスタマイズによるニューラルネットワークエラーの低減
- Authors: Fuchang Gao, Boyu Zhang
- Abstract要約: 本稿では,データ認識によるアクティベーション関数のカスタマイズにより,ニューラルネットワークのエラーが大幅に低減されることを示す。
既に精製されたニューラルネットワークにおけるカモメの活性化機能への簡単な置換は、エラーのオーダー・オブ・マグニチュードの低減につながる可能性がある。
- 参考スコア(独自算出の注目度): 0.35172332086962865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Activation functions play critical roles in neural networks, yet current
off-the-shelf neural networks pay little attention to the specific choice of
activation functions used. Here we show that data-aware customization of
activation functions can result in striking reductions in neural network error.
We first give a simple linear algebraic explanation of the role of activation
functions in neural networks; then, through connection with the
Diaconis-Shahshahani Approximation Theorem, we propose a set of criteria for
good activation functions. As a case study, we consider regression tasks with a
partially exchangeable target function, \emph{i.e.} $f(u,v,w)=f(v,u,w)$ for
$u,v\in \mathbb{R}^d$ and $w\in \mathbb{R}^k$, and prove that for such a target
function, using an even activation function in at least one of the layers
guarantees that the prediction preserves partial exchangeability for best
performance. Since even activation functions are seldom used in practice, we
designed the ``seagull'' even activation function $\log(1+x^2)$ according to
our criteria. Empirical testing on over two dozen 9-25 dimensional examples
with different local smoothness, curvature, and degree of exchangeability
revealed that a simple substitution with the ``seagull'' activation function in
an already-refined neural network can lead to an order-of-magnitude reduction
in error. This improvement was most pronounced when the activation function
substitution was applied to the layer in which the exchangeable variables are
connected for the first time. While the improvement is greatest for
low-dimensional data, experiments on the CIFAR10 image classification dataset
showed that use of ``seagull'' can reduce error even for high-dimensional
cases. These results collectively highlight the potential of customizing
activation functions as a general approach to improve neural network
performance.
- Abstract(参考訳): 活性化関数は、ニューラルネットワークにおいて重要な役割を果たすが、現在のオフザシェルフニューラルネットワークは、使用するアクティベーション関数の特定の選択にはほとんど注意を払わない。
本稿では,アクティベーション関数のデータ認識によるカスタマイズが,ニューラルネットワークエラーの大幅な低減につながることを示す。
まず、ニューラルネットワークにおける活性化関数の役割に関する単純な線形代数的説明を行い、次にdiaconis-shahshahani近似定理と関連づけて、良好な活性化関数に対する一連の基準を提案する。
ケーススタディでは、部分的に交換可能なターゲット関数を持つ回帰タスクである \emph{i.e.} $f(u,v,w)=f(v,u,w)$ for $u,v\in \mathbb{R}^d$ and $w\in \mathbb{R}^k$ を考える。
アクティベーション関数も実際にはほとんど使われないので、この基準に従って ``seagull'' 偶数アクティベーション関数 $\log(1+x^2)$ を設計した。
局所的な滑らかさ、曲率、交換性の程度が異なる2ダース以上の9-25次元の例に対する実証実験により、既に精製されたニューラルネットワークにおける 'seagull'' の活性化関数への簡単な置換が、誤差のオーダー・オブ・マグニチュード低減につながることが判明した。
この改善は、交換可能な変数が最初に接続された層にアクティベーション関数置換を適用した時に最も顕著であった。
CIFAR10画像分類データセットでは,「seagull'」を用いた場合,高次元の場合においても誤差を低減できることが示された。
これらの結果は、ニューラルネットワークの性能を改善する一般的なアプローチとして、アクティベーション関数をカスタマイズする可能性を強調している。
関連論文リスト
- TSSR: A Truncated and Signed Square Root Activation Function for Neural
Networks [5.9622541907827875]
我々は、Trncated and Signed Square Root (TSSR) 関数と呼ばれる新しいアクティベーション関数を導入する。
この関数は奇数、非線形、単調、微分可能であるため特異である。
ニューラルネットワークの数値安定性を改善する可能性がある。
論文 参考訳(メタデータ) (2023-08-09T09:40:34Z) - STL: A Signed and Truncated Logarithm Activation Function for Neural
Networks [5.9622541907827875]
活性化関数はニューラルネットワークにおいて重要な役割を果たす。
本稿では,アクティベーション関数として符号付きおよび切り離された対数関数を提案する。
提案された活性化関数は、広範囲のニューラルネットワークに適用できる。
論文 参考訳(メタデータ) (2023-07-31T03:41:14Z) - Promises and Pitfalls of the Linearized Laplace in Bayesian Optimization [73.80101701431103]
線形化ラプラス近似(LLA)はベイズニューラルネットワークの構築に有効で効率的であることが示されている。
ベイズ最適化におけるLLAの有用性について検討し,その性能と柔軟性を強調した。
論文 参考訳(メタデータ) (2023-04-17T14:23:43Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Neural Estimation of Submodular Functions with Applications to
Differentiable Subset Selection [50.14730810124592]
サブモジュール関数と変種は、多様性とカバレッジを特徴付ける能力を通じて、データ選択と要約のための重要なツールとして登場した。
本稿では,モノトーンおよび非モノトーン部分モジュラー関数のためのフレキシブルニューラルネットワークであるFLEXSUBNETを提案する。
論文 参考訳(メタデータ) (2022-10-20T06:00:45Z) - Transformers with Learnable Activation Functions [63.98696070245065]
我々は、Rational Activation Function (RAF) を用いて、入力データに基づいてトレーニング中の最適なアクティベーション関数を学習する。
RAFは、学習されたアクティベーション関数に従って事前学習されたモデルを分析し、解釈するための新しい研究方向を開く。
論文 参考訳(メタデータ) (2022-08-30T09:47:31Z) - Consensus Function from an $L_p^q-$norm Regularization Term for its Use
as Adaptive Activation Functions in Neural Networks [0.0]
本稿では,学習過程においてその形状に適応する暗黙的,パラメトリックな非線形活性化関数の定義と利用を提案する。
この事実は、ネットワーク内で最適化するパラメータの空間を増大させるが、柔軟性を高め、ニューラルネットワークの概念を一般化する。
予備的な結果は、この種の適応的アクティベーション関数によるニューラルネットワークの使用は、回帰や分類の例における誤差を減少させることを示している。
論文 参考訳(メタデータ) (2022-06-30T04:48:14Z) - Learning Bayesian Sparse Networks with Full Experience Replay for
Continual Learning [54.7584721943286]
継続学習(CL)手法は、機械学習モデルが、以前にマスターされたタスクを壊滅的に忘れることなく、新しいタスクを学習できるようにすることを目的としている。
既存のCLアプローチは、しばしば、事前に確認されたサンプルのバッファを保持し、知識蒸留を行い、あるいはこの目標に向けて正規化技術を使用する。
我々は,現在および過去のタスクを任意の段階で学習するために,スパースニューロンのみを活性化し,選択することを提案する。
論文 参考訳(メタデータ) (2022-02-21T13:25:03Z) - Graph-adaptive Rectified Linear Unit for Graph Neural Networks [64.92221119723048]
グラフニューラルネットワーク(GNN)は、従来の畳み込みを非ユークリッドデータでの学習に拡張することで、目覚ましい成功を収めた。
本稿では,周辺情報を利用した新しいパラメトリックアクティベーション機能であるグラフ適応整流線形ユニット(GRELU)を提案する。
我々は,GNNのバックボーンと様々な下流タスクによって,プラグアンドプレイGRELU法が効率的かつ効果的であることを示す包括的実験を行った。
論文 参考訳(メタデータ) (2022-02-13T10:54:59Z) - Growing Cosine Unit: A Novel Oscillatory Activation Function That Can
Speedup Training and Reduce Parameters in Convolutional Neural Networks [0.1529342790344802]
畳み込みニューラルネットワークは多くの社会的に重要で経済的に重要な問題を解くことに成功した。
ディープネットワークのトレーニングを可能にする重要な発見は、Rectified Linear Unit (ReLU) アクティベーション機能の採用であった。
新しい活性化関数 C(z) = z cos z は様々なアーキテクチャ上で Sigmoids, Swish, Mish, ReLU より優れる。
論文 参考訳(メタデータ) (2021-08-30T01:07:05Z) - A Use of Even Activation Functions in Neural Networks [0.35172332086962865]
本稿では,データ構造に関する既存の知識や仮説を統合するために,独自のアクティベーション関数を構築する方法を提案する。
完全に接続されたレイヤの1つで偶発的なアクティベーション関数を使用することで、ニューラルネットワークの性能が向上することを示す。
論文 参考訳(メタデータ) (2020-11-23T20:33:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。