論文の概要: Activation function optimization method: Learnable series linear units (LSLUs)
- arxiv url: http://arxiv.org/abs/2409.08283v1
- Date: Wed, 28 Aug 2024 11:12:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-22 21:50:24.066694
- Title: Activation function optimization method: Learnable series linear units (LSLUs)
- Title(参考訳): アクティベーション関数最適化法:学習可能な直列線形単位(LSLU)
- Authors: Chuan Feng, Xi Lin, Shiping Zhu, Hongkang Shi, Maojie Tang, Hua Huang,
- Abstract要約: LSLU (Learnable Series Linear Units) と呼ばれる直列学習可能なac-tivation関数を提案する。
この方法は、精度を向上しつつ、ディープラーニングネットワークを単純化する。
CIFAR10, CIFAR100および特定のタスクデータセット(例えばSilkworm)上でのLSLUの性能を評価する。
- 参考スコア(独自算出の注目度): 12.089173508371246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effective activation functions introduce non-linear transformations, providing neural networks with stronger fitting capa-bilities, which help them better adapt to real data distributions. Huawei Noah's Lab believes that dynamic activation functions are more suitable than static activation functions for enhancing the non-linear capabilities of neural networks. Tsinghua University's related research also suggests using dynamically adjusted activation functions. Building on the ideas of using fine-tuned activation functions from Tsinghua University and Huawei Noah's Lab, we propose a series-based learnable ac-tivation function called LSLU (Learnable Series Linear Units). This method simplifies deep learning networks while im-proving accuracy. This method introduces learnable parameters {\theta} and {\omega} to control the activation function, adapting it to the current layer's training stage and improving the model's generalization. The principle is to increase non-linearity in each activation layer, boosting the network's overall non-linearity. We evaluate LSLU's performance on CIFAR10, CIFAR100, and specific task datasets (e.g., Silkworm), validating its effectiveness. The convergence behavior of the learnable parameters {\theta} and {\omega}, as well as their effects on generalization, are analyzed. Our empirical results show that LSLU enhances the general-ization ability of the original model in various tasks while speeding up training. In VanillaNet training, parameter {\theta} initially decreases, then increases before stabilizing, while {\omega} shows an opposite trend. Ultimately, LSLU achieves a 3.17% accuracy improvement on CIFAR100 for VanillaNet (Table 3). Codes are available at https://github.com/vontran2021/Learnable-series-linear-units-LSLU.
- Abstract(参考訳): 効果的なアクティベーション関数は非線形変換を導入し、より強力なキャパビリティを持つニューラルネットワークを提供し、実際のデータ分布に適応するのに役立つ。
Huawei Noah's Labは、動的アクティベーション関数は、ニューラルネットワークの非線形能力を高めるために静的アクティベーション関数よりも適していると考えている。
清華大学の関連研究も、動的に調節された活性化関数を使うことを示唆している。
清華大学とHuawei Noah's Labの微調整アクティベーション関数を利用するアイデアに基づいて,LSLU(Learnable Series Linear Units)と呼ばれる一連の学習可能なアクティベーション関数を提案する。
この方法は、精度を向上しつつ、ディープラーニングネットワークを単純化する。
この方法は、学習可能なパラメータ {\theta} と {\omega} を導入し、アクティベーション関数を制御し、それを現在のレイヤのトレーニング段階に適応させ、モデルの一般化を改善する。
原則は、各アクティベーション層における非線形性を高め、ネットワーク全体の非線形性を高めることである。
CIFAR10, CIFAR100および特定のタスクデータセット(例えばSilkworm)上でのLSLUの性能を評価し, その有効性を検証する。
学習可能なパラメータ {\theta} と {\omega} の収束挙動と一般化への影響を解析した。
実験の結果,LSLUはトレーニングを高速化しながら,様々なタスクにおいて,元のモデルの一般化能力を向上することが示された。
バニラネットのトレーニングでは、パラメータ {\theta} は最初減少し、安定化前に増加し、一方 {\omega} は反対の傾向を示す。
最終的にLSLUは、VanillaNetのCIFAR100で3.17%の精度向上を実現している(Table 3)。
コードはhttps://github.com/vontran2021/Learnable-series-linear-units-LSLUで公開されている。
関連論文リスト
- Kolmogorov-Arnold Transformer [72.88137795439407]
Kolmogorov-Arnold Transformer(KAT)は,階層をKAN(Kolmogorov-Arnold Network)層に置き換える新しいアーキテクチャである。
C1)基本関数,(C2)非効率,(C3)重みの3つの主要な課題を特定する。
これらの設計により、KATは従来のトランスフォーマーよりも優れている。
論文 参考訳(メタデータ) (2024-09-16T17:54:51Z) - APALU: A Trainable, Adaptive Activation Function for Deep Learning
Networks [0.0]
APALU(Adaptive piecewise approximated activation linear unit)を新たに導入する。
実験では、様々なタスクに広く使用されるアクティベーション関数よりも大幅に改善されている。
APALUは、限られたデータセットで手話認識タスクにおいて100%精度を達成する。
論文 参考訳(メタデータ) (2024-02-13T06:18:42Z) - ReLU$^2$ Wins: Discovering Efficient Activation Functions for Sparse
LLMs [91.31204876440765]
本稿では、ニューロンの出力の等級と調整された等級しきい値によってニューロンの活性化を定義する一般的な方法を提案する。
スパース計算における最も効率的なアクティベーション関数を見つけるために,本手法を提案する。
我々は、ReLU、SwiGLU、ReGLU、ReLU$2$といった異なるアクティベーション機能を利用したLCMの徹底的な実験を行う。
論文 参考訳(メタデータ) (2024-02-06T08:45:51Z) - A Non-monotonic Smooth Activation Function [4.269446061678759]
活性化関数は、ネットワークに非線形性を導入するため、ディープラーニングモデルにおいて不可欠である。
本研究では,非単調かつ滑らかな機能であるSqishと呼ばれる新しいアクティベーション関数を提案する。
分類,物体検出,セグメンテーションタスク,対向ロバストネス実験において,その優位性を示した。
論文 参考訳(メタデータ) (2023-10-16T07:09:47Z) - TaLU: A Hybrid Activation Function Combining Tanh and Rectified Linear
Unit to Enhance Neural Networks [1.3477333339913569]
TaLUはTanhとReLUを組み合わせた活性化機能である。
MNIST と CIFAR-10 の深層学習モデルについて検討した。
論文 参考訳(メタデータ) (2023-05-08T01:13:59Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Transformers with Learnable Activation Functions [63.98696070245065]
我々は、Rational Activation Function (RAF) を用いて、入力データに基づいてトレーニング中の最適なアクティベーション関数を学習する。
RAFは、学習されたアクティベーション関数に従って事前学習されたモデルを分析し、解釈するための新しい研究方向を開く。
論文 参考訳(メタデータ) (2022-08-30T09:47:31Z) - Graph-adaptive Rectified Linear Unit for Graph Neural Networks [64.92221119723048]
グラフニューラルネットワーク(GNN)は、従来の畳み込みを非ユークリッドデータでの学習に拡張することで、目覚ましい成功を収めた。
本稿では,周辺情報を利用した新しいパラメトリックアクティベーション機能であるグラフ適応整流線形ユニット(GRELU)を提案する。
我々は,GNNのバックボーンと様々な下流タスクによって,プラグアンドプレイGRELU法が効率的かつ効果的であることを示す包括的実験を行った。
論文 参考訳(メタデータ) (2022-02-13T10:54:59Z) - Learning specialized activation functions with the Piecewise Linear Unit [7.820667552233989]
本稿では, 注意深く設計した定式化学習法を組み込んだ, 区分線形単位 (pwlu) と呼ばれる新しい活性化関数を提案する。
特殊なアクティベーション機能を学び、ImageNetやCOCOなどの大規模データセットでSOTA性能を達成できます。
PWLUは推論時に実装も簡単で効率も良く、現実世界のアプリケーションにも広く適用できる。
論文 参考訳(メタデータ) (2021-04-08T11:29:11Z) - Trainable Activation Function in Image Classification [0.0]
本稿では、ディープニューラルネットワークにおいてアクティベーション機能をトレーニング可能にする方法について論じる。
アクティベーション関数を連続的に変動させる異なるアクティベーション関数の直列結合と線形結合を用いる。
論文 参考訳(メタデータ) (2020-04-28T03:50:53Z) - Dynamic ReLU [74.973224160508]
本稿では、すべてのインプット要素上のハイパー関数によって生成されるパラメータの動的入力である動的ReLU(DY-ReLU)を提案する。
静的に比較すると、DY-ReLUは余分な計算コストは無視できるが、表現能力ははるかに高い。
単にDY-ReLUをMobileNetV2に使用することで、ImageNet分類のトップ-1の精度は72.0%から76.2%に向上し、追加のFLOPは5%に留まった。
論文 参考訳(メタデータ) (2020-03-22T23:45:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。