論文の概要: VeLU: Variance-enhanced Learning Unit for Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2504.15051v1
- Date: Mon, 21 Apr 2025 12:20:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 16:36:50.400405
- Title: VeLU: Variance-enhanced Learning Unit for Deep Neural Networks
- Title(参考訳): VeLU: ディープニューラルネットワークのための分散強化学習ユニット
- Authors: Ashkan Shakarami, Yousef Yeganeh, Azade Farshad, Lorenzo Nicolè, Stefano Ghidoni, Nassir Navab,
- Abstract要約: 入力分散に基づいてスケールするアクティベーション関数としてVeLUを提案する。
VeLUは6つのビジョンベンチマークでReLU、ReLU6、Swish、GELUより優れている。
- 参考スコア(独自算出の注目度): 38.363465138060086
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Activation functions are fundamental in deep neural networks and directly impact gradient flow, optimization stability, and generalization. Although ReLU remains standard because of its simplicity, it suffers from vanishing gradients and lacks adaptability. Alternatives like Swish and GELU introduce smooth transitions, but fail to dynamically adjust to input statistics. We propose VeLU, a Variance-enhanced Learning Unit as an activation function that dynamically scales based on input variance by integrating ArcTan-Sin transformations and Wasserstein-2 regularization, effectively mitigating covariate shifts and stabilizing optimization. Extensive experiments on ViT_B16, VGG19, ResNet50, DenseNet121, MobileNetV2, and EfficientNetB3 confirm VeLU's superiority over ReLU, ReLU6, Swish, and GELU on six vision benchmarks. The codes of VeLU are publicly available on GitHub.
- Abstract(参考訳): 活性化関数はディープニューラルネットワークの基本であり、勾配流、最適化安定性、一般化に直接影響する。
ReLUは単純さのために標準のままだが、勾配が消え、適応性に欠ける。
SwishやGELUのような代替手段はスムーズな遷移を導入するが、入力統計に動的に適応することができない。
本稿では、ArcTan-Sin変換とWasserstein-2正規化を統合し、コバリアレートシフトを効果的に軽減し、最適化を安定化することにより、入力分散に基づいて動的にスケールするアクティベーション関数として、分散強化学習ユニットVeLUを提案する。
ViT_B16、VGG19、ResNet50、DenseNet121、MobileNetV2、EfficientNetB3の広範な実験により、VeLUは6つのビジョンベンチマークでReLU、ReLU6、Swish、GELUよりも優れていることが確認された。
VeLUのコードはGitHubで公開されている。
関連論文リスト
- Gompertz Linear Units: Leveraging Asymmetry for Enhanced Learning Dynamics [39.0860823332923]
GoLU は $mathrmGoLU(x) = x, MathrmGompertz(x)$, wheremathrmGompertz(x) = e-e-x$ と定義される新しい自己ゲート活性化関数である。
GoLUの最先端のアクティベーション関数に対する優れたパフォーマンスは、既存のアクティベーション関数に対する堅牢な代替として、GoLUを強調している。
論文 参考訳(メタデータ) (2025-02-05T22:32:22Z) - TeLU Activation Function for Fast and Stable Deep Learning [1.9116784879310025]
双曲型Tangent Exponential Linear Unit(TeLU)は、TeLU(x)=xtanh(exp(x))として定義されるニューラルネットワーク隠れ活性化関数である。
TeLUの設計はキーアクティベーション関数の中核原理に基づいており、強い収束を達成する。
我々の結果は、TeLUが活性化関数の新しい標準を設定する可能性を強調し、ディープニューラルネットワークにおけるより効率的で安定した学習を促進する。
論文 参考訳(メタデータ) (2024-12-28T20:50:08Z) - Zorro: A Flexible and Differentiable Parametric Family of Activation Functions That Extends ReLU and GELU [0.0]
過去30年間に400以上の関数が提案され、固定パラメータやトレーニング可能なパラメータが提案されているが、広く使われているのはごくわずかである。
本稿では、ReLUとSigmoidを融合した5つの主要な関数からなる連続微分可能で柔軟なファミリーであるZorroと呼ばれる新しいアクティベーション関数のセットを紹介する。
論文 参考訳(メタデータ) (2024-09-28T05:04:56Z) - Activation function optimization method: Learnable series linear units (LSLUs) [12.089173508371246]
LSLU (Learnable Series Linear Units) と呼ばれる直列学習可能なac-tivation関数を提案する。
この方法は、精度を向上しつつ、ディープラーニングネットワークを単純化する。
CIFAR10, CIFAR100および特定のタスクデータセット(例えばSilkworm)上でのLSLUの性能を評価する。
論文 参考訳(メタデータ) (2024-08-28T11:12:27Z) - A Non-monotonic Smooth Activation Function [4.269446061678759]
活性化関数は、ネットワークに非線形性を導入するため、ディープラーニングモデルにおいて不可欠である。
本研究では,非単調かつ滑らかな機能であるSqishと呼ばれる新しいアクティベーション関数を提案する。
分類,物体検出,セグメンテーションタスク,対向ロバストネス実験において,その優位性を示した。
論文 参考訳(メタデータ) (2023-10-16T07:09:47Z) - The Implicit Bias of Minima Stability in Multivariate Shallow ReLU
Networks [53.95175206863992]
本研究では,2次損失を持つ1層多変量ReLUネットワークをトレーニングする際に,勾配勾配勾配が収束する解のタイプについて検討する。
我々は、浅いReLUネットワークが普遍近似器であるにもかかわらず、安定した浅層ネットワークは存在しないことを証明した。
論文 参考訳(メタデータ) (2023-06-30T09:17:39Z) - GradInit: Learning to Initialize Neural Networks for Stable and
Efficient Training [59.160154997555956]
ニューラルネットワークを初期化するための自動化およびアーキテクチャ手法であるgradinitを提案する。
各ネットワーク層の分散は、SGDまたはAdamの単一ステップが最小の損失値をもたらすように調整される。
また、学習率のウォームアップを伴わずに、オリジナルのPost-LN Transformerを機械翻訳用にトレーニングすることもできる。
論文 参考訳(メタデータ) (2021-02-16T11:45:35Z) - GhostSR: Learning Ghost Features for Efficient Image Super-Resolution [49.393251361038025]
畳み込みニューラルネットワーク(CNN)に基づく単一の画像スーパーリゾリューション(SISR)システムは、膨大な計算コストを必要としながら派手なパフォーマンスを実現します。
SISRモデルの冗長な特徴(すなわちゴースト特徴)を生成するためにシフト演算を用いることを提案する。
提案モジュールに埋め込まれた非コンパクトかつ軽量なSISRモデルの両方が,ベースラインと同等の性能を発揮することを示す。
論文 参考訳(メタデータ) (2021-01-21T10:09:47Z) - Boosting Gradient for White-Box Adversarial Attacks [60.422511092730026]
そこで本研究では,ADV-ReLUと呼ばれる,勾配に基づくホワイトボックス攻撃アルゴリズムの性能向上を目的とした,汎用的な逆例生成手法を提案する。
提案手法では,損失関数とネットワーク入力の勾配を算出し,その値をスコアにマップし,その一部を選択して誤導勾配を更新する。
論文 参考訳(メタデータ) (2020-10-21T02:13:26Z) - Dynamic ReLU [74.973224160508]
本稿では、すべてのインプット要素上のハイパー関数によって生成されるパラメータの動的入力である動的ReLU(DY-ReLU)を提案する。
静的に比較すると、DY-ReLUは余分な計算コストは無視できるが、表現能力ははるかに高い。
単にDY-ReLUをMobileNetV2に使用することで、ImageNet分類のトップ-1の精度は72.0%から76.2%に向上し、追加のFLOPは5%に留まった。
論文 参考訳(メタデータ) (2020-03-22T23:45:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。