論文の概要: Linear Oscillation: A Novel Activation Function for Vision Transformer
- arxiv url: http://arxiv.org/abs/2308.13670v2
- Date: Tue, 26 Sep 2023 23:21:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-28 18:49:11.339562
- Title: Linear Oscillation: A Novel Activation Function for Vision Transformer
- Title(参考訳): リニア振動:視覚トランスフォーマのための新しい活性化機能
- Authors: Juyoung Yun
- Abstract要約: 線形振動(LoC)活性化関数を$f(x) = x times sin(alpha x + beta)$と定義する。
非線型性を主に導入する従来の活性化関数とは違い、LoCは線形軌道と振動偏差をシームレスにブレンドする。
私たちの経験的研究によると、多様なニューラルネットワークに組み込むと、LoCアクティベーション機能は、ReLUやSigmoidといった確立したアーキテクチャよりも一貫して優れています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Activation functions are the linchpins of deep learning, profoundly
influencing both the representational capacity and training dynamics of neural
networks. They shape not only the nature of representations but also optimize
convergence rates and enhance generalization potential. Appreciating this
critical role, we present the Linear Oscillation (LoC) activation function,
defined as $f(x) = x \times \sin(\alpha x + \beta)$. Distinct from conventional
activation functions which primarily introduce non-linearity, LoC seamlessly
blends linear trajectories with oscillatory deviations. The nomenclature
"Linear Oscillation" is a nod to its unique attribute of infusing linear
activations with harmonious oscillations, capturing the essence of the
"Importance of Confusion". This concept of "controlled confusion" within
network activations is posited to foster more robust learning, particularly in
contexts that necessitate discerning subtle patterns. Our empirical studies
reveal that, when integrated into diverse neural architectures, the LoC
activation function consistently outperforms established counterparts like ReLU
and Sigmoid. The stellar performance exhibited by the avant-garde Vision
Transformer model using LoC further validates its efficacy. This study
illuminates the remarkable benefits of the LoC over other prominent activation
functions. It champions the notion that intermittently introducing deliberate
complexity or "confusion" during training can spur more profound and nuanced
learning. This accentuates the pivotal role of judiciously selected activation
functions in shaping the future of neural network training.
- Abstract(参考訳): 活性化関数はディープラーニングのリンチピンであり、ニューラルネットワークの表現能力とトレーニングダイナミクスの両方に大きな影響を及ぼす。
それらは表現の性質だけでなく、収束率を最適化し、一般化ポテンシャルを高める。
この重要な役割を評価し、$f(x) = x \times \sin(\alpha x + \beta)$と定義される線形振動(LoC)活性化関数を示す。
非線型性を主に導入する従来の活性化関数とは異なり、LoCは線形軌道と振動偏差をシームレスにブレンドする。
形容詞「線形振動」は、線形活性化と調和振動を融合させ、「混乱の親和性」の本質を捉えたユニークな特徴である。
ネットワークアクティベーション内の"制御された混乱"というこの概念は、より強固な学習、特に微妙なパターンを識別する必要のある文脈を促進することを実証している。
実験の結果,様々なニューラルアーキテクチャに統合された場合,locアクティベーション関数は,reluやsgmoidといった確立されたものよりも一貫して優れていることが明らかとなった。
LoCを用いたアバンギャルドビジョントランスモデルで示された恒星の性能は、その有効性をさらに検証する。
本研究は、他の顕著な活性化機能に対するLoCの顕著な利点を照らす。
トレーニング中に意図的な複雑さや「融合」を断続的に導入することで、より深く、ニュアンスのある学習を促すという考えを擁護する。
これは、ニューラルネットワークトレーニングの未来を形作る上で、公平に選択されたアクティベーション関数の重要な役割を強調する。
関連論文リスト
- Sparsing Law: Towards Large Language Models with Greater Activation Sparsity [62.09617609556697]
活性化空間性は、除去できる活性化出力の中に、かなり弱い分散要素が存在することを表す。
PPL-$p%$ sparsity, a accurate and performance-aware activation sparsity metric。
我々は、SiLUよりも活性化関数としてReLUが効率的であることを示し、より多くのトレーニングデータを利用してアクティベーション空間を改善することができることを示した。
論文 参考訳(メタデータ) (2024-11-04T17:59:04Z) - TSSR: A Truncated and Signed Square Root Activation Function for Neural
Networks [5.9622541907827875]
我々は、Trncated and Signed Square Root (TSSR) 関数と呼ばれる新しいアクティベーション関数を導入する。
この関数は奇数、非線形、単調、微分可能であるため特異である。
ニューラルネットワークの数値安定性を改善する可能性がある。
論文 参考訳(メタデータ) (2023-08-09T09:40:34Z) - ENN: A Neural Network with DCT Adaptive Activation Functions [2.2713084727838115]
離散コサイン変換(DCT)を用いて非線形活性化関数をモデル化する新しいモデルであるExpressive Neural Network(ENN)を提案する。
このパラメータ化は、トレーニング可能なパラメータの数を低く保ち、勾配ベースのスキームに適合し、異なる学習タスクに適応する。
ENNのパフォーマンスは、いくつかのシナリオにおいて40%以上の精度のギャップを提供する、アートベンチマークの状態を上回ります。
論文 参考訳(メタデータ) (2023-07-02T21:46:30Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Evaluating CNN with Oscillatory Activation Function [0.0]
画像から高次元の複雑な特徴を学習できるCNNは、アクティベーション関数によって導入された非線形性である。
本稿では、発振活性化関数(GCU)と、ReLu、PReLu、Mishなどの一般的なアクティベーション関数を用いて、MNISTおよびCIFAR10データセット上でのCNNアーキテクチャALexNetの性能について検討する。
論文 参考訳(メタデータ) (2022-11-13T11:17:13Z) - Transformers with Learnable Activation Functions [63.98696070245065]
我々は、Rational Activation Function (RAF) を用いて、入力データに基づいてトレーニング中の最適なアクティベーション関数を学習する。
RAFは、学習されたアクティベーション関数に従って事前学習されたモデルを分析し、解釈するための新しい研究方向を開く。
論文 参考訳(メタデータ) (2022-08-30T09:47:31Z) - Wasserstein Flow Meets Replicator Dynamics: A Mean-Field Analysis of Representation Learning in Actor-Critic [137.04558017227583]
ニューラルネットワークによって強化されたアクター・クリティカル(AC)アルゴリズムは、近年、かなりの成功を収めている。
我々は,特徴量に基づくニューラルACの進化と収束について,平均場の観点から考察する。
神経性交流は,大域的最適政策をサブ線形速度で求める。
論文 参考訳(メタデータ) (2021-12-27T06:09:50Z) - Growing Cosine Unit: A Novel Oscillatory Activation Function That Can
Speedup Training and Reduce Parameters in Convolutional Neural Networks [0.1529342790344802]
畳み込みニューラルネットワークは多くの社会的に重要で経済的に重要な問題を解くことに成功した。
ディープネットワークのトレーニングを可能にする重要な発見は、Rectified Linear Unit (ReLU) アクティベーション機能の採用であった。
新しい活性化関数 C(z) = z cos z は様々なアーキテクチャ上で Sigmoids, Swish, Mish, ReLU より優れる。
論文 参考訳(メタデータ) (2021-08-30T01:07:05Z) - Going Beyond Linear RL: Sample Efficient Neural Function Approximation [76.57464214864756]
2層ニューラルネットワークによる関数近似について検討する。
この結果は線形(あるいは可溶性次元)法で達成できることを大幅に改善する。
論文 参考訳(メタデータ) (2021-07-14T03:03:56Z) - Activation function design for deep networks: linearity and effective
initialisation [10.108857371774977]
先行作業で特定された初期化時の2つの問題を回避する方法を検討する。
これらの問題は, 原点付近に十分に大きな線形領域を持つ活性化関数を選択することで, どちらも回避できることを示す。
論文 参考訳(メタデータ) (2021-05-17T11:30:46Z) - Can Temporal-Difference and Q-Learning Learn Representation? A Mean-Field Theory [110.99247009159726]
時間差とQ-ラーニングは、ニューラルネットワークのような表現力のある非線形関数近似器によって強化される深層強化学習において重要な役割を担っている。
特に時間差学習は、関数近似器が特徴表現において線形であるときに収束する。
論文 参考訳(メタデータ) (2020-06-08T17:25:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。