論文の概要: The Mathematical Relationship Between Layer Normalization and Dynamic Activation Functions
- arxiv url: http://arxiv.org/abs/2503.21708v2
- Date: Mon, 31 Mar 2025 12:10:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 13:14:21.807964
- Title: The Mathematical Relationship Between Layer Normalization and Dynamic Activation Functions
- Title(参考訳): 層正規化と動的活性化関数の数学的関係
- Authors: Felix Stollenwerk,
- Abstract要約: 最近の論文では、レイヤ正規化(LN)のドロップイン代替としてDynamic Tanh (DyT)を提案する。
我々は,層正規化と動的活性化関数の関係に光を当てた。
- 参考スコア(独自算出の注目度): 0.6798775532273751
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A recent paper proposes Dynamic Tanh (DyT) as a drop-in replacement for layer normalization (LN). Although the method is empirically well-motivated and appealing from a practical point of view, it lacks a theoretical foundation. In this work, we shed light on the mathematical relationship between layer normalization and dynamic activation functions. In particular, we derive DyT from LN and show that a well-defined approximation is needed to do so. By dropping said approximation, an alternative activation function is obtained, which we call Dynamic Inverse Square Root Unit (DyISRU). DyISRU is the exact counterpart of layer normalization, and we demonstrate numerically that it indeed resembles LN more accurately than DyT does.
- Abstract(参考訳): 最近の論文では、レイヤ正規化(LN)のドロップイン代替としてDynamic Tanh (DyT)を提案する。
この手法は実証的によく動機付けられ、実際的な観点からは魅力的であるが、理論的な基礎は欠如している。
本研究では, 層正規化と動的アクティベーション関数の数学的関係に光を当てる。
特に、LN から DyT を導出し、適切に定義された近似が必要であることを示す。
この近似を下げることで、動的逆正方根ユニット (Dynamic Inverse Square Root Unit, DyISRU) と呼ばれる別のアクティベーション関数が得られる。
DyISRUは層正規化の正反対であり、DyTよりも正確にLNに類似していることが数値的に証明されている。
関連論文リスト
- Extension of Symmetrized Neural Network Operators with Fractional and Mixed Activation Functions [0.0]
本稿では, 分数および混合活性化関数を組み込むことにより, 対称性を持つニューラルネットワーク演算子への新たな拡張を提案する。
本フレームワークでは、アクティベーション関数に分数指数を導入し、適応的な非線形近似を精度良く実現する。
論文 参考訳(メタデータ) (2025-01-17T14:24:25Z) - Partial-differential-algebraic equations of nonlinear dynamics by Physics-Informed Neural-Network: (I) Operator splitting and framework assessment [51.3422222472898]
偏微分代数方程式の解法として, 新規な物理情報ネットワーク(PINN)の構築法が提案されている。
これらの新しい手法には PDE 形式があり、これは未知の従属変数が少ない低レベル形式からより従属変数を持つ高レベル形式へと進化している。
論文 参考訳(メタデータ) (2024-07-13T22:48:17Z) - BrowNNe: Brownian Nonlocal Neurons & Activation Functions [0.0]
低トレーニングデータにおけるブラウンニューラルアクティベーション関数がReLUに勝っていることを示す。
本実験は,低トレーニングデータにおけるブラウン神経活性化機能の優れた機能を示す。
論文 参考訳(メタデータ) (2024-06-21T19:40:30Z) - On Learning Gaussian Multi-index Models with Gradient Flow [57.170617397894404]
高次元ガウスデータに対する多次元回帰問題の勾配流について検討する。
低階射影をパラメトリする部分空間よりも、非パラメトリックモデルで低次元リンク関数を無限に高速に学習する2時間スケールのアルゴリズムを考える。
論文 参考訳(メタデータ) (2023-10-30T17:55:28Z) - Towards Training Without Depth Limits: Batch Normalization Without
Gradient Explosion [83.90492831583997]
バッチ正規化ネットワークは,信号伝搬特性を最適に保ちつつ,爆発的な勾配を回避することができることを示す。
線形アクティベーションとバッチ正規化を備えた多層パーセプトロン(MLP)を用いて,有界深度を実証する。
また、ある非線形活性化に対して同じ特性を経験的に達成する活性化整形法を設計する。
論文 参考訳(メタデータ) (2023-10-03T12:35:02Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - D4FT: A Deep Learning Approach to Kohn-Sham Density Functional Theory [79.50644650795012]
コーンシャム密度汎関数論(KS-DFT)を解くための深層学習手法を提案する。
このような手法はSCF法と同じ表現性を持つが,計算複雑性は低下する。
さらに,本手法により,より複雑なニューラルベース波動関数の探索が可能となった。
論文 参考訳(メタデータ) (2023-03-01T10:38:10Z) - Geometric Clifford Algebra Networks [53.456211342585824]
本稿では,動的システムのモデリングのためのGeometric Clifford Algebra Networks (GCANs)を提案する。
GCANは幾何学的(クリフォード)代数を用いた対称性群変換に基づいている。
論文 参考訳(メタデータ) (2023-02-13T18:48:33Z) - Convex Analysis of the Mean Field Langevin Dynamics [49.66486092259375]
平均場ランゲヴィン力学の収束速度解析について述べる。
ダイナミックスに付随する$p_q$により、凸最適化において古典的な結果と平行な収束理論を開発できる。
論文 参考訳(メタデータ) (2022-01-25T17:13:56Z) - Last-Iterate Convergence of Saddle-Point Optimizers via High-Resolution
Differential Equations [83.3201889218775]
広く使われている1次サドル点最適化法は、帰納的導出時に同一の連続時間常微分方程式(ODE)を導出する。
しかし、これらの方法の収束特性は、単純な双線型ゲームでさえ質的に異なる。
いくつかのサドル点最適化法のための微分方程式モデルの設計に流体力学の研究フレームワークを採用する。
論文 参考訳(メタデータ) (2021-12-27T18:31:34Z) - Model based Multi-agent Reinforcement Learning with Tensor
Decompositions [52.575433758866936]
本稿では、CPランクの低いテンソルとして遷移関数と報酬関数をモデル化することにより、未探索の状態-作用対上の状態-作用空間の一般化を考察する。
合成MDPの実験により、モデルに基づく強化学習アルゴリズムでテンソル分解を用いることで、真の遷移関数と報酬関数が実際に低ランクである場合、はるかに高速な収束が得られることが示された。
論文 参考訳(メタデータ) (2021-10-27T15:36:25Z) - Active Learning for Transition State Calculation [3.399187058548169]
遷移状態 (TS) の計算は、計算集約エネルギー関数にとって大きな課題である。
真の勾配の高価な計算量を減らすために,能動的学習フレームワークを提案する。
提案手法は, 原モデルの必要エネルギー数や力量評価を著しく削減することを示す。
論文 参考訳(メタデータ) (2021-08-10T13:57:31Z) - Implicit Regularization in Deep Tensor Factorization [0.0]
完了タスクに対処するために,deep tucker と tt unconstrained factorization を導入する。
合成データと実データの両方の実験は、勾配降下が低ランクの溶液を促進することを示している。
論文 参考訳(メタデータ) (2021-05-04T07:48:40Z) - Orthogonalizing Convolutional Layers with the Cayley Transform [83.73855414030646]
直交に制約された畳み込み層をパラメータ化するための代替手法を提案し,評価する。
本手法は,大規模畳み込みにおいても直交性が高次に保たれることを示す。
論文 参考訳(メタデータ) (2021-04-14T23:54:55Z) - Power Normalizations in Fine-grained Image, Few-shot Image and Graph
Classification [38.84294567166725]
深層学習におけるパワーノーマリゼーション(PN)を,新たなPN層プール機能マップを用いて検討する。
2つのポピュラーなPN関数であるMaxExpとGammaの役割と意味を調べます。
自己相関/共分散行列上のSPNとグラフラプラシア行列上の熱拡散過程(HDP)が密接に関連していることを示す。
論文 参考訳(メタデータ) (2020-12-27T17:06:06Z) - Evolving Normalization-Activation Layers [100.82879448303805]
我々は、うまく機能しない候補層を迅速にフィルタリングする効率的な拒絶プロトコルを開発した。
EvoNormsは、新しい正規化活性化層であり、新しい構造を持ち、時には驚くべき構造を持つ。
我々の実験は、EvoNormsがResNets、MobileNets、EfficientNetsなどの画像分類モデルでうまく機能していることを示している。
論文 参考訳(メタデータ) (2020-04-06T19:52:48Z) - Invertible Generative Modeling using Linear Rational Splines [11.510009152620666]
正規化フローは、可逆写像の集合を通して任意の確率分布をモデル化しようとする。
最初のフロー設計ではアフィン変換に基づく結合層マッピングが用いられた。
アフィン変換の代替として機能するイントレピッドは注目されている。
論文 参考訳(メタデータ) (2020-01-15T08:05:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。