論文の概要: The Mathematical Relationship Between Layer Normalization and Dynamic Activation Functions
- arxiv url: http://arxiv.org/abs/2503.21708v2
- Date: Mon, 31 Mar 2025 12:10:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 11:09:29.768947
- Title: The Mathematical Relationship Between Layer Normalization and Dynamic Activation Functions
- Title(参考訳): 層正規化と動的活性化関数の数学的関係
- Authors: Felix Stollenwerk,
- Abstract要約: 最近の論文では、レイヤ正規化(LN)のドロップイン代替としてDynamic Tanh (DyT)を提案する。
我々は,層正規化と動的活性化関数の関係に光を当てた。
- 参考スコア(独自算出の注目度): 0.6798775532273751
- License:
- Abstract: A recent paper proposes Dynamic Tanh (DyT) as a drop-in replacement for layer normalization (LN). Although the method is empirically well-motivated and appealing from a practical point of view, it lacks a theoretical foundation. In this work, we shed light on the mathematical relationship between layer normalization and dynamic activation functions. In particular, we derive DyT from LN and show that a well-defined approximation is needed to do so. By dropping said approximation, an alternative activation function is obtained, which we call Dynamic Inverse Square Root Unit (DyISRU). DyISRU is the exact counterpart of layer normalization, and we demonstrate numerically that it indeed resembles LN more accurately than DyT does.
- Abstract(参考訳): 最近の論文では、レイヤ正規化(LN)のドロップイン代替としてDynamic Tanh (DyT)を提案する。
この手法は実証的によく動機付けられ、実際的な観点からは魅力的であるが、理論的な基礎は欠如している。
本研究では, 層正規化と動的アクティベーション関数の数学的関係に光を当てる。
特に、LN から DyT を導出し、適切に定義された近似が必要であることを示す。
この近似を下げることで、動的逆正方根ユニット (Dynamic Inverse Square Root Unit, DyISRU) と呼ばれる別のアクティベーション関数が得られる。
DyISRUは層正規化の正反対であり、DyTよりも正確にLNに類似していることが数値的に証明されている。
関連論文リスト
- Partial-differential-algebraic equations of nonlinear dynamics by Physics-Informed Neural-Network: (I) Operator splitting and framework assessment [51.3422222472898]
偏微分代数方程式の解法として, 新規な物理情報ネットワーク(PINN)の構築法が提案されている。
これらの新しい手法には PDE 形式があり、これは未知の従属変数が少ない低レベル形式からより従属変数を持つ高レベル形式へと進化している。
論文 参考訳(メタデータ) (2024-07-13T22:48:17Z) - Towards Training Without Depth Limits: Batch Normalization Without
Gradient Explosion [83.90492831583997]
バッチ正規化ネットワークは,信号伝搬特性を最適に保ちつつ,爆発的な勾配を回避することができることを示す。
線形アクティベーションとバッチ正規化を備えた多層パーセプトロン(MLP)を用いて,有界深度を実証する。
また、ある非線形活性化に対して同じ特性を経験的に達成する活性化整形法を設計する。
論文 参考訳(メタデータ) (2023-10-03T12:35:02Z) - Geometric Clifford Algebra Networks [53.456211342585824]
本稿では,動的システムのモデリングのためのGeometric Clifford Algebra Networks (GCANs)を提案する。
GCANは幾何学的(クリフォード)代数を用いた対称性群変換に基づいている。
論文 参考訳(メタデータ) (2023-02-13T18:48:33Z) - On Robust Learning from Noisy Labels: A Permutation Layer Approach [53.798757734297986]
本稿では、深層ニューラルネットワーク(DNN)のトレーニング過程を動的に校正するPermLLと呼ばれる置換層学習手法を提案する。
本稿では,PermLLの2つの変種について述べる。一方はモデルの予測に置換層を適用し,他方は与えられた雑音ラベルに直接適用する。
我々はPermLLを実験的に検証し、実際のデータセットと合成データセットの両方で最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2022-11-29T03:01:48Z) - Implicit Regularization in Deep Tensor Factorization [0.0]
完了タスクに対処するために,deep tucker と tt unconstrained factorization を導入する。
合成データと実データの両方の実験は、勾配降下が低ランクの溶液を促進することを示している。
論文 参考訳(メタデータ) (2021-05-04T07:48:40Z) - Orthogonalizing Convolutional Layers with the Cayley Transform [83.73855414030646]
直交に制約された畳み込み層をパラメータ化するための代替手法を提案し,評価する。
本手法は,大規模畳み込みにおいても直交性が高次に保たれることを示す。
論文 参考訳(メタデータ) (2021-04-14T23:54:55Z) - An Integer Approximation Method for Discrete Sinusoidal Transforms [0.0]
本稿では,離散フーリエ,ハートレー,コサイン変換(DFT,DHT,DCT)の整数変換のクラスを提案し,解析する。
提案手法は一般にいくつかのブロック長に適用できるが、既存の手法は通常、特定の変換サイズに特化している。
DFT, DHT, DCTに対する新しい8点2乗波近似変換も, 提案手法の特別な場合として導入されている。
論文 参考訳(メタデータ) (2020-07-05T03:37:35Z) - On Layer Normalization in the Transformer Architecture [112.40350994368741]
まず,学習速度のウォームアップが重要である理由を理論的に検討し,レイヤー正規化の位置が重要であることを示す。
ウォームアップステージのないPre-LNトランスフォーマーはベースラインと同等の結果が得られることを示す。
論文 参考訳(メタデータ) (2020-02-12T00:33:03Z) - Invertible Generative Modeling using Linear Rational Splines [11.510009152620666]
正規化フローは、可逆写像の集合を通して任意の確率分布をモデル化しようとする。
最初のフロー設計ではアフィン変換に基づく結合層マッピングが用いられた。
アフィン変換の代替として機能するイントレピッドは注目されている。
論文 参考訳(メタデータ) (2020-01-15T08:05:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。