論文の概要: The Affine Divergence: Aligning Activation Updates Beyond Normalisation
- arxiv url: http://arxiv.org/abs/2512.22247v1
- Date: Wed, 24 Dec 2025 00:31:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:29.92933
- Title: The Affine Divergence: Aligning Activation Updates Beyond Normalisation
- Title(参考訳): Affine Divergence: 正常化を超えたアクティベーションアップデート
- Authors: George Bird,
- Abstract要約: 勾配降下時の数学的理想と効果的なアクティベーション更新の間には、体系的なミスマッチが存在する。
正規化はパラメータ化スケーリングによるアクティベーション関数のような写像の方が優れており、最適化時の表現の優先順位付けを支援することが主張されている。
これは、経験的に検証されたいくつかの新しい関数を導き、モデル生成に対するアフィン+非線形アプローチに関する疑問を提起する理論原理的なアプローチを構成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A systematic mismatch exists between mathematically ideal and effective activation updates during gradient descent. As intended, parameters update in their direction of steepest descent. However, activations are argued to constitute a more directly impactful quantity to prioritise in optimisation, as they are closer to the loss in the computational graph and carry sample-dependent information through the network. Yet their propagated updates do not take the optimal steepest-descent step. These quantities exhibit non-ideal sample-wise scaling across affine, convolutional, and attention layers. Solutions to correct for this are trivial and, entirely incidentally, derive normalisation from first principles despite motivational independence. Consequently, such considerations offer a fresh and conceptual reframe of normalisation's action, with auxiliary experiments bolstering this mechanistically. Moreover, this analysis makes clear a second possibility: a solution that is functionally distinct from modern normalisations, without scale-invariance, yet remains empirically successful, outperforming conventional normalisers across several tests. This is presented as an alternative to the affine map. This generalises to convolution via a new functional form, "PatchNorm", a compositionally inseparable normaliser. Together, these provide an alternative mechanistic framework that adds to, and counters some of, the discussion of normalisation. Further, it is argued that normalisers are better decomposed into activation-function-like maps with parameterised scaling, thereby aiding the prioritisation of representations during optimisation. Overall, this constitutes a theoretical-principled approach that yields several new functions that are empirically validated and raises questions about the affine + nonlinear approach to model creation.
- Abstract(参考訳): 勾配降下時の数学的理想と効果的なアクティベーション更新の間には、体系的なミスマッチが存在する。
意図されたように、パラメータは最も急降下する方向に更新される。
しかしながら、アクティベーションは、計算グラフの損失に近づき、ネットワークを介してサンプル依存情報を運ぶため、最適化において優先されるよりも直接的に影響のある量である、と論じられている。
しかし、彼らのプロパゲーションアップデートは、最適の急勾配のステップを踏まない。
これらの量は、アフィン、畳み込み、および注意層を横断する非理想的なサンプルワイドスケーリングを示す。
これを修正する解決策は自明であり、完全に偶然に、モチベーション的な独立性にもかかわらず第一原則から正規化を導出します。
その結果、そのような考察は正規化の行動の新しく概念的な再編成をもたらし、補助的な実験によってこの機構が強化された。
さらに、この分析は2つ目の可能性を明確にしている: スケール不変性のない現代的な正規化とは機能的に異なる解は、実験的に成功し、いくつかのテストで従来の正規化よりも優れている。
これはアフィン写像の代替として提示される。
これは、合成的に分離不能な正規化器である新しい関数形式である"PatchNorm"を通じて畳み込みを一般化する。
これらが組み合わさって、正規化に関する議論を加味し、それに対抗する代替の力学フレームワークを提供する。
さらに、正規化はパラメータ化スケーリングで活性化関数のような写像に分解され、最適化時の表現の優先順位付けを支援することが議論されている。
全体として、これはいくつかの新しい関数を経験的に検証し、モデル生成に対するアフィン+非線形アプローチに関する疑問を提起する理論原理のアプローチを構成する。
関連論文リスト
- Variational Deep Learning via Implicit Regularization [11.296548737163599]
現代のディープラーニングモデルは、過度にパラメータ化され、明示的な正規化をほとんど、あるいは全く行わずに訓練されているにもかかわらず、非常によく分布する。
本稿では,(確率的な)勾配勾配の暗黙バイアスにのみ依存して,変分ニューラルネットワークの正規化を提案する。
論文 参考訳(メタデータ) (2025-05-26T17:15:57Z) - Good regularity creates large learning rate implicit biases: edge of
stability, balancing, and catapult [49.8719617899285]
非最適化のための客観的降下に適用された大きな学習速度は、安定性の端を含む様々な暗黙のバイアスをもたらす。
この論文は降下の初期段階を示し、これらの暗黙の偏見が実際には同じ氷山であることを示す。
論文 参考訳(メタデータ) (2023-10-26T01:11:17Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - PAC-Chernoff Bounds: Understanding Generalization in the Interpolation Regime [6.645111950779666]
本稿では,補間器の完全密度を示す分布依存型PAC-Chernoff境界を提案する。
我々は、ある補間子がなぜ例外的な一般化を示すのかを示す統一的な理論的枠組みを提示する。
論文 参考訳(メタデータ) (2023-06-19T14:07:10Z) - Matrix Completion via Non-Convex Relaxation and Adaptive Correlation
Learning [90.8576971748142]
閉形式解によって最適化できる新しいサロゲートを開発する。
そこで我々は, 上向きの相関関係を利用して, 適応的相関学習モデルを構築した。
論文 参考訳(メタデータ) (2022-03-04T08:50:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。