論文の概要: The Affine Divergence: Aligning Activation Updates Beyond Normalisation
- arxiv url: http://arxiv.org/abs/2512.22247v1
- Date: Wed, 24 Dec 2025 00:31:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:29.92933
- Title: The Affine Divergence: Aligning Activation Updates Beyond Normalisation
- Title(参考訳): Affine Divergence: 正常化を超えたアクティベーションアップデート
- Authors: George Bird,
- Abstract要約: 勾配降下時の数学的理想と効果的なアクティベーション更新の間には、体系的なミスマッチが存在する。
正規化はパラメータ化スケーリングによるアクティベーション関数のような写像の方が優れており、最適化時の表現の優先順位付けを支援することが主張されている。
これは、経験的に検証されたいくつかの新しい関数を導き、モデル生成に対するアフィン+非線形アプローチに関する疑問を提起する理論原理的なアプローチを構成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A systematic mismatch exists between mathematically ideal and effective activation updates during gradient descent. As intended, parameters update in their direction of steepest descent. However, activations are argued to constitute a more directly impactful quantity to prioritise in optimisation, as they are closer to the loss in the computational graph and carry sample-dependent information through the network. Yet their propagated updates do not take the optimal steepest-descent step. These quantities exhibit non-ideal sample-wise scaling across affine, convolutional, and attention layers. Solutions to correct for this are trivial and, entirely incidentally, derive normalisation from first principles despite motivational independence. Consequently, such considerations offer a fresh and conceptual reframe of normalisation's action, with auxiliary experiments bolstering this mechanistically. Moreover, this analysis makes clear a second possibility: a solution that is functionally distinct from modern normalisations, without scale-invariance, yet remains empirically successful, outperforming conventional normalisers across several tests. This is presented as an alternative to the affine map. This generalises to convolution via a new functional form, "PatchNorm", a compositionally inseparable normaliser. Together, these provide an alternative mechanistic framework that adds to, and counters some of, the discussion of normalisation. Further, it is argued that normalisers are better decomposed into activation-function-like maps with parameterised scaling, thereby aiding the prioritisation of representations during optimisation. Overall, this constitutes a theoretical-principled approach that yields several new functions that are empirically validated and raises questions about the affine + nonlinear approach to model creation.
- Abstract(参考訳): 勾配降下時の数学的理想と効果的なアクティベーション更新の間には、体系的なミスマッチが存在する。
意図されたように、パラメータは最も急降下する方向に更新される。
しかしながら、アクティベーションは、計算グラフの損失に近づき、ネットワークを介してサンプル依存情報を運ぶため、最適化において優先されるよりも直接的に影響のある量である、と論じられている。
しかし、彼らのプロパゲーションアップデートは、最適の急勾配のステップを踏まない。
これらの量は、アフィン、畳み込み、および注意層を横断する非理想的なサンプルワイドスケーリングを示す。
これを修正する解決策は自明であり、完全に偶然に、モチベーション的な独立性にもかかわらず第一原則から正規化を導出します。
その結果、そのような考察は正規化の行動の新しく概念的な再編成をもたらし、補助的な実験によってこの機構が強化された。
さらに、この分析は2つ目の可能性を明確にしている: スケール不変性のない現代的な正規化とは機能的に異なる解は、実験的に成功し、いくつかのテストで従来の正規化よりも優れている。
これはアフィン写像の代替として提示される。
これは、合成的に分離不能な正規化器である新しい関数形式である"PatchNorm"を通じて畳み込みを一般化する。
これらが組み合わさって、正規化に関する議論を加味し、それに対抗する代替の力学フレームワークを提供する。
さらに、正規化はパラメータ化スケーリングで活性化関数のような写像に分解され、最適化時の表現の優先順位付けを支援することが議論されている。
全体として、これはいくつかの新しい関数を経験的に検証し、モデル生成に対するアフィン+非線形アプローチに関する疑問を提起する理論原理のアプローチを構成する。
関連論文リスト
- Variational Deep Learning via Implicit Regularization [11.296548737163599]
現代のディープラーニングモデルは、過度にパラメータ化され、明示的な正規化をほとんど、あるいは全く行わずに訓練されているにもかかわらず、非常によく分布する。
本稿では,(確率的な)勾配勾配の暗黙バイアスにのみ依存して,変分ニューラルネットワークの正規化を提案する。
論文 参考訳(メタデータ) (2025-05-26T17:15:57Z) - Self-Boost via Optimal Retraining: An Analysis via Approximate Message Passing [58.52119063742121]
独自の予測と潜在的にノイズの多いラベルを使ってモデルをトレーニングすることは、モデルパフォーマンスを改善するためのよく知られた戦略である。
本稿では,モデルの予測と提供ラベルを最適に組み合わせる方法について論じる。
我々の主な貢献は、現在のモデルの予測と与えられたラベルを組み合わせたベイズ最適集約関数の導出である。
論文 参考訳(メタデータ) (2025-05-21T07:16:44Z) - Error Feedback under $(L_0,L_1)$-Smoothness: Normalization and Momentum [56.37522020675243]
機械学習の幅広い問題にまたがる正規化誤差フィードバックアルゴリズムに対する収束の最初の証明を提供する。
提案手法では,許容可能なステップサイズが大きくなったため,新しい正規化エラーフィードバックアルゴリズムは,各種タスクにおける非正規化エラーよりも優れていた。
論文 参考訳(メタデータ) (2024-10-22T10:19:27Z) - Vanishing Feature: Diagnosing Model Merging and Beyond [1.1510009152620668]
結合モデルによる伝搬中に入力誘起特徴が減少する「消滅特徴」現象を同定する。
既存の正規化戦略は、消滅する特徴問題を的確に標的にすることで強化できることを示す。
初期層機能の保存に重点を置いたPFM(Preserve-First Merging')戦略を提案する。
論文 参考訳(メタデータ) (2024-02-05T17:06:26Z) - Good regularity creates large learning rate implicit biases: edge of
stability, balancing, and catapult [49.8719617899285]
非最適化のための客観的降下に適用された大きな学習速度は、安定性の端を含む様々な暗黙のバイアスをもたらす。
この論文は降下の初期段階を示し、これらの暗黙の偏見が実際には同じ氷山であることを示す。
論文 参考訳(メタデータ) (2023-10-26T01:11:17Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Smoothing the Edges: Smooth Optimization for Sparse Regularization using Hadamard Overparametrization [10.009748368458409]
本稿では、(構造化された)空間性に対して、明示的に正規化された目的を円滑に最適化するためのフレームワークを提案する。
提案手法は,完全微分可能近似自由最適化を実現し,深層学習におけるユビキタス勾配降下パラダイムと互換性がある。
論文 参考訳(メタデータ) (2023-07-07T13:06:12Z) - PAC-Chernoff Bounds: Understanding Generalization in the Interpolation Regime [6.645111950779666]
本稿では,補間器の完全密度を示す分布依存型PAC-Chernoff境界を提案する。
我々は、ある補間子がなぜ例外的な一般化を示すのかを示す統一的な理論的枠組みを提示する。
論文 参考訳(メタデータ) (2023-06-19T14:07:10Z) - Matrix Completion via Non-Convex Relaxation and Adaptive Correlation
Learning [90.8576971748142]
閉形式解によって最適化できる新しいサロゲートを開発する。
そこで我々は, 上向きの相関関係を利用して, 適応的相関学習モデルを構築した。
論文 参考訳(メタデータ) (2022-03-04T08:50:50Z) - Support recovery and sup-norm convergence rates for sparse pivotal
estimation [79.13844065776928]
高次元スパース回帰では、ピボット推定器は最適な正規化パラメータがノイズレベルに依存しない推定器である。
非滑らかで滑らかな単一タスクとマルチタスク正方形ラッソ型推定器に対するミニマックス超ノルム収束率を示す。
論文 参考訳(メタデータ) (2020-01-15T16:11:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。