論文の概要: The Geometric Cost of Normalization: Affine Bounds on the Bayesian Complexity of Neural Networks
- arxiv url: http://arxiv.org/abs/2603.27432v1
- Date: Sat, 28 Mar 2026 22:15:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.954499
- Title: The Geometric Cost of Normalization: Affine Bounds on the Bayesian Complexity of Neural Networks
- Title(参考訳): 正規化の幾何学的コスト:ニューラルネットワークのベイズ複素性に関するアフィン境界
- Authors: Sungbae Chun,
- Abstract要約: 重み行列の局所学習係数(LLC)を正確に$m/2$とすることで、LayerNormの平均中心ステップを線形超平面に収束させることを証明した。
さらに、Softmaxの単純なデータに"smuggled bias"を導入し、明示的な下流バイアスと組み合わせると、同じ$m/2$ LLCのドロップを起動することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LayerNorm and RMSNorm impose fundamentally different geometric constraints on their outputs - and this difference has a precise, quantifiable consequence for model complexity. We prove that LayerNorm's mean-centering step, by confining data to a linear hyperplane (through the origin), reduces the Local Learning Coefficient (LLC) of the subsequent weight matrix by exactly $m/2$ (where $m$ is its output dimension); RMSNorm's projection onto a sphere preserves the LLC entirely. This reduction is structurally guaranteed before any training begins, determined by data manifold geometry alone. The underlying condition is a geometric threshold: for the codimension-one manifolds we study, the LLC drop is binary -- any non-zero curvature, regardless of sign or magnitude, is sufficient to preserve the LLC, while only affinely flat manifolds cause the drop. At finite sample sizes this threshold acquires a smooth crossover whose width depends on how much of the data distribution actually experiences the curvature, not merely on whether curvature exists somewhere. We verify both predictions experimentally with controlled single-layer scaling experiments using the wrLLC framework. We further show that Softmax simplex data introduces a "smuggled bias" that activates the same $m/2$ LLC drop when paired with an explicit downstream bias, proved via the affine symmetry extension of the main theorem and confirmed empirically.
- Abstract(参考訳): LayerNormとRMSNormは基本的に異なる幾何学的制約をアウトプットに課しています。
重み行列の局所学習係数 (LLC) をちょうど$m/2$ ($m$は出力次元) に減らし、RMSNormの球面への射影はLLCを完全に保存する。
この還元は任意のトレーニングが始まる前に構造的に保証され、データ多様体幾何学だけで決定される。
基底条件は幾何学的しきい値である: 私たちが研究した余次元 1 の多様体に対して、LLC のドロップは二進数であり、符号や大きさに関わらず、任意の 0 でない曲率は LLC を保存するのに十分である。
有限サンプルサイズでは、このしきい値が滑らかなクロスオーバーを取得し、その幅はデータ分布のどれ程が実際に曲率を経験しているかに依存する。
wrLLCフレームワークを用いて,制御された単層スケーリング実験により両予測を実験的に検証する。
さらに、Softmaxの単純なデータは、明示的な下流バイアスと組み合わせて同じ$m/2$ LLCのドロップを活性化する「密着バイアス」を導入し、主定理のアフィン対称性拡張によって証明し、実証的に確認することを示した。
関連論文リスト
- All ERMs Can Fail in Stochastic Convex Optimization Lower Bounds in Linear Dimension [14.982451024975733]
サンプルサイズが線形な場合,学習が可能であるが,経験的リスク最小化器は独特であり,過度に適合する可能性が示唆された。
グラディエント Descent は $left(sqrtT/m1.5right)$ で、ここでは $$ は学習率、$T$ は地平線、$m$ はサンプルサイズである。
論文 参考訳(メタデータ) (2026-02-09T07:33:01Z) - An approach to Fisher-Rao metric for infinite dimensional non-parametric information geometry [0.6138671548064355]
無限次元であることから、非パラメトリックな情報幾何学は長い間「難易度障壁」に直面してきた。
本稿では,タンジェント空間の直交分解による難易度解決のための新しい枠組みを提案する。
情報キャプチャ比を定義することにより,高次元データの内在次元を推定する厳密な手法を提案する。
論文 参考訳(メタデータ) (2025-12-25T00:18:41Z) - Phase-space entropy at acquisition reflects downstream learnability [54.4100065023873]
楽器分解位相空間に基づく取得レベルスカラー$S_mathcal B$を提案する。
本稿では, (S_mathcal B) が周期サンプリングの位相空間コヒーレンスを正確に同定できることを理論的に示す。
$|S_mathcal B|$は一貫してサンプリングジオメトリをランク付けし、トレーニングなしで下流での再構築/認識の困難を予測します。
論文 参考訳(メタデータ) (2025-12-22T10:03:51Z) - Non-convex matrix sensing: Breaking the quadratic rank barrier in the sample complexity [11.412228884390784]
因子化勾配降下はサンプル数で真にスケールすることを示す。
我々はこの理論を雑音場にまで拡張し、ノイズ測定では勾配降下は測定行列に弱い依存しか持たないことを示した。
論文 参考訳(メタデータ) (2024-08-20T14:09:28Z) - Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks [54.177130905659155]
近年の研究では、再生カーネルヒルベルト空間(RKHS)がニューラルネットワークによる関数のモデル化に適した空間ではないことが示されている。
本稿では,有界ノルムを持つオーバーパラメータ化された2層ニューラルネットワークに適した関数空間について検討する。
論文 参考訳(メタデータ) (2024-04-29T15:04:07Z) - Continuum Limits of Ollivier's Ricci Curvature on data clouds: pointwise consistency and global lower bounds [1.1126342180866644]
我々は、X$から構築されたランダムな幾何グラフの曲率と、Ollivierの離散リッチ曲率の連続極限による多様体$M$の曲率の関係について検討する。
グラフ上の熱核の収縮特性に対する大域的離散曲率境界の適用と、データクラウドからの多様体学習への応用について論じる。
論文 参考訳(メタデータ) (2023-07-05T15:45:53Z) - Last-Iterate Convergence of Adaptive Riemannian Gradient Descent for Equilibrium Computation [52.73824786627612]
本稿では,テクスト幾何学的強単調ゲームに対する新たな収束結果を確立する。
我々のキーとなる結果は、RGDがテクスト幾何学的手法で最終定位線形収束を実現することを示しています。
全体として、ユークリッド設定を超えるゲームに対して、幾何学的に非依存な最終点収束解析を初めて提示する。
論文 参考訳(メタデータ) (2023-06-29T01:20:44Z) - Effective Minkowski Dimension of Deep Nonparametric Regression: Function
Approximation and Statistical Theories [70.90012822736988]
ディープ非パラメトリック回帰に関する既存の理論は、入力データが低次元多様体上にある場合、ディープニューラルネットワークは本質的なデータ構造に適応できることを示した。
本稿では,$mathcalS$で表される$mathbbRd$のサブセットに入力データが集中するという緩和された仮定を導入する。
論文 参考訳(メタデータ) (2023-06-26T17:13:31Z) - Restricted Strong Convexity of Deep Learning Models with Smooth
Activations [31.003601717265006]
本研究では,スムーズなアクティベーション機能を持つディープラーニングモデルの最適化問題について検討する。
Restricted Strong Convexity (RSC) に基づく最適化の新しい解析手法を提案する。
深層学習モデルのためのRCCに基づくGDの幾何収束性を確立するための最初の結果である。
論文 参考訳(メタデータ) (2022-09-29T21:24:26Z) - The Generalized Lasso with Nonlinear Observations and Generative Priors [63.541900026673055]
我々は、幅広い測定モデルで満たされるガウス下測度を仮定する。
この結果から, 局所埋込特性を仮定して, 均一回復保証まで拡張できることが示唆された。
論文 参考訳(メタデータ) (2020-06-22T16:43:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。