論文の概要: LDLT L-Lipschitz Network Weight Parameterization Initialization
- arxiv url: http://arxiv.org/abs/2601.08253v1
- Date: Tue, 13 Jan 2026 06:20:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.079314
- Title: LDLT L-Lipschitz Network Weight Parameterization Initialization
- Title(参考訳): LDLT L-Lipschitz Network Weightパラメータ化初期化
- Authors: Marius F. R. Juston, Ramavarapu S. Sreenivas, Dustin Nottage, Ahmet Soylemezoglu,
- Abstract要約: Isserlis-based expansion for $operatornamemathbbEleft[tr]$ and explicit truncated moments to $k=10$。
その結果,初期化時にDeep $mathcalL$-Lipschitzネットワークが急激な情報損失を被る理由が明らかになった。
- 参考スコア(独自算出の注目度): 3.744861320984297
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We analyze initialization dynamics for LDLT-based $\mathcal{L}$-Lipschitz layers by deriving the exact marginal output variance when the underlying parameter matrix $W_0\in \mathbb{R}^{m\times n}$ is initialized with IID Gaussian entries $\mathcal{N}(0,σ^2)$. The Wishart distribution, $S=W_0W_0^\top\sim\mathcal{W}_m(n,σ^2 \boldsymbol{I}_m)$, used for computing the output marginal variance is derived in closed form using expectations of zonal polynomials via James' theorem and a Laplace-integral expansion of $(α\boldsymbol{I}_m+S)^{-1}$. We develop an Isserlis/Wick-based combinatorial expansion for $\operatorname{\mathbb{E}}\left[\operatorname{tr}(S^k)\right]$ and provide explicit truncated moments up to $k=10$, which yield accurate series approximations for small-to-moderate $σ^2$. Monte Carlo experiments confirm the theoretical estimates. Furthermore, empirical analysis was performed to quantify that, using current He or Kaiming initialization with scaling $1/\sqrt{n}$, the output variance is $0.41$, whereas the new parameterization with $10/ \sqrt{n}$ for $α=1$ results in an output variance of $0.9$. The findings clarify why deep $\mathcal{L}$-Lipschitz networks suffer rapid information loss at initialization and offer practical prescriptions for choosing initialization hyperparameters to mitigate this effect. However, using the Higgs boson classification dataset, a hyperparameter sweep over optimizers, initialization scale, and depth was conducted to validate the results on real-world data, showing that although the derivation ensures variance preservation, empirical results indicate He initialization still performs better.
- Abstract(参考訳): LDLT をベースとした $\mathcal{L}$-Lipschitz 層の初期化ダイナミクスを、基礎となるパラメータ行列 $W_0\in \mathbb{R}^{m\times n}$ が IID Gaussian のエントリ $\mathcal{N}(0,σ^2)$ で初期化されるときに、正確な限界出力分散を導出することにより解析する。
ウィッシュアート分布、$S=W_0W_0^\top\sim\mathcal{W}_m(n,σ^2 \boldsymbol{I}_m)$ は、ジェームズの定理と$(α\boldsymbol{I}_m+S)^{-1} のラプラス積分展開(英語版)(Laplace-integral expansion of $(α\boldsymbol{I}_m+S)^{-1}$)を用いて、出力境界分散の計算に使用される。
Isserlis/Wick-based combinatorial expansion for $\operatorname{\mathbb{E}}\left[\operatorname{tr}(S^k)\right]$ を開発し、$k=10$ までの明示的なtruncated moment を提供し、小修正$σ^2$ の正確な直列近似を生成する。
モンテカルロの実験は理論的な見積もりを裏付ける。
さらに、現在のHeやカイミングの初期化を1/\sqrt{n}$のスケーリングで使った場合、出力分散は0.41$であり、新しいパラメータ化は10/ \sqrt{n}$の$α=1$で、出力分散は0.9$である。
この結果から,Deep $\mathcal{L}$-Lipschitz ネットワークが初期化時に情報損失を急速に減少させる原因を明らかにし,この効果を緩和するために初期化ハイパーパラメータを選択するための実用的な処方薬を提供する。
しかし, ヒッグス粒子分類データセットを用いて, 最適化器, 初期化スケール, 深度を超えるハイパーパラメータスイープを行い, 導出によって分散保存が保証されるが, 実験結果から, 初期化は依然として良好であることが示された。
関連論文リスト
- Bivariate Matrix-valued Linear Regression (BMLR): Finite-sample performance under Identifiability and Sparsity Assumptions [0.0]
行列値線形回帰モデルでは, mathbbRn×p$の$T$応答$(Y_t)_t=1Tと, mathbbRm×q$の予測子$(X_t)_t=1Tを推定する。
最適化のない明示的な推定器を提案し、その性能を定量化するために非漸近収束率を確立する。
論文 参考訳(メタデータ) (2024-12-23T18:03:34Z) - Sparse Max-Affine Regression [8.338559499737135]
本稿では,凸片方向線形回帰における変数選択の解としてスパース勾配を提案する。
準ガウス雑音下でのSp-GDの非漸近局所収束解析を行う。
スパース一般化をスパースマックスアフィンモデルに変換するために、Real Maslov Dequantization (RMD) と呼ばれる新しい変換を提案する。
論文 参考訳(メタデータ) (2024-11-04T16:19:09Z) - Neural network learns low-dimensional polynomials with SGD near the information-theoretic limit [75.4661041626338]
単一インデックス対象関数 $f_*(boldsymbolx) = textstylesigma_*left(langleboldsymbolx,boldsymbolthetarangleright)$ の勾配勾配勾配学習問題について検討する。
SGDに基づくアルゴリズムにより最適化された2層ニューラルネットワークは、情報指数に支配されない複雑さで$f_*$を学習する。
論文 参考訳(メタデータ) (2024-06-03T17:56:58Z) - A Unified Framework for Uniform Signal Recovery in Nonlinear Generative
Compressed Sensing [68.80803866919123]
非線形測定では、ほとんどの先行結果は一様ではない、すなわち、すべての$mathbfx*$に対してではなく、固定された$mathbfx*$に対して高い確率で保持される。
本フレームワークはGCSに1ビット/一様量子化観測と単一インデックスモデルを標準例として適用する。
また、指標集合が計量エントロピーが低い製品プロセスに対して、より厳密な境界を生み出す濃度不等式も開発する。
論文 参考訳(メタデータ) (2023-09-25T17:54:19Z) - Effective Minkowski Dimension of Deep Nonparametric Regression: Function
Approximation and Statistical Theories [70.90012822736988]
ディープ非パラメトリック回帰に関する既存の理論は、入力データが低次元多様体上にある場合、ディープニューラルネットワークは本質的なデータ構造に適応できることを示した。
本稿では,$mathcalS$で表される$mathbbRd$のサブセットに入力データが集中するという緩和された仮定を導入する。
論文 参考訳(メタデータ) (2023-06-26T17:13:31Z) - Bounding the Width of Neural Networks via Coupled Initialization -- A
Worst Case Analysis [121.9821494461427]
2層ReLUネットワークに必要なニューロン数を著しく削減する方法を示す。
また、事前の作業を改善するための新しい下位境界を証明し、ある仮定の下では、最善を尽くすことができることを証明します。
論文 参考訳(メタデータ) (2022-06-26T06:51:31Z) - Optimal Robust Linear Regression in Nearly Linear Time [97.11565882347772]
学習者が生成モデル$Y = langle X,w* rangle + epsilon$から$n$のサンプルにアクセスできるような高次元頑健な線形回帰問題について検討する。
i) $X$ is L4-L2 hypercontractive, $mathbbE [XXtop]$ has bounded condition number and $epsilon$ has bounded variance, (ii) $X$ is sub-Gaussian with identity second moment and $epsilon$ is
論文 参考訳(メタデータ) (2020-07-16T06:44:44Z) - Agnostic Learning of a Single Neuron with Gradient Descent [92.7662890047311]
期待される正方形損失から、最も適合した単一ニューロンを学習することの問題点を考察する。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
論文 参考訳(メタデータ) (2020-05-29T07:20:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。