論文の概要: Local geometry of high-dimensional mixture models: Effective spectral theory and dynamical transitions
- arxiv url: http://arxiv.org/abs/2502.15655v1
- Date: Fri, 21 Feb 2025 18:26:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 19:42:11.697322
- Title: Local geometry of high-dimensional mixture models: Effective spectral theory and dynamical transitions
- Title(参考訳): 高次元混合モデルの局所幾何学:効果的なスペクトル理論と動的遷移
- Authors: Gerard Ben Arous, Reza Gheissari, Jiaoyang Huang, Aukosh Jagannath,
- Abstract要約: 本研究では,高次元における経験的リスクの局所幾何学を,ヘッセン行列と情報行列のスペクトル理論を用いて研究する。
経験的スペクトル分布と外周固有値の限界について正確な式を証明した。
多クラスロジスティック回帰の場合の有効動力学を解析し,本研究の一般的な結果を示す。
- 参考スコア(独自算出の注目度): 11.143337341980978
- License:
- Abstract: We study the local geometry of empirical risks in high dimensions via the spectral theory of their Hessian and information matrices. We focus on settings where the data, $(Y_\ell)_{\ell =1}^n\in \mathbb R^d$, are i.i.d. draws of a $k$-component Gaussian mixture model, and the loss depends on the projection of the data into a fixed number of vectors, namely $\mathbf{x}^\top Y$, where $\mathbf{x}\in \mathbb{R}^{d\times C}$ are the parameters, and $C$ need not equal $k$. This setting captures a broad class of problems such as classification by one and two-layer networks and regression on multi-index models. We prove exact formulas for the limits of the empirical spectral distribution and outlier eigenvalues and eigenvectors of such matrices in the proportional asymptotics limit, where the number of samples and dimension $n,d\to\infty$ and $n/d=\phi \in (0,\infty)$. These limits depend on the parameters $\mathbf{x}$ only through the summary statistic of the $(C+k)\times (C+k)$ Gram matrix of the parameters and class means, $\mathbf{G} = (\mathbf{x},\mathbf{\mu})^\top(\mathbf{x},\mathbf{\mu})$. It is known that under general conditions, when $\mathbf{x}$ is trained by stochastic gradient descent, the evolution of these same summary statistics along training converges to the solution of an autonomous system of ODEs, called the effective dynamics. This enables us to connect the spectral theory to the training dynamics. We demonstrate our general results by analyzing the effective spectrum along the effective dynamics in the case of multi-class logistic regression. In this setting, the empirical Hessian and information matrices have substantially different spectra, each with their own static and even dynamical spectral transitions.
- Abstract(参考訳): 本研究では,高次元における経験的リスクの局所幾何学を,ヘッセン行列と情報行列のスペクトル理論を用いて研究する。
データである$(Y_\ell)_{\ell =1}^n\in \mathbb R^d$は$k$-component Gaussian混合モデルの描画であり、損失はデータの射影を固定数のベクトル、すなわち$\mathbf{x}^\top Y$に依存し、$\mathbf{x}\in \mathbb{R}^{d\times C}$はパラメータであり、$C$は$k$に等しい必要はない。
この設定は、1層と2層のネットワークによる分類や、マルチインデックスモデルでの回帰といった幅広い問題を捉えている。
比例漸近極限において、経験スペクトル分布の極限と外接固有値および固有ベクトルの極限の正確な公式を証明し、サンプルの数と次元が$n,d\to\infty$と$n/d=\phi \in (0,\infty)$である。
これらの制限はパラメータ $\mathbf{x}$ にのみ依存する: $(C+k)\times (C+k)$ Gram matrix of the parameters and class means, $\mathbf{G} = (\mathbf{x},\mathbf{\mu})^\top(\mathbf{x},\mathbf{\mu})$
一般的な条件下では、$\mathbf{x}$が確率勾配降下によって訓練されると、トレーニングに沿ったこれらの同じ要約統計量の進化は、有効力学と呼ばれるODEの自律システムの解に収束することが知られている。
これにより、スペクトル理論とトレーニング力学を結びつけることができる。
多クラスロジスティック回帰の場合, 有効スペクトルを有効ダイナミックスに沿って解析し, 一般的な結果を示す。
この設定では、経験的ヘッセン行列と情報行列は実質的に異なるスペクトルを持ち、それぞれが独自の静的および動的スペクトル遷移を持つ。
関連論文リスト
- Conditional regression for the Nonlinear Single-Variable Model [4.565636963872865]
F(X):=f(Pi_gamma):mathbbRdto[0,rmlen_gamma]$ ここで$Pi_gamma: [0,rmlen_gamma]tomathbbRd$と$f:[0,rmlen_gamma]tomathbbR1$を考える。
条件回帰に基づく非パラメトリック推定器を提案し、$one$-dimensionalOptimical min-maxレートを実現できることを示す。
論文 参考訳(メタデータ) (2024-11-14T18:53:51Z) - Which exceptional low-dimensional projections of a Gaussian point cloud can be found in polynomial time? [8.74634652691576]
反復アルゴリズムのクラスで実現可能な分布のサブセット$mathscrF_m,alpha$について検討する。
統計物理学の非厳密な手法は、一般化されたパリの公式の言葉で$mathscrF_m,alpha$の間接的な特徴づけを与える。
論文 参考訳(メタデータ) (2024-06-05T05:54:56Z) - Provably learning a multi-head attention layer [55.2904547651831]
マルチヘッドアテンション層は、従来のフィードフォワードモデルとは分離したトランスフォーマーアーキテクチャの重要な構成要素の1つである。
本研究では,ランダムな例から多面的注意層を実証的に学習する研究を開始する。
最悪の場合、$m$に対する指数的依存は避けられないことを示す。
論文 参考訳(メタデータ) (2024-02-06T15:39:09Z) - A Unified Framework for Uniform Signal Recovery in Nonlinear Generative
Compressed Sensing [68.80803866919123]
非線形測定では、ほとんどの先行結果は一様ではない、すなわち、すべての$mathbfx*$に対してではなく、固定された$mathbfx*$に対して高い確率で保持される。
本フレームワークはGCSに1ビット/一様量子化観測と単一インデックスモデルを標準例として適用する。
また、指標集合が計量エントロピーが低い製品プロセスに対して、より厳密な境界を生み出す濃度不等式も開発する。
論文 参考訳(メタデータ) (2023-09-25T17:54:19Z) - Statistical Learning under Heterogeneous Distribution Shift [71.8393170225794]
ground-truth predictor is additive $mathbbE[mathbfz mid mathbfx,mathbfy] = f_star(mathbfx) +g_star(mathbfy)$.
論文 参考訳(メタデータ) (2023-02-27T16:34:21Z) - Universality laws for Gaussian mixtures in generalized linear models [22.154969876570238]
一般化線形推定器の族(Theta_1, dots, Theta_M)の合同統計について検討する。
これにより、トレーニングや一般化エラーなど、異なる量の興味の普遍性を証明できる。
我々は,本研究の結果を,アンサンブルや不確実性など,興味のあるさまざまな機械学習タスクに応用することについて議論する。
論文 参考訳(メタデータ) (2023-02-17T15:16:06Z) - Learning a Single Neuron with Adversarial Label Noise via Gradient
Descent [50.659479930171585]
モノトン活性化に対する $mathbfxmapstosigma(mathbfwcdotmathbfx)$ の関数について検討する。
学習者の目標は仮説ベクトル $mathbfw$ that $F(mathbbw)=C, epsilon$ を高い確率で出力することである。
論文 参考訳(メタデータ) (2022-06-17T17:55:43Z) - Random matrices in service of ML footprint: ternary random features with
no performance loss [55.30329197651178]
我々は、$bf K$ の固有スペクトルが$bf w$ の i.d. 成分の分布とは独立であることを示す。
3次ランダム特徴(TRF)と呼ばれる新しいランダム手法を提案する。
提案したランダムな特徴の計算には乗算が不要であり、古典的なランダムな特徴に比べてストレージに$b$のコストがかかる。
論文 参考訳(メタデータ) (2021-10-05T09:33:49Z) - Deformed semicircle law and concentration of nonlinear random matrices
for ultra-wide neural networks [29.03095282348978]
本稿では、$f(X)$に付随する2つの経験的カーネル行列のスペクトル分布の制限について検討する。
経験的カーネルによって誘導されるランダムな特徴回帰は、超広範体制下でのカーネル回帰の制限と同じ性能を達成することを示す。
論文 参考訳(メタデータ) (2021-09-20T05:25:52Z) - Spectral properties of sample covariance matrices arising from random
matrices with independent non identically distributed columns [50.053491972003656]
関数 $texttr(AR(z))$, for $R(z) = (frac1nXXT- zI_p)-1$ and $Ain mathcal M_p$ deterministic, have a standard deviation of order $O(|A|_* / sqrt n)$.
ここでは、$|mathbb E[R(z)] - tilde R(z)|_F を示す。
論文 参考訳(メタデータ) (2021-09-06T14:21:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。