論文の概要: Scaling and renormalization in high-dimensional regression
- arxiv url: http://arxiv.org/abs/2405.00592v2
- Date: Mon, 24 Jun 2024 17:47:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 01:02:45.365959
- Title: Scaling and renormalization in high-dimensional regression
- Title(参考訳): 高次元回帰におけるスケーリングと再正規化
- Authors: Alexander Atanasov, Jacob A. Zavatone-Veth, Cengiz Pehlevan,
- Abstract要約: 本稿では,様々な高次元リッジ回帰モデルの訓練および一般化性能の簡潔な導出について述べる。
本稿では,物理と深層学習の背景を持つ読者を対象に,これらのトピックに関する最近の研究成果の紹介とレビューを行う。
- 参考スコア(独自算出の注目度): 72.59731158970894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a succinct derivation of the training and generalization performance of a variety of high-dimensional ridge regression models using the basic tools of random matrix theory and free probability. We provide an introduction and review of recent results on these topics, aimed at readers with backgrounds in physics and deep learning. Analytic formulas for the training and generalization errors are obtained in a few lines of algebra directly from the properties of the $S$-transform of free probability. This allows for a straightforward identification of the sources of power-law scaling in model performance. We compute the generalization error of a broad class of random feature models. We find that in all models, the $S$-transform corresponds to the train-test generalization gap, and yields an analogue of the generalized-cross-validation estimator. Using these techniques, we derive fine-grained bias-variance decompositions for a very general class of random feature models with structured covariates. These novel results allow us to discover a scaling regime for random feature models where the variance due to the features limits performance in the overparameterized setting. We also demonstrate how anisotropic weight structure in random feature models can limit performance and lead to nontrivial exponents for finite-width corrections in the overparameterized setting. Our results extend and provide a unifying perspective on earlier models of neural scaling laws.
- Abstract(参考訳): 本稿では、確率行列理論と自由確率の基本的なツールを用いて、多種多様な高次元リッジ回帰モデルの訓練および一般化性能の簡潔な導出について述べる。
本稿では,物理と深層学習の背景を持つ読者を対象に,これらのトピックに関する最近の研究成果の紹介とレビューを行う。
トレーニングおよび一般化誤差の解析公式は、数行の代数において、自由確率の$S$-変換の性質から直接得られる。
これにより、モデルパフォーマンスにおけるパワーロースケーリングのソースを、簡単に特定できる。
我々は、広範囲のランダムな特徴モデルの一般化誤差を計算する。
すべてのモデルにおいて、$S$-変換は列車-テストの一般化ギャップに対応し、一般化されたクロスバリデーション推定器の類似性が得られる。
これらの手法を用いて、構造的共変量を持つランダム特徴モデルの非常に一般的なクラスに対して、きめ細かい偏差分解を導出する。
これらの新たな結果から,特徴量による分散が過度なパラメータ設定における性能を制限するような,ランダムな特徴モデルのスケーリング機構を見出すことができる。
また、ランダムな特徴モデルにおける異方性重み構造が性能を制限し、過パラメータ設定における有限幅補正のための非自明な指数を導出することを示す。
我々の結果は、ニューラルスケーリング法則の以前のモデルについて拡張し、統一的な視点を提供する。
関連論文リスト
- Distribution learning via neural differential equations: a nonparametric
statistical perspective [1.4436965372953483]
この研究は、確率変換によって訓練されたODEモデルによる分布学習のための最初の一般統計収束解析を確立する。
後者はクラス $mathcal F$ の$C1$-metric entropy で定量化できることを示す。
次に、この一般フレームワークを$Ck$-smoothターゲット密度の設定に適用し、関連する2つの速度場クラスに対する最小最適収束率を$mathcal F$:$Ck$関数とニューラルネットワークに設定する。
論文 参考訳(メタデータ) (2023-09-03T00:21:37Z) - Structured Radial Basis Function Network: Modelling Diversity for
Multiple Hypotheses Prediction [51.82628081279621]
多重モード回帰は非定常過程の予測や分布の複雑な混合において重要である。
構造的放射基底関数ネットワークは回帰問題に対する複数の仮説予測器のアンサンブルとして提示される。
この構造モデルにより, このテッセルレーションを効率よく補間し, 複数の仮説対象分布を近似することが可能であることが証明された。
論文 参考訳(メタデータ) (2023-09-02T01:27:53Z) - Probabilistic Unrolling: Scalable, Inverse-Free Maximum Likelihood
Estimation for Latent Gaussian Models [69.22568644711113]
我々は,モンテカルロサンプリングと反復線形解法を組み合わせた確率的アンローリングを導入し,行列逆転を回避した。
理論的解析により,解法の繰り返しによる解法の解法と逆転が最大値推定の勾配推定を高速化することを示した。
シミュレーションおよび実データ実験において、確率的アンロールは、モデル性能の損失を最小限に抑えながら、勾配EMよりも桁違いに高速な潜在ガウスモデルを学習することを示した。
論文 参考訳(メタデータ) (2023-06-05T21:08:34Z) - On the Generalization and Adaption Performance of Causal Models [99.64022680811281]
異なる因果発見は、データ生成プロセスを一連のモジュールに分解するために提案されている。
このようなモジュラニューラル因果モデルの一般化と適応性能について検討する。
我々の分析では、モジュラーニューラル因果モデルが、低データレギュレーションにおけるゼロおよび少数ショットの適応において、他のモデルよりも優れていることを示している。
論文 参考訳(メタデータ) (2022-06-09T17:12:32Z) - Bias-variance decomposition of overparameterized regression with random
linear features [0.0]
パラメータ化モデル」は、トレーニングデータに完全に適合するのに十分な数のパラメータが適合している場合でも、過度に適合しないようにする。
ヘッセン行列の非零固有値が小さいため、各遷移がどのように生じるかを示す。
ランダムな線形特徴モデルの位相図とランダムな非線形特徴モデルと通常の回帰とを比較して比較する。
論文 参考訳(メタデータ) (2022-03-10T16:09:21Z) - A generalization gap estimation for overparameterized models via the
Langevin functional variance [6.231304401179968]
関数分散は過パラメータ設定においても一般化ギャップを特徴付けることを示す。
本稿では,関数分散の効率的な近似,関数分散のランゲヴィン近似(Langevin FV)を提案する。
論文 参考訳(メタデータ) (2021-12-07T12:43:05Z) - Memorizing without overfitting: Bias, variance, and interpolation in
over-parameterized models [0.0]
バイアス分散トレードオフは教師あり学習における中心的な概念である。
現代のDeep Learningメソッドは、最先端のパフォーマンスを達成するために、このドグマを浮かび上がらせる。
論文 参考訳(メタデータ) (2020-10-26T22:31:04Z) - Goal-directed Generation of Discrete Structures with Conditional
Generative Models [85.51463588099556]
本稿では,強化学習目標を直接最適化し,期待される報酬を最大化するための新しいアプローチを提案する。
提案手法は、ユーザ定義プロパティを持つ分子の生成と、所定の目標値を評価する短いピソン表現の同定という2つのタスクで検証する。
論文 参考訳(メタデータ) (2020-10-05T20:03:13Z) - Slice Sampling for General Completely Random Measures [74.24975039689893]
本稿では, 後続推定のためのマルコフ連鎖モンテカルロアルゴリズムについて, 補助スライス変数を用いてトランケーションレベルを適応的に設定する。
提案アルゴリズムの有効性は、いくつかの一般的な非パラメトリックモデルで評価される。
論文 参考訳(メタデータ) (2020-06-24T17:53:53Z) - Dimension Independent Generalization Error by Stochastic Gradient
Descent [12.474236773219067]
本稿では, 局所凸損失関数に対する降下(SGD)解の一般化誤差に関する理論を提案する。
一般化誤差は$p$次元に依存したり、低効用$p$対数因子に依存しないことを示す。
論文 参考訳(メタデータ) (2020-03-25T03:08:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。