Fugu-MT 論文翻訳(概要): Scaling and renormalization in high-dimensional regression

論文の概要: Scaling and renormalization in high-dimensional regression

arxiv url: http://arxiv.org/abs/2405.00592v4
Date: Mon, 30 Jun 2025 15:11:57 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-01 21:27:53.326833
Title: Scaling and renormalization in high-dimensional regression
Title（参考訳）: 高次元回帰におけるスケーリングと再正規化
Authors: Alexander Atanasov, Jacob A. Zavatone-Veth, Cengiz Pehlevan,
Abstract要約: リッジ回帰に関する最近の結果について統一的な視点を提示する。我々は、物理とディープラーニングの背景を持つ読者を対象に、ランダム行列理論と自由確率の基本的なツールを使用する。我々の結果は拡張され、初期のスケーリング法則のモデルについて統一的な視点を提供する。
参考スコア（独自算出の注目度）: 72.59731158970894
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: From benign overfitting in overparameterized models to rich power-law scalings in performance, simple ridge regression displays surprising behaviors sometimes thought to be limited to deep neural networks. This balance of phenomenological richness with analytical tractability makes ridge regression the model system of choice in high-dimensional machine learning. In this paper, we present a unifying perspective on recent results on ridge regression using the basic tools of random matrix theory and free probability, aimed at readers with backgrounds in physics and deep learning. We highlight the fact that statistical fluctuations in empirical covariance matrices can be absorbed into a renormalization of the ridge parameter. This `deterministic equivalence' allows us to obtain analytic formulas for the training and generalization errors in a few lines of algebra by leveraging the properties of the $S$-transform of free probability. From these precise asymptotics, we can easily identify sources of power-law scaling in model performance. In all models, the $S$-transform corresponds to the train-test generalization gap, and yields an analogue of the generalized-cross-validation estimator. Using these techniques, we derive fine-grained bias-variance decompositions for a very general class of random feature models with structured covariates. This allows us to discover a scaling regime for random feature models where the variance due to the features limits performance in the overparameterized setting. We also demonstrate how anisotropic weight structure in random feature models can limit performance and lead to nontrivial exponents for finite-width corrections in the overparameterized setting. Our results extend and provide a unifying perspective on earlier models of neural scaling laws.
Abstract（参考訳）: 過度なパラメータ化モデルにおける良心的な過剰適合から、パフォーマンスにおけるリッチなパワーロースケーリングに至るまで、単純なリッジレグレッションは、時に深層ニューラルネットワークに制限されると思われる驚くべき振る舞いを示す。この現象学的豊かさと解析的トラクタビリティのバランスは、リッジ回帰を高次元機械学習のモデルシステムにしている。本稿では、確率行列理論と自由確率の基本的なツールを用いて、物理とディープラーニングの背景を持つ読者を対象に、リッジ回帰に関する最近の結果について統一的な視点を示す。経験的共分散行列の統計的揺らぎがリッジパラメータの再正規化に吸収されるという事実を強調した。この「決定論的同値」により、数行の代数において、自由確率の$S$-変換の性質を利用することで、トレーニングおよび一般化誤差の解析式を得ることが出来る。これらの正確な漸近から、モデル性能におけるパワー・ロー・スケーリングの源泉を容易に特定できる。すべてのモデルにおいて、$S$-変換は電車の一般化ギャップに対応し、一般化されたクロスバリデーション推定器の類似となる。これらの手法を用いて、構造的共変量を持つランダム特徴モデルの非常に一般的なクラスに対して、きめ細かい偏差分解を導出する。これにより,特徴量による分散が過度なパラメータ設定における性能を制限するような,ランダムな特徴モデルのスケーリング機構を見出すことができる。また、ランダムな特徴モデルにおける異方性重み構造が性能を制限し、過パラメータ設定における有限幅補正のための非自明な指数を導出することを示す。我々の結果は、ニューラルスケーリング法則の以前のモデルについて拡張し、統一的な視点を提供する。

関連論文リスト

Scaling Law for Stochastic Gradient Descent in Quadratically Parameterized Linear Regression [5.801904710149222]
機械学習において、スケーリング法則は、モデルとデータサイズをスケールアップすることで、モデルパフォーマンスがどのように改善されるかを記述する。本稿では,2次パラメータ化モデルを用いた線形回帰のスケーリング法則について検討する。その結果、正準線形回帰では、特徴学習による一般化と不要な曲線と、パラメトリゼーション法とアルゴリズムに対する情報理論の下界との明確な分離が提供される。
論文参考訳（メタデータ） (2025-02-13T09:29:04Z)
Distribution learning via neural differential equations: a nonparametric statistical perspective [1.4436965372953483]
この研究は、確率変換によって訓練されたODEモデルによる分布学習のための最初の一般統計収束解析を確立する。後者はクラス $mathcal F$ の$C1$-metric entropy で定量化できることを示す。次に、この一般フレームワークを$Ck$-smoothターゲット密度の設定に適用し、関連する2つの速度場クラスに対する最小最適収束率を$mathcal F$:$Ck$関数とニューラルネットワークに設定する。
論文参考訳（メタデータ） (2023-09-03T00:21:37Z)
Structured Radial Basis Function Network: Modelling Diversity for Multiple Hypotheses Prediction [51.82628081279621]
多重モード回帰は非定常過程の予測や分布の複雑な混合において重要である。構造的放射基底関数ネットワークは回帰問題に対する複数の仮説予測器のアンサンブルとして提示される。この構造モデルにより, このテッセルレーションを効率よく補間し, 複数の仮説対象分布を近似することが可能であることが証明された。
論文参考訳（メタデータ） (2023-09-02T01:27:53Z)
Probabilistic Unrolling: Scalable, Inverse-Free Maximum Likelihood Estimation for Latent Gaussian Models [69.22568644711113]
我々は,モンテカルロサンプリングと反復線形解法を組み合わせた確率的アンローリングを導入し,行列逆転を回避した。理論的解析により,解法の繰り返しによる解法の解法と逆転が最大値推定の勾配推定を高速化することを示した。シミュレーションおよび実データ実験において、確率的アンロールは、モデル性能の損失を最小限に抑えながら、勾配EMよりも桁違いに高速な潜在ガウスモデルを学習することを示した。
論文参考訳（メタデータ） (2023-06-05T21:08:34Z)
A Solvable Model of Neural Scaling Laws [72.8349503901712]
大量のパラメータを持つ大規模な言語モデルは、インターネットに近い数のトークンで訓練されると、ニューラルネットワークのスケーリング法則に従うことが実証的に示されている。我々は,このニューラルスケーリング現象を捉える統計モデル(共同生成データモデルとランダム特徴モデル)を提案する。主な発見は、自然データセットの統計に現れる電力法則が非線形ランダムな特徴写像によって拡張される方法である。
論文参考訳（メタデータ） (2022-10-30T15:13:18Z)
On the Generalization and Adaption Performance of Causal Models [99.64022680811281]
異なる因果発見は、データ生成プロセスを一連のモジュールに分解するために提案されている。このようなモジュラニューラル因果モデルの一般化と適応性能について検討する。我々の分析では、モジュラーニューラル因果モデルが、低データレギュレーションにおけるゼロおよび少数ショットの適応において、他のモデルよりも優れていることを示している。
論文参考訳（メタデータ） (2022-06-09T17:12:32Z)
Bias-variance decomposition of overparameterized regression with random linear features [0.0]
パラメータ化モデル」は、トレーニングデータに完全に適合するのに十分な数のパラメータが適合している場合でも、過度に適合しないようにする。ヘッセン行列の非零固有値が小さいため、各遷移がどのように生じるかを示す。ランダムな線形特徴モデルの位相図とランダムな非線形特徴モデルと通常の回帰とを比較して比較する。
論文参考訳（メタデータ） (2022-03-10T16:09:21Z)
A generalization gap estimation for overparameterized models via the Langevin functional variance [6.231304401179968]
関数分散は過パラメータ設定においても一般化ギャップを特徴付けることを示す。本稿では,関数分散の効率的な近似,関数分散のランゲヴィン近似(Langevin FV)を提案する。
論文参考訳（メタデータ） (2021-12-07T12:43:05Z)
Hessian Eigenspectra of More Realistic Nonlinear Models [73.31363313577941]
私たちは、非線形モデルの広いファミリーのためのヘッセン固有スペクトルの言語的特徴付けを行います。我々の分析は、より複雑な機械学習モデルで観察される多くの顕著な特徴の起源を特定するために一歩前進する。
論文参考訳（メタデータ） (2021-03-02T06:59:52Z)
Memorizing without overfitting: Bias, variance, and interpolation in over-parameterized models [0.0]
バイアス分散トレードオフは教師あり学習における中心的な概念である。現代のDeep Learningメソッドは、最先端のパフォーマンスを達成するために、このドグマを浮かび上がらせる。
論文参考訳（メタデータ） (2020-10-26T22:31:04Z)
Goal-directed Generation of Discrete Structures with Conditional Generative Models [85.51463588099556]
本稿では,強化学習目標を直接最適化し,期待される報酬を最大化するための新しいアプローチを提案する。提案手法は、ユーザ定義プロパティを持つ分子の生成と、所定の目標値を評価する短いピソン表現の同定という2つのタスクで検証する。
論文参考訳（メタデータ） (2020-10-05T20:03:13Z)
The Neural Tangent Kernel in High Dimensions: Triple Descent and a Multi-Scale Theory of Generalization [34.235007566913396]
現代のディープラーニングモデルでは、トレーニングデータに適合するために必要なパラメータよりもはるかに多くのパラメータが採用されている。この予期せぬ振る舞いを記述するための新たなパラダイムは、エンファンダブル降下曲線(英語版)である。本稿では,勾配降下を伴う広帯域ニューラルネットワークの挙動を特徴付けるニューラル・タンジェント・カーネルを用いた一般化の高精度な高次元解析を行う。
論文参考訳（メタデータ） (2020-08-15T20:55:40Z)
Slice Sampling for General Completely Random Measures [74.24975039689893]
本稿では, 後続推定のためのマルコフ連鎖モンテカルロアルゴリズムについて, 補助スライス変数を用いてトランケーションレベルを適応的に設定する。提案アルゴリズムの有効性は、いくつかの一般的な非パラメトリックモデルで評価される。
論文参考訳（メタデータ） (2020-06-24T17:53:53Z)
Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。分散による離散乗法雑音のパラメータによく現れることを示す。最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文参考訳（メタデータ） (2020-06-11T09:58:01Z)
Dimension Independent Generalization Error by Stochastic Gradient Descent [12.474236773219067]
本稿では, 局所凸損失関数に対する降下(SGD)解の一般化誤差に関する理論を提案する。一般化誤差は$p$次元に依存したり、低効用$p$対数因子に依存しないことを示す。
論文参考訳（メタデータ） (2020-03-25T03:08:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。