論文の概要: Uncertainty Quantification From Scaling Laws in Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2503.05938v1
- Date: Fri, 07 Mar 2025 21:15:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:50:18.924593
- Title: Uncertainty Quantification From Scaling Laws in Deep Neural Networks
- Title(参考訳): ディープニューラルネットワークのスケーリング法則による不確かさの定量化
- Authors: Ibrahim Elsharkawy, Yonatan Kahn, Benjamin Hooberman,
- Abstract要約: 機械学習の分析から不確かさを定量化することは、物理科学での使用に不可欠である。
平均$mu_mathcalL$と分散$sigma_mathcalL$を多層パーセプトロンのアンサンブルとして計算する。
我々は、MNIST分類、CIFAR分類、カロリーメータエネルギー回帰の3つの課題について、有限幅ネットワークの結果と経験的に比較した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Quantifying the uncertainty from machine learning analyses is critical to their use in the physical sciences. In this work we focus on uncertainty inherited from the initialization distribution of neural networks. We compute the mean $\mu_{\mathcal{L}}$ and variance $\sigma_{\mathcal{L}}^2$ of the test loss $\mathcal{L}$ for an ensemble of multi-layer perceptrons (MLPs) with neural tangent kernel (NTK) initialization in the infinite-width limit, and compare empirically to the results from finite-width networks for three example tasks: MNIST classification, CIFAR classification and calorimeter energy regression. We observe scaling laws as a function of training set size $N_\mathcal{D}$ for both $\mu_{\mathcal{L}}$ and $\sigma_{\mathcal{L}}$, but find that the coefficient of variation $\epsilon_{\mathcal{L}} \equiv \sigma_{\mathcal{L}}/\mu_{\mathcal{L}}$ becomes independent of $N_\mathcal{D}$ at both infinite and finite width for sufficiently large $N_\mathcal{D}$. This implies that the coefficient of variation of a finite-width network may be approximated by its infinite-width value, and may in principle be calculable using finite-width perturbation theory.
- Abstract(参考訳): 機械学習の分析から不確実性を定量化することは、物理科学における彼らの利用にとって重要である。
本研究では,ニューラルネットワークの初期化分布から継承された不確実性に着目した。
我々は、平均$\mu_{\mathcal{L}}$および分散$\sigma_{\mathcal{L}}^2$ of of the test loss $\mathcal{L}$ for an enmble of multi-layer perceptrons (MLPs) with neural tangent kernel (NTK) initialization in the infinite-width limit, and empirically to the results from finite-width network for three example task: MNIST classification, CIFAR classification and temperaturemeter energy regression。
トレーニングセットサイズ $N_\mathcal{D}$ for both $\mu_{\mathcal{L}}$ と $\sigma_{\mathcal{L}}$ の関数としてスケーリング法則を観察するが、変化係数 $\epsilon_{\mathcal{L}} \equiv \sigma_{\mathcal{L}}/\mu_{\mathcal{L}}$ が十分大きな$N_\mathcal{D}$ の無限幅および有限幅において、$N_\mathcal{D}$ から独立になる。
これは、有限幅ネットワークの変動係数がその無限幅値によって近似され、原則として有限幅摂動理論を用いて計算可能であることを意味する。
関連論文リスト
- Learning Networks from Wide-Sense Stationary Stochastic Processes [7.59499154221528]
ここでの重要な推論問題は、ノード出力(ポテンシャル)からエッジ接続を学習することである。
我々はWhittleの最大可能性推定器(MLE)を用いて時間相関サンプルから$Last$のサポートを学習する。
MLE問題は厳密な凸であり、ユニークな解であることを示す。
論文 参考訳(メタデータ) (2024-12-04T23:14:00Z) - Neural network learns low-dimensional polynomials with SGD near the information-theoretic limit [75.4661041626338]
単一インデックス対象関数 $f_*(boldsymbolx) = textstylesigma_*left(langleboldsymbolx,boldsymbolthetarangleright)$ の勾配勾配勾配学習問題について検討する。
SGDに基づくアルゴリズムにより最適化された2層ニューラルネットワークは、情報指数に支配されない複雑さで$f_*$を学習する。
論文 参考訳(メタデータ) (2024-06-03T17:56:58Z) - Effective Minkowski Dimension of Deep Nonparametric Regression: Function
Approximation and Statistical Theories [70.90012822736988]
ディープ非パラメトリック回帰に関する既存の理論は、入力データが低次元多様体上にある場合、ディープニューラルネットワークは本質的なデータ構造に適応できることを示した。
本稿では,$mathcalS$で表される$mathbbRd$のサブセットに入力データが集中するという緩和された仮定を導入する。
論文 参考訳(メタデータ) (2023-06-26T17:13:31Z) - Wide neural networks: From non-gaussian random fields at initialization
to the NTK geometry of training [0.0]
パラメータが$n=1014$を超える人工ニューラルネットワークの応用の最近の進歩は、そのようなネットワークの大きな$n$の振る舞いを研究することが極めて重要である。
広義のニューラルネットワークを研究するほとんどの研究は、そのようなネットワークの無限幅$nから+infty$制限に焦点を当てている。
この研究では、それらの振る舞いを大まかに研究するが、有限$n$である。
論文 参考訳(メタデータ) (2023-04-06T21:34:13Z) - The Onset of Variance-Limited Behavior for Networks in the Lazy and Rich
Regimes [75.59720049837459]
無限幅挙動からこの分散制限状態への遷移をサンプルサイズ$P$とネットワーク幅$N$の関数として検討する。
有限サイズ効果は、ReLUネットワークによる回帰のために、$P* sim sqrtN$の順序で非常に小さなデータセットに関係があることが分かる。
論文 参考訳(メタデータ) (2022-12-23T04:48:04Z) - Understanding Deep Neural Function Approximation in Reinforcement
Learning via $\epsilon$-Greedy Exploration [53.90873926758026]
本稿では、強化学習(RL)における深部神経機能近似の理論的研究について述べる。
我々は、Besov(およびBarron)関数空間によって与えられるディープ(および2層)ニューラルネットワークによる$epsilon$-greedy探索により、バリューベースのアルゴリズムに焦点を当てる。
我々の解析は、ある平均測度$mu$の上の$L2(mathrmdmu)$-integrable空間における時間差誤差を再構成し、非イド設定の下で一般化問題に変換する。
論文 参考訳(メタデータ) (2022-09-15T15:42:47Z) - On the Neural Tangent Kernel Analysis of Randomly Pruned Neural Networks [91.3755431537592]
ニューラルネットワークのニューラルカーネル(NTK)に重みのランダムプルーニングが及ぼす影響について検討する。
特に、この研究は、完全に接続されたニューラルネットワークとそのランダムに切断されたバージョン間のNTKの等価性を確立する。
論文 参考訳(メタデータ) (2022-03-27T15:22:19Z) - The Separation Capacity of Random Neural Networks [78.25060223808936]
標準ガウス重みと一様分布バイアスを持つ十分に大きな2層ReLUネットワークは、この問題を高い確率で解くことができることを示す。
我々は、相互複雑性という新しい概念の観点から、データの関連構造を定量化する。
論文 参考訳(メタデータ) (2021-07-31T10:25:26Z) - The Rate of Convergence of Variation-Constrained Deep Neural Networks [35.393855471751756]
変動制約のあるニューラルネットワークのクラスは、任意に小さな定数$delta$に対して、ほぼパラメトリックレート$n-1/2+delta$を達成することができることを示す。
その結果、滑らかな関数の近似に必要な神経機能空間は、しばしば知覚されるものほど大きくない可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-22T21:28:00Z) - A Neural Scaling Law from the Dimension of the Data Manifold [8.656787568717252]
データが豊富であれば、よく訓練されたニューラルネットワークによって達成される損失は、ネットワークパラメータの数でN-alpha$のパワーロープロットとしてスケールする。
スケーリングの法則は、ニューラルモデルが本質的に内在次元$d$のデータ多様体上で回帰を行えば説明できる。
この単純な理論は、スケーリング指数が、クロスエントロピーと平均二乗誤差損失に対して$alpha approx 4/d$となることを予測している。
論文 参考訳(メタデータ) (2020-04-22T19:16:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。