論文の概要: Is SGD a Bayesian sampler? Well, almost
- arxiv url: http://arxiv.org/abs/2006.15191v2
- Date: Sat, 24 Oct 2020 13:28:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 21:12:51.620265
- Title: Is SGD a Bayesian sampler? Well, almost
- Title(参考訳): SGDはベイズ標本か?
まあ、ほぼ。
- Authors: Chris Mingard, Guillermo Valle-P\'erez, Joar Skalse, Ard A. Louis
- Abstract要約: 訓練されたディープニューラルネットワーク(DNN)は、一般化誤差の低い関数に対して強い帰納バイアスを持つ必要があることを示す。
P_SGD(fmid S)$ は、訓練セット $S$ と整合した関数 $f$ に収束する確率を計算する。
また、DNNがパラメータのランダムサンプリング時に$f$を表すベイズ後部$P_B(fmid S)$を推定する。
- 参考スコア(独自算出の注目度): 2.4373900721120285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Overparameterised deep neural networks (DNNs) are highly expressive and so
can, in principle, generate almost any function that fits a training dataset
with zero error. The vast majority of these functions will perform poorly on
unseen data, and yet in practice DNNs often generalise remarkably well. This
success suggests that a trained DNN must have a strong inductive bias towards
functions with low generalisation error. Here we empirically investigate this
inductive bias by calculating, for a range of architectures and datasets, the
probability $P_{SGD}(f\mid S)$ that an overparameterised DNN, trained with
stochastic gradient descent (SGD) or one of its variants, converges on a
function $f$ consistent with a training set $S$. We also use Gaussian processes
to estimate the Bayesian posterior probability $P_B(f\mid S)$ that the DNN
expresses $f$ upon random sampling of its parameters, conditioned on $S$.
Our main findings are that $P_{SGD}(f\mid S)$ correlates remarkably well with
$P_B(f\mid S)$ and that $P_B(f\mid S)$ is strongly biased towards low-error and
low complexity functions. These results imply that strong inductive bias in the
parameter-function map (which determines $P_B(f\mid S)$), rather than a special
property of SGD, is the primary explanation for why DNNs generalise so well in
the overparameterised regime.
While our results suggest that the Bayesian posterior $P_B(f\mid S)$ is the
first order determinant of $P_{SGD}(f\mid S)$, there remain second order
differences that are sensitive to hyperparameter tuning. A function probability
picture, based on $P_{SGD}(f\mid S)$ and/or $P_B(f\mid S)$, can shed new light
on the way that variations in architecture or hyperparameter settings such as
batch size, learning rate, and optimiser choice, affect DNN performance.
- Abstract(参考訳): 過パラメータ深層ニューラルネットワーク(dnn)は非常に表現力が高く、原則として、ゼロエラーのトレーニングデータセットに適合するほぼすべての関数を生成することができる。
これらの機能の大部分は、見当たらないデータではうまく機能しないが、実際にはdnnは驚くほどよく一般化される。
この成功は、訓練されたDNNが一般化誤差の低い関数に対して強い帰納バイアスを持つ必要があることを示唆している。
ここで我々は,確率的勾配勾配降下(sgd)またはその変形によって訓練された過パラメータdnnが,トレーニングセット$s$と一致する関数$f$に収束する確率$p_{sgd}(f\mid s)$を計算して,この帰納的バイアスを実証的に検証する。
また、ガウス過程を用いてベイズ的後続確率$P_B(f\mid S)$を推定し、DNNはそのパラメータのランダムサンプリングに基づいて$f$を表現する。
我々の主な発見は、$P_{SGD}(f\mid S)$は、$P_B(f\mid S)$と著しくよく相関しており、$P_B(f\mid S)$は、低エラーおよび低複雑性関数に強く偏っていることである。
これらの結果は、パラメータ関数写像の強い帰納バイアス(これは SGD の特別な性質ではなく$P_B(f\mid S)$ を決定する)が、なぜ DNN が過度にパラメータ化された状態においてうまく一般化するかの主説明であることを示している。
結果から,ベイズ後段の$p_b(f\mid s)$は$p_{sgd}(f\mid s)$の1次決定式であることが示唆されるが,ハイパーパラメータチューニングに敏感な2次差は残る。
関数確率図は、$P_{SGD}(f\mid S)$および/または$P_B(f\mid S)$に基づいて、アーキテクチャやバッチサイズ、学習率、オプティマイザ選択などのハイパーパラメータ設定のバリエーションがDNNのパフォーマンスに影響を与える方法に新たな光を放つことができる。
関連論文リスト
- Asymptotics of Random Feature Regression Beyond the Linear Scaling
Regime [22.666759017118796]
機械学習の最近の進歩は、トレーニングデータの近くにトレーニングされた過度にパラメータ化されたモデルを使用することによって達成されている。
モデル複雑性と一般化はパラメータ数$p$にどのように依存するか?
特に、RFRRは近似と一般化パワーの直感的なトレードオフを示す。
論文 参考訳(メタデータ) (2024-03-13T00:59:25Z) - A statistical perspective on algorithm unrolling models for inverse
problems [2.7163621600184777]
観測値の条件分布が$bf y$で、興味のある変数が$bf x$であるような逆問題では、アルゴリズムのアンローリングを考える。
GDNsの最適統計性能に必要なアンローリング深さは、$log(n)/log(varrho_n-1)$で、$n$はサンプルサイズである。
また、潜伏変数 $bf x$ の負の対数密度が単純な近位演算子を持つとき、GDN は深さ $ でアンロールされることを示す。
論文 参考訳(メタデータ) (2023-11-10T20:52:20Z) - Effective Minkowski Dimension of Deep Nonparametric Regression: Function
Approximation and Statistical Theories [70.90012822736988]
ディープ非パラメトリック回帰に関する既存の理論は、入力データが低次元多様体上にある場合、ディープニューラルネットワークは本質的なデータ構造に適応できることを示した。
本稿では,$mathcalS$で表される$mathbbRd$のサブセットに入力データが集中するという緩和された仮定を導入する。
論文 参考訳(メタデータ) (2023-06-26T17:13:31Z) - On the Identifiability and Estimation of Causal Location-Scale Noise
Models [122.65417012597754]
位置スケール・異方性雑音モデル(LSNM)のクラスについて検討する。
症例によっては, 因果方向が同定可能であることが示唆された。
我々は,LSNMの2つの推定器を提案し,その1つは(非線形)特徴写像に基づく推定器と,1つはニューラルネットワークに基づく推定器を提案する。
論文 参考訳(メタデータ) (2022-10-13T17:18:59Z) - (Nearly) Optimal Private Linear Regression via Adaptive Clipping [22.639650869444395]
固定されたガウス型分布から各データ点をサンプリングする微分プライベート線形回帰問題について検討する。
本稿では,各イテレーションの点を置換せずにサンプリングする1パスのミニバッチ勾配勾配法(DP-AMBSSGD)を提案し,解析する。
論文 参考訳(メタデータ) (2022-07-11T08:04:46Z) - Approximate Function Evaluation via Multi-Armed Bandits [51.146684847667125]
既知の滑らかな関数 $f$ の値を未知の点 $boldsymbolmu in mathbbRn$ で推定する問題について検討する。
我々は、各座標の重要性に応じてサンプルを学習するインスタンス適応アルゴリズムを設計し、少なくとも1-delta$の確率で$epsilon$の正確な推定値である$f(boldsymbolmu)$を返す。
論文 参考訳(メタデータ) (2022-03-18T18:50:52Z) - Random matrices in service of ML footprint: ternary random features with
no performance loss [55.30329197651178]
我々は、$bf K$ の固有スペクトルが$bf w$ の i.d. 成分の分布とは独立であることを示す。
3次ランダム特徴(TRF)と呼ばれる新しいランダム手法を提案する。
提案したランダムな特徴の計算には乗算が不要であり、古典的なランダムな特徴に比べてストレージに$b$のコストがかかる。
論文 参考訳(メタデータ) (2021-10-05T09:33:49Z) - Lockout: Sparse Regularization of Neural Networks [0.0]
パラメータ $w$ の値に制約 $P(w)leq t$ を置き、精度を向上させるために正規化を適用する。
我々は、任意の微分可能関数$f$と損失$L$に対してそのようなすべての解を提供する高速アルゴリズムと、各パラメータの絶対値の単調関数である任意の制約$P$を提案する。
論文 参考訳(メタデータ) (2021-07-15T07:17:20Z) - Convergence of Sparse Variational Inference in Gaussian Processes
Regression [29.636483122130027]
計算コストが$mathcalO(log N)2D(log N)2)$の手法を推論に利用できることを示す。
論文 参考訳(メタデータ) (2020-08-01T19:23:34Z) - Optimal Robust Linear Regression in Nearly Linear Time [97.11565882347772]
学習者が生成モデル$Y = langle X,w* rangle + epsilon$から$n$のサンプルにアクセスできるような高次元頑健な線形回帰問題について検討する。
i) $X$ is L4-L2 hypercontractive, $mathbbE [XXtop]$ has bounded condition number and $epsilon$ has bounded variance, (ii) $X$ is sub-Gaussian with identity second moment and $epsilon$ is
論文 参考訳(メタデータ) (2020-07-16T06:44:44Z) - Agnostic Learning of a Single Neuron with Gradient Descent [92.7662890047311]
期待される正方形損失から、最も適合した単一ニューロンを学習することの問題点を考察する。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
論文 参考訳(メタデータ) (2020-05-29T07:20:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。