論文の概要: Understanding Double Descent Requires a Fine-Grained Bias-Variance
Decomposition
- arxiv url: http://arxiv.org/abs/2011.03321v1
- Date: Wed, 4 Nov 2020 21:04:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 21:38:49.288229
- Title: Understanding Double Descent Requires a Fine-Grained Bias-Variance
Decomposition
- Title(参考訳): 微粒バイアス分散分解を必要とする二重蛍光の理解
- Authors: Ben Adlam and Jeffrey Pennington
- Abstract要約: ラベルに関連付けられた用語への分散の解釈可能で対称的な分解について述べる。
バイアスはネットワーク幅とともに単調に減少するが、分散項は非単調な振る舞いを示す。
我々はまた、著しく豊かな現象論も分析する。
- 参考スコア(独自算出の注目度): 34.235007566913396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Classical learning theory suggests that the optimal generalization
performance of a machine learning model should occur at an intermediate model
complexity, with simpler models exhibiting high bias and more complex models
exhibiting high variance of the predictive function. However, such a simple
trade-off does not adequately describe deep learning models that simultaneously
attain low bias and variance in the heavily overparameterized regime. A primary
obstacle in explaining this behavior is that deep learning algorithms typically
involve multiple sources of randomness whose individual contributions are not
visible in the total variance. To enable fine-grained analysis, we describe an
interpretable, symmetric decomposition of the variance into terms associated
with the randomness from sampling, initialization, and the labels. Moreover, we
compute the high-dimensional asymptotic behavior of this decomposition for
random feature kernel regression, and analyze the strikingly rich phenomenology
that arises. We find that the bias decreases monotonically with the network
width, but the variance terms exhibit non-monotonic behavior and can diverge at
the interpolation boundary, even in the absence of label noise. The divergence
is caused by the \emph{interaction} between sampling and initialization and can
therefore be eliminated by marginalizing over samples (i.e. bagging) \emph{or}
over the initial parameters (i.e. ensemble learning).
- Abstract(参考訳): 古典的学習理論は、機械学習モデルの最適一般化性能は、高いバイアスを示すより単純なモデルと予測関数の高分散を示すより複雑なモデルで中間モデル複雑性で起こるべきであることを示唆している。
しかし、そのような単純なトレードオフは、過度にパラメータ化された状態におけるバイアスと分散を同時に達成する深層学習モデルを適切に記述していない。
この振る舞いを説明する上での大きな障害は、ディープラーニングアルゴリズムが一般に、個々の寄与が全分散で見えない複数のランダムなソースを含むことである。
微粒化解析を実現するために, サンプリング, 初期化, ラベルのランダム性に関連する用語に, ばらつきの解釈可能な対称分解を記述した。
さらに,この分解の高次元漸近挙動をランダムな特徴核回帰に対して計算し,その現象学を解析した。
バイアスはネットワーク幅とともに単調に減少するが、分散項は非単調な振る舞いを示し、ラベルノイズがなくても補間境界で発散することができる。
発散はサンプリングと初期化の間の 'emph{interaction} によって引き起こされ、したがって初期パラメータ (すなわちアンサンブル学習) に対するサンプル (bagging) \emph{or} の差分化によって排除される。
関連論文リスト
- Revisiting Optimism and Model Complexity in the Wake of Overparameterized Machine Learning [6.278498348219108]
まず、(有効)自由度という古典的な統計的概念を再解釈し、拡張することで、第一原理からモデルの複雑さを再考する。
我々は,概念的議論,理論,実験の混合を通じて,提案した複雑性尺度の有用性を実証する。
論文 参考訳(メタデータ) (2024-10-02T06:09:57Z) - Aliasing and Label-Independent Decomposition of Risk: Beyond the bias-variance trade-off [0.0]
データサイエンスの中心的な問題は、潜在的にノイズの多いサンプルを使用して、目に見えない入力の関数値を予測することである。
一般化エイリアス分解(GAD)と呼ばれる代替パラダイムを導入する。
GADは、データラベルを見ることなく、モデルクラスとサンプルの関係から明示的に計算することができる。
論文 参考訳(メタデータ) (2024-08-15T17:49:24Z) - Scaling and renormalization in high-dimensional regression [72.59731158970894]
本稿では,様々な高次元リッジ回帰モデルの訓練および一般化性能の簡潔な導出について述べる。
本稿では,物理と深層学習の背景を持つ読者を対象に,これらのトピックに関する最近の研究成果の紹介とレビューを行う。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - Structured Radial Basis Function Network: Modelling Diversity for
Multiple Hypotheses Prediction [51.82628081279621]
多重モード回帰は非定常過程の予測や分布の複雑な混合において重要である。
構造的放射基底関数ネットワークは回帰問題に対する複数の仮説予測器のアンサンブルとして提示される。
この構造モデルにより, このテッセルレーションを効率よく補間し, 複数の仮説対象分布を近似することが可能であることが証明された。
論文 参考訳(メタデータ) (2023-09-02T01:27:53Z) - The Asymmetric Maximum Margin Bias of Quasi-Homogeneous Neural Networks [26.58848653965855]
準均質モデルのクラスを導入し、同質な活性化を伴うほぼ全てのニューラルネットワークを記述するのに十分な表現性を示す。
すべてのパラメータが等しく扱われる同質なモデルの場合とは異なり、勾配流はパラメータのサブセットを暗黙的に好んでいる。
論文 参考訳(メタデータ) (2022-10-07T21:14:09Z) - Fluctuations, Bias, Variance & Ensemble of Learners: Exact Asymptotics
for Convex Losses in High-Dimension [25.711297863946193]
我々は、異なる、しかし相関のある特徴に基づいて訓練された一般化線形モデルの集合における揺らぎの研究の理論を開発する。
一般凸損失と高次元限界における正則化のための経験的リスク最小化器の結合分布の完全な記述を提供する。
論文 参考訳(メタデータ) (2022-01-31T17:44:58Z) - Information-Theoretic Generalization Bounds for Iterative
Semi-Supervised Learning [81.1071978288003]
特に,情報理論の原理を用いて,反復型SSLアルゴリズムのエミュレータ一般化誤差の振る舞いを理解することを目的とする。
我々の理論的結果は、クラス条件分散があまり大きくない場合、一般化誤差の上限は反復数とともに単調に減少するが、すぐに飽和することを示している。
論文 参考訳(メタデータ) (2021-10-03T05:38:49Z) - Hessian Eigenspectra of More Realistic Nonlinear Models [73.31363313577941]
私たちは、非線形モデルの広いファミリーのためのヘッセン固有スペクトルの言語的特徴付けを行います。
我々の分析は、より複雑な機械学習モデルで観察される多くの顕著な特徴の起源を特定するために一歩前進する。
論文 参考訳(メタデータ) (2021-03-02T06:59:52Z) - Memorizing without overfitting: Bias, variance, and interpolation in
over-parameterized models [0.0]
バイアス分散トレードオフは教師あり学習における中心的な概念である。
現代のDeep Learningメソッドは、最先端のパフォーマンスを達成するために、このドグマを浮かび上がらせる。
論文 参考訳(メタデータ) (2020-10-26T22:31:04Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。
分散による離散乗法雑音のパラメータによく現れることを示す。
最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文 参考訳(メタデータ) (2020-06-11T09:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。