論文の概要: Asymptotic Risk of Overparameterized Likelihood Models: Double Descent
Theory for Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2103.00500v1
- Date: Sun, 28 Feb 2021 13:02:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-05 09:28:32.492043
- Title: Asymptotic Risk of Overparameterized Likelihood Models: Double Descent
Theory for Deep Neural Networks
- Title(参考訳): 過度パラメータ化類似モデルの漸近リスク:深部ニューラルネットワークの二重発振理論
- Authors: Ryumei Nakada, Masaaki Imaizumi
- Abstract要約: 深層モデルを含む可視性モデルに対する一般クラスのリスクについて検討する。
並列深層ニューラルネットワークやアンサンブル学習など,いくつかの明示的なモデルが我々の理論と一致していることを示す。
- 参考スコア(独自算出の注目度): 12.132641563193582
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the asymptotic risk of a general class of overparameterized
likelihood models, including deep models. The recent empirical success of
large-scale models has motivated several theoretical studies to investigate a
scenario wherein both the number of samples, $n$, and parameters, $p$, diverge
to infinity and derive an asymptotic risk at the limit. However, these theorems
are only valid for linear-in-feature models, such as generalized linear
regression, kernel regression, and shallow neural networks. Hence, it is
difficult to investigate a wider class of nonlinear models, including deep
neural networks with three or more layers. In this study, we consider a
likelihood maximization problem without the model constraints and analyze the
upper bound of an asymptotic risk of an estimator with penalization.
Technically, we combine a property of the Fisher information matrix with an
extended Marchenko-Pastur law and associate the combination with empirical
process techniques. The derived bound is general, as it describes both the
double descent and the regularized risk curves, depending on the penalization.
Our results are valid without the linear-in-feature constraints on models and
allow us to derive the general spectral distributions of a Fisher information
matrix from the likelihood. We demonstrate that several explicit models, such
as parallel deep neural networks and ensemble learning, are in agreement with
our theory. This result indicates that even large and deep models have a small
asymptotic risk if they exhibit a specific structure, such as divisibility. To
verify this finding, we conduct a real-data experiment with parallel deep
neural networks. Our results expand the applicability of the asymptotic risk
analysis, and may also contribute to the understanding and application of deep
learning.
- Abstract(参考訳): 深層モデルを含む、オーバーパラメータ化可能性モデルの一般クラスの無症状リスクを調査する。
大規模なモデルの最近の実証的な成功は、サンプルの数、$n$とパラメータ、$p$の両方が無限に分散し、限界での無症状リスクを導出するシナリオを調査するためにいくつかの理論的研究を動機づけた。
しかし、これらの定理は一般化線形回帰、カーネル回帰、浅層ニューラルネットワークといった特徴量モデルに対してのみ有効である。
したがって、3つ以上の層を持つディープニューラルネットワークを含むより広範な非線形モデルの研究は困難である。
本研究では,モデル制約を伴わない確率最大化問題を検討し,ペナリゼーションを伴う推定者の漸近リスクの上限を解析する。
技術的には、フィッシャー情報マトリックスのプロパティと拡張マルシェンコ・パストゥル法を結合し、経験的なプロセス技術との組み合わせを関連付けます。
導出境界は、ペナリゼーションに依存する二重降下曲線と正規化リスク曲線の両方を記述するため、一般に一般化される。
この結果はモデル上の線形-機能制約なしで有効であり、フィッシャー情報行列の一般的なスペクトル分布を導出することができる。
並列深層ニューラルネットワークやアンサンブル学習など,いくつかの明示的なモデルが我々の理論と一致していることを示す。
この結果は、大きなモデルや深いモデルでさえ、可視性のような特定の構造を示す場合の漸近リスクが小さいことを示している。
この発見を検証するために,並列深層ニューラルネットワークを用いた実データ実験を行った。
その結果,漸近的リスク分析の適用性が拡大し,深層学習の理解と応用に寄与する可能性がある。
関連論文リスト
- Seeing Unseen: Discover Novel Biomedical Concepts via
Geometry-Constrained Probabilistic Modeling [53.7117640028211]
同定された問題を解決するために,幾何制約付き確率的モデリング処理を提案する。
構成された埋め込み空間のレイアウトに適切な制約を課すために、重要な幾何学的性質のスイートを組み込む。
スペクトルグラフ理論法は、潜在的な新規クラスの数を推定するために考案された。
論文 参考訳(メタデータ) (2024-03-02T00:56:05Z) - The Surprising Harmfulness of Benign Overfitting for Adversarial
Robustness [13.120373493503772]
根拠的真理そのものが敵の例に対して堅牢であるとしても、標準のアウト・オブ・サンプルのリスク目標の観点から見れば、明らかに過適合なモデルは良性である、という驚くべき結果が証明されます。
我々の発見は、実際に観察されたパズリング現象に関する理論的洞察を与え、真の標的関数(例えば、人間)は副次的攻撃に対して堅牢であり、一方、当初過適合のニューラルネットワークは、堅牢でないモデルに導かれる。
論文 参考訳(メタデータ) (2024-01-19T15:40:46Z) - The Interplay Between Implicit Bias and Benign Overfitting in Two-Layer
Linear Networks [51.1848572349154]
ノイズの多いデータに完全に適合するニューラルネットワークモデルは、見当たらないテストデータにうまく一般化できる。
我々は,2層線形ニューラルネットワークを2乗損失の勾配流で補間し,余剰リスクを導出する。
論文 参考訳(メタデータ) (2021-08-25T22:01:01Z) - The Separation Capacity of Random Neural Networks [78.25060223808936]
標準ガウス重みと一様分布バイアスを持つ十分に大きな2層ReLUネットワークは、この問題を高い確率で解くことができることを示す。
我々は、相互複雑性という新しい概念の観点から、データの関連構造を定量化する。
論文 参考訳(メタデータ) (2021-07-31T10:25:26Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Non-asymptotic Excess Risk Bounds for Classification with Deep
Convolutional Neural Networks [6.051520664893158]
本稿では,一般の深層畳み込みニューラルネットワークを用いたバイナリ分類の問題を考える。
我々は、入力データ次元と他のモデルパラメータの観点から、リスク境界の要素を定義する。
CNNを用いた分類手法は次元の呪いを回避できることを示す。
論文 参考訳(メタデータ) (2021-05-01T15:55:04Z) - Provable Model-based Nonlinear Bandit and Reinforcement Learning: Shelve
Optimism, Embrace Virtual Curvature [61.22680308681648]
決定論的報酬を有する1層ニューラルネットバンディットにおいても,グローバル収束は統計的に難解であることを示す。
非線形バンディットとRLの両方に対して,オンラインモデル学習者による仮想アセンジ(Virtual Ascent with Online Model Learner)というモデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-08T12:41:56Z) - The Neural Tangent Kernel in High Dimensions: Triple Descent and a
Multi-Scale Theory of Generalization [34.235007566913396]
現代のディープラーニングモデルでは、トレーニングデータに適合するために必要なパラメータよりもはるかに多くのパラメータが採用されている。
この予期せぬ振る舞いを記述するための新たなパラダイムは、エンファンダブル降下曲線(英語版)である。
本稿では,勾配降下を伴う広帯域ニューラルネットワークの挙動を特徴付けるニューラル・タンジェント・カーネルを用いた一般化の高精度な高次元解析を行う。
論文 参考訳(メタデータ) (2020-08-15T20:55:40Z) - Measuring Model Complexity of Neural Networks with Curve Activation
Functions [100.98319505253797]
本稿では,線形近似ニューラルネットワーク(LANN)を提案する。
ニューラルネットワークのトレーニングプロセスを実験的に検討し、オーバーフィッティングを検出する。
我々は、$L1$と$L2$正規化がモデルの複雑さの増加を抑制することを発見した。
論文 参考訳(メタデータ) (2020-06-16T07:38:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。