論文の概要: Deep learning: a statistical viewpoint
- arxiv url: http://arxiv.org/abs/2103.09177v1
- Date: Tue, 16 Mar 2021 16:26:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-17 15:00:08.734607
- Title: Deep learning: a statistical viewpoint
- Title(参考訳): 深層学習 : 統計的視点
- Authors: Peter L. Bartlett and Andrea Montanari and Alexander Rakhlin
- Abstract要約: ディープラーニングは、理論的観点からいくつかの大きな驚きを明らかにしました。
特に、簡単な勾配法は、最適でないトレーニング問題に対するほぼ完全な解決策を簡単に見つけます。
我々はこれらの現象を具体的原理で補うと推測する。
- 参考スコア(独自算出の注目度): 120.94133818355645
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The remarkable practical success of deep learning has revealed some major
surprises from a theoretical perspective. In particular, simple gradient
methods easily find near-optimal solutions to non-convex optimization problems,
and despite giving a near-perfect fit to training data without any explicit
effort to control model complexity, these methods exhibit excellent predictive
accuracy. We conjecture that specific principles underlie these phenomena: that
overparametrization allows gradient methods to find interpolating solutions,
that these methods implicitly impose regularization, and that
overparametrization leads to benign overfitting. We survey recent theoretical
progress that provides examples illustrating these principles in simpler
settings. We first review classical uniform convergence results and why they
fall short of explaining aspects of the behavior of deep learning methods. We
give examples of implicit regularization in simple settings, where gradient
methods lead to minimal norm functions that perfectly fit the training data.
Then we review prediction methods that exhibit benign overfitting, focusing on
regression problems with quadratic loss. For these methods, we can decompose
the prediction rule into a simple component that is useful for prediction and a
spiky component that is useful for overfitting but, in a favorable setting,
does not harm prediction accuracy. We focus specifically on the linear regime
for neural networks, where the network can be approximated by a linear model.
In this regime, we demonstrate the success of gradient flow, and we consider
benign overfitting with two-layer networks, giving an exact asymptotic analysis
that precisely demonstrates the impact of overparametrization. We conclude by
highlighting the key challenges that arise in extending these insights to
realistic deep learning settings.
- Abstract(参考訳): ディープラーニングの驚くべき実践的な成功は、理論的な観点からいくつかの大きな驚きを明らかにしている。
特に、単純な勾配法は、非凸最適化問題に対する近似解を容易に見つけることができ、モデルの複雑さを明示的に制御することなく、トレーニングデータにほぼ完全に適合するが、予測精度は優れた。
オーバーパラメトリゼーションによって勾配法が補間解を見つけることができ、これらの方法が暗黙的に正規化を課し、オーバーパラメトリゼーションが良性オーバーフィッティングにつながると推測する。
我々は,これらの原理を簡素な設定で例示する最近の理論的進展を調査した。
まず、古典的一様収束結果と、なぜそれらが深層学習手法の振る舞いの側面を説明できないのかを概観する。
簡単な設定で暗黙的な正規化の例を示し、グラデーションメソッドはトレーニングデータに完全に適合する最小限のノルム関数をもたらす。
次に,二次損失を伴う回帰問題に着目し,良性オーバーフィッティングを示す予測手法について検討する。
これらの手法では,予測ルールを,過度に適合するが良好な設定で予測精度を損なうことなく,予測に有用な単純な成分とスパイクな成分に分解することができる。
本稿では,線形モデルによりネットワークを近似できるニューラルネットワークの線形構造に着目した。
この方法では,勾配流の成功を実証し,二層ネットワークによる良性オーバーフィットを考慮し,過パラメータの影響を正確に示す漸近解析を行う。
最後に、これらの洞察を現実的なディープラーニング設定に拡張する上で生じる重要な課題を強調する。
関連論文リスト
- Embedding generalization within the learning dynamics: An approach based-on sample path large deviation theory [0.0]
本研究では,持続的視点から手法を利用する経験的リスク摂動に基づく学習問題を考察する。
大規模偏差のFreidlin-Wentzell理論に基づく小雑音限界の推定を行う。
また、最適点推定に繋がる変分問題を解く計算アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-08-04T23:31:35Z) - A Rate-Distortion View of Uncertainty Quantification [36.85921945174863]
教師付き学習では、入力がトレーニングデータに近接していることを理解することは、モデルが信頼できる予測に達する十分な証拠を持っているかどうかを判断するのに役立つ。
本稿では,この特性でディープニューラルネットワークを強化するための新しい手法であるDistance Aware Bottleneck (DAB)を紹介する。
論文 参考訳(メタデータ) (2024-06-16T01:33:22Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Scalable Bayesian Meta-Learning through Generalized Implicit Gradients [64.21628447579772]
Inlicit Bayesian Meta-learning (iBaML) 法は、学習可能な事前のスコープを広げるだけでなく、関連する不確実性も定量化する。
解析誤差境界は、明示的よりも一般化された暗黙的勾配の精度と効率を示すために確立される。
論文 参考訳(メタデータ) (2023-03-31T02:10:30Z) - Domain-Adjusted Regression or: ERM May Already Learn Features Sufficient
for Out-of-Distribution Generalization [52.7137956951533]
既存の特徴から予測器を学習するためのよりシンプルな手法を考案することは、将来の研究にとって有望な方向である、と我々は主張する。
本稿では,線形予測器を学習するための凸目標である領域調整回帰(DARE)を紹介する。
自然モデルの下では、DARE解が制限されたテスト分布の集合に対する最小最適予測器であることを証明する。
論文 参考訳(メタデータ) (2022-02-14T16:42:16Z) - Calibrated and Sharp Uncertainties in Deep Learning via Simple Density
Estimation [7.184701179854522]
本稿では,これらの特性の観点からの不確かさを推論し,それを深層学習に適用するための簡単なアルゴリズムを提案する。
本手法はキャリブレーションの最も強い概念である分布キャリブレーションに着目し,低次元密度あるいは量子関数をニューラル推定器に適合させることにより,キャリブレーションを強制する。
実験により,本手法は計算と実装のオーバーヘッドを最小限に抑えながら,いくつかのタスクにおける予測の不確実性を改善できることが判明した。
論文 参考訳(メタデータ) (2021-12-14T06:19:05Z) - From inexact optimization to learning via gradient concentration [22.152317081922437]
本稿では,滑らかな損失関数を持つ線形モデルの文脈における現象について検討する。
本稿では、不正確な最適化と確率論、特に勾配集中のアイデアを組み合わせた証明手法を提案する。
論文 参考訳(メタデータ) (2021-06-09T21:23:29Z) - Gradient Descent for Deep Matrix Factorization: Dynamics and Implicit
Bias towards Low Rank [1.9350867959464846]
ディープラーニングでは、勾配発散は、よく一般化する解を好む傾向にある。
本稿では,線形ネットワークの簡易化における勾配降下のダイナミクスと推定問題について解析する。
論文 参考訳(メタデータ) (2020-11-27T15:08:34Z) - Path Sample-Analytic Gradient Estimators for Stochastic Binary Networks [78.76880041670904]
二進的アクティベーションや二進的重みを持つニューラルネットワークでは、勾配降下によるトレーニングは複雑である。
そこで本研究では,サンプリングと解析近似を併用した新しい推定法を提案する。
勾配推定において高い精度を示し、深部畳み込みモデルにおいてより安定かつ優れた訓練を行うことを示す。
論文 参考訳(メタデータ) (2020-06-04T21:51:21Z) - Regularizing Meta-Learning via Gradient Dropout [102.29924160341572]
メタ学習モデルは、メタ学習者が一般化するのに十分なトレーニングタスクがない場合、過度に適合する傾向がある。
本稿では,勾配に基づくメタ学習において過度に適合するリスクを軽減するための,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2020-04-13T10:47:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。