論文の概要: On the Generalization Mystery in Deep Learning
- arxiv url: http://arxiv.org/abs/2203.10036v1
- Date: Fri, 18 Mar 2022 16:09:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-21 15:33:33.405766
- Title: On the Generalization Mystery in Deep Learning
- Title(参考訳): 深層学習における一般化ミステリーについて
- Authors: Satrajit Chatterjee and Piotr Zielinski
- Abstract要約: 2つの質問に対する答えは、トレーニング中の異なる例の勾配の相互作用にあると論じる。
我々は、コヒーレンスに対する計算が容易で解釈可能な計量を用いて、この議論を定式化する。
この理論は、なぜいくつかの例が他の例よりも早く確実に学習されるのかなど、ディープラーニングの他の多くの現象についても説明している。
- 参考スコア(独自算出の注目度): 15.2292571922932
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The generalization mystery in deep learning is the following: Why do
over-parameterized neural networks trained with gradient descent (GD)
generalize well on real datasets even though they are capable of fitting random
datasets of comparable size? Furthermore, from among all solutions that fit the
training data, how does GD find one that generalizes well (when such a
well-generalizing solution exists)?
We argue that the answer to both questions lies in the interaction of the
gradients of different examples during training. Intuitively, if the
per-example gradients are well-aligned, that is, if they are coherent, then one
may expect GD to be (algorithmically) stable, and hence generalize well. We
formalize this argument with an easy to compute and interpretable metric for
coherence, and show that the metric takes on very different values on real and
random datasets for several common vision networks. The theory also explains a
number of other phenomena in deep learning, such as why some examples are
reliably learned earlier than others, why early stopping works, and why it is
possible to learn from noisy labels. Moreover, since the theory provides a
causal explanation of how GD finds a well-generalizing solution when one
exists, it motivates a class of simple modifications to GD that attenuate
memorization and improve generalization.
Generalization in deep learning is an extremely broad phenomenon, and
therefore, it requires an equally general explanation. We conclude with a
survey of alternative lines of attack on this problem, and argue that the
proposed approach is the most viable one on this basis.
- Abstract(参考訳): 勾配降下(GD)で訓練された過パラメータニューラルネットワークは、同等の大きさのランダムデータセットに適合できるにもかかわらず、実際のデータセットでうまく一般化するのでしょうか?
さらに、トレーニングデータに適合するすべてのソリューションの中で、GDはどのようにして一般化する(そのような一般化されたソリューションが存在する場合)のか?
両方の質問に対する答えは、トレーニング中の異なる例の勾配の相互作用にあると論じている。
直観的には、例ごとの勾配がうまく整列しているなら、つまりコヒーレントであれば、GD は(論理的に)安定であり、従って一般化される。
この議論を、コヒーレンスのための計算と解釈が容易なメトリックで形式化し、いくつかの共通のビジョンネットワークにおいて、実およびランダムデータセット上で非常に異なる値を取ることを示す。
この理論はまた、なぜ他のものよりも早く確実に学習されるのか、なぜ早期に止まるのか、なぜノイズのあるラベルから学ぶことができるのかなど、ディープラーニングの他の多くの現象についても説明している。
さらに、この理論は、GDが存在すればよく一般化された解を見つける方法の因果的説明を提供するので、記憶を弱め、一般化を改善するGDへの単純な修正のクラスを動機付けている。
深層学習における一般化は極めて広い現象であり、そのため等しく一般的な説明が必要である。
この問題に対する代替攻撃線の調査を締めくくるとともに,提案手法が最も有効なアプローチであると主張する。
関連論文リスト
- Generalization of Graph Neural Networks is Robust to Model Mismatch [84.01980526069075]
グラフニューラルネットワーク(GNN)は、その一般化能力によってサポートされている様々なタスクにおいて、その効果を実証している。
本稿では,多様体モデルから生成される幾何グラフで動作するGNNについて検討する。
本稿では,そのようなモデルミスマッチの存在下でのGNN一般化の堅牢性を明らかにする。
論文 参考訳(メタデータ) (2024-08-25T16:00:44Z) - Theoretical Characterization of the Generalization Performance of
Overfitted Meta-Learning [70.52689048213398]
本稿では,ガウス的特徴を持つ線形回帰モデルの下で,過剰適合型メタラーニングの性能について検討する。
シングルタスク線形回帰には存在しない新しい興味深い性質が見つかる。
本分析は,各訓練課題における基礎的真理のノイズや多様性・変動が大きい場合には,良心過剰がより重要かつ容易に観察できることを示唆する。
論文 参考訳(メタデータ) (2023-04-09T20:36:13Z) - Characterizing Datapoints via Second-Split Forgetting [93.99363547536392]
我々は、オリジナルのトレーニング例が忘れられた後(もしあれば)のエポックを追跡する補足的メトリックである$$-second-$split$$forgetting$$$time$ (SSFT)を提案する。
例えば$mislabeled$の例はすぐに忘れられ、$rare$の例は比較的ゆっくりと忘れられています。
SSFTは、(i)間違ったラベル付きサンプルを識別し、その除去により一般化が向上し、(ii)障害モードに関する洞察を提供する。
論文 参考訳(メタデータ) (2022-10-26T21:03:46Z) - Towards understanding how momentum improves generalization in deep
learning [44.441873298005326]
学習課題のいくつかにおいて,運動量による勾配降下(GD+M)は,勾配降下(GD)に比べて一般化が著しく向上することを示した。
分析の主要な洞察は、サンプルがいくつかの特徴を共有しながらマージンが異なるデータセットでは、モーメントが有益であるということだ。
論文 参考訳(メタデータ) (2022-07-13T02:39:08Z) - Learning Non-Vacuous Generalization Bounds from Optimization [8.294831479902658]
最適化の観点からは、単純だが空でない一般化を示す。
我々は、勾配アルゴリズムによってアクセスされた仮説セットが本質的にフラクタル的であることを利用して、この目標を達成する。
数値解析により,現代のニューラルネットワークにおいて,本手法が有意な一般化を保証することが実証された。
論文 参考訳(メタデータ) (2022-06-09T08:59:46Z) - Explaining generalization in deep learning: progress and fundamental
limits [8.299945169799795]
論文の前半では、勾配勾配による深層ネットワークのトレーニングがネットワークの容量を暗黙的に制御する方法を実証的に研究する。
次に、パラメータ数に対する依存性を改善した一様収束に基づく一般化境界を、データ依存の em から導出する。
論文の最後の部分では、未ラベルデータを用いて一般化を推定する経験的手法を導入する。
論文 参考訳(メタデータ) (2021-10-17T21:17:30Z) - Parameterized Explainer for Graph Neural Network [49.79917262156429]
グラフニューラルネットワーク(GNN)のためのパラメータ化説明器PGExplainerを提案する。
既存の研究と比較すると、PGExplainerはより優れた一般化能力を持ち、インダクティブな設定で容易に利用することができる。
合成データセットと実生活データセットの両方の実験では、グラフ分類の説明に関するAUCの相対的な改善が24.7%まで高い競争性能を示した。
論文 参考訳(メタデータ) (2020-11-09T17:15:03Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Making Coherence Out of Nothing At All: Measuring the Evolution of
Gradient Alignment [15.2292571922932]
本研究では,トレーニング中のサンプルごとの勾配のアライメントを実験的に研究するための新しい指標(m$-coherence)を提案する。
我々は、$m$-coherenceがより解釈可能で、$O(m2)$ではなく$O(m)$で計算し、数学的にクリーンであることを示します。
論文 参考訳(メタデータ) (2020-08-03T21:51:24Z) - Optimization and Generalization Analysis of Transduction through
Gradient Boosting and Application to Multi-scale Graph Neural Networks [60.22494363676747]
現在のグラフニューラルネットワーク(GNN)は、オーバースムーシング(over-smoothing)と呼ばれる問題のため、自分自身を深くするのは難しいことが知られている。
マルチスケールGNNは、オーバースムーシング問題を緩和するための有望なアプローチである。
マルチスケールGNNを含むトランスダクティブ学習アルゴリズムの最適化と一般化を保証する。
論文 参考訳(メタデータ) (2020-06-15T17:06:17Z) - Coherent Gradients: An Approach to Understanding Generalization in
Gradient Descent-based Optimization [15.2292571922932]
本稿では,勾配降下のダイナミクスに関する仮説に基づいて,この問題に答えるアプローチを提案する。
トレーニング中のネットワークパラメータの変更は、(局所的に)同時に多くのサンプルに役立つものに偏っていることを示す。
論文 参考訳(メタデータ) (2020-02-25T03:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。