論文の概要: Explaining generalization in deep learning: progress and fundamental
limits
- arxiv url: http://arxiv.org/abs/2110.08922v1
- Date: Sun, 17 Oct 2021 21:17:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 13:26:44.712683
- Title: Explaining generalization in deep learning: progress and fundamental
limits
- Title(参考訳): 深層学習における一般化の解説 : 進歩と基本的限界
- Authors: Vaishnavh Nagarajan
- Abstract要約: 論文の前半では、勾配勾配による深層ネットワークのトレーニングがネットワークの容量を暗黙的に制御する方法を実証的に研究する。
次に、パラメータ数に対する依存性を改善した一様収束に基づく一般化境界を、データ依存の em から導出する。
論文の最後の部分では、未ラベルデータを用いて一般化を推定する経験的手法を導入する。
- 参考スコア(独自算出の注目度): 8.299945169799795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This dissertation studies a fundamental open challenge in deep learning
theory: why do deep networks generalize well even while being
overparameterized, unregularized and fitting the training data to zero error?
In the first part of the thesis, we will empirically study how training deep
networks via stochastic gradient descent implicitly controls the networks'
capacity. Subsequently, to show how this leads to better generalization, we
will derive {\em data-dependent} {\em uniform-convergence-based} generalization
bounds with improved dependencies on the parameter count.
Uniform convergence has in fact been the most widely used tool in deep
learning literature, thanks to its simplicity and generality. Given its
popularity, in this thesis, we will also take a step back to identify the
fundamental limits of uniform convergence as a tool to explain generalization.
In particular, we will show that in some example overparameterized settings,
{\em any} uniform convergence bound will provide only a vacuous generalization
bound.
With this realization in mind, in the last part of the thesis, we will change
course and introduce an {\em empirical} technique to estimate generalization
using unlabeled data. Our technique does not rely on any notion of
uniform-convergece-based complexity and is remarkably precise. We will
theoretically show why our technique enjoys such precision.
We will conclude by discussing how future work could explore novel ways to
incorporate distributional assumptions in generalization bounds (such as in the
form of unlabeled data) and explore other tools to derive bounds, perhaps by
modifying uniform convergence or by developing completely new tools altogether.
- Abstract(参考訳): この論文は、ディープラーニング理論における根本的なオープンな課題を研究している。なぜ深層ネットワークは過度にパラメータ化され、非正規化され、トレーニングデータをゼロエラーに適合させながら、うまく一般化するのか?
論文の前半では、確率勾配勾配による深層ネットワークのトレーニングがネットワークの容量を暗黙的に制御する方法を実証的に研究する。
その後、これがどのようにより良い一般化につながるかを示すために、パラメータ数への依存性を改善した一般化境界を導出する。
統一収束は、その単純さと汎用性のおかげで、ディープラーニング文学で最も広く使われているツールである。
その人気を考えると、この論文では、一般化を説明するツールとして一様収束の基本的な限界を特定するために一歩後退する。
特に、ある例において過パラメータ化された設定において、一様収束境界は空の一般化境界のみを与えることを示す。
この実現を念頭に置いて、論文の最終部では、方針を変更し、ラベルなしのデータを用いて一般化を推定する「emexperiative」テクニックを導入する。
我々の手法は一様収束に基づく複雑性の概念に頼らず、極めて正確である。
理論上は、我々の技術がなぜこのような精度を享受するのかを示そう。
今後の研究は、一般化境界(ラベルなしデータの形式など)に分布仮定を組み込む新しい方法を模索し、また、おそらく一様収束を変更するか、完全に新しいツールを開発することによって、境界を導出するための他のツールを探求する。
関連論文リスト
- Zero-Shot Generalization during Instruction Tuning: Insights from Similarity and Granularity [84.12126298229866]
命令チューニング中のゼロショット一般化は非常に早い時期に行われることを示す。
また、「タスク」の制約を伴わずに、命令チューニング中に非常によく似た、きめ細かなトレーニングデータに遭遇することで、より一般化できることを示す。
インストラクションチューニング中のゼロショット一般化は、インスタンスレベルでのトレーニングとテストデータ間の類似性に基づく一般化の形式であることを示す。
論文 参考訳(メタデータ) (2024-06-17T16:40:21Z) - Skews in the Phenomenon Space Hinder Generalization in Text-to-Image Generation [59.138470433237615]
本稿では,関係学習用データセットの言語的スキューと視覚的スクリューの両方を定量化する統計指標を提案する。
系統的に制御されたメトリクスは、一般化性能を強く予測できることを示す。
この研究は、データの多様性やバランスを向上し、絶対的なサイズをスケールアップするための重要な方向を示します。
論文 参考訳(メタデータ) (2024-03-25T03:18:39Z) - Fantastic Generalization Measures are Nowhere to be Found [14.599761709255917]
本研究では,一様に密接な一般化の概念について検討し,人口減少との差が小さいことを示す。
ニューラルネットワークの一般化能力の潜在的な説明として、多くの一般化境界が文献で提案されている。
論文 参考訳(メタデータ) (2023-09-24T14:53:51Z) - Generalization Analysis for Contrastive Representation Learning [80.89690821916653]
既存の一般化誤差境界は負の例の数$k$に線形に依存する。
対数項まで$k$に依存しないコントラスト学習のための新しい一般化境界を確立する。
論文 参考訳(メタデータ) (2023-02-24T01:03:56Z) - Generalization Bounds with Data-dependent Fractal Dimensions [5.833272638548154]
フラクタル幾何学に基づく一般化境界をリプシッツの仮定を必要とせずに証明する。
技術的な複雑さは相当に多いが、この新しい概念は一般化誤差を制御できる。
論文 参考訳(メタデータ) (2023-02-06T13:24:48Z) - PAC-Bayes Compression Bounds So Tight That They Can Explain
Generalization [48.26492774959634]
線形部分空間におけるニューラルネットワークパラメータの量子化に基づく圧縮手法を開発した。
我々は、オッカムのカミソリをカプセル化した大きなモデルを、以前に知られていたよりもはるかに大きな範囲に圧縮できることを発見した。
論文 参考訳(メタデータ) (2022-11-24T13:50:16Z) - Instance-Dependent Generalization Bounds via Optimal Transport [51.71650746285469]
既存の一般化境界は、現代のニューラルネットワークの一般化を促進する重要な要因を説明することができない。
データ空間における学習予測関数の局所リプシッツ正則性に依存するインスタンス依存の一般化境界を導出する。
ニューラルネットワークに対する一般化境界を実験的に解析し、有界値が有意義であることを示し、トレーニング中の一般的な正規化方法の効果を捉える。
論文 参考訳(メタデータ) (2022-11-02T16:39:42Z) - Learning Non-Vacuous Generalization Bounds from Optimization [8.294831479902658]
最適化の観点からは、単純だが空でない一般化を示す。
我々は、勾配アルゴリズムによってアクセスされた仮説セットが本質的にフラクタル的であることを利用して、この目標を達成する。
数値解析により,現代のニューラルネットワークにおいて,本手法が有意な一般化を保証することが実証された。
論文 参考訳(メタデータ) (2022-06-09T08:59:46Z) - An Online Learning Approach to Interpolation and Extrapolation in Domain
Generalization [53.592597682854944]
リスクを最小化するプレイヤーと新しいテストを示す敵の間のオンラインゲームとしてサブグループの一般化を再放送する。
両課題に対してERMは極小最適であることを示す。
論文 参考訳(メタデータ) (2021-02-25T19:06:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。