論文の概要: Making Coherence Out of Nothing At All: Measuring the Evolution of
Gradient Alignment
- arxiv url: http://arxiv.org/abs/2008.01217v1
- Date: Mon, 3 Aug 2020 21:51:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 05:57:57.499810
- Title: Making Coherence Out of Nothing At All: Measuring the Evolution of
Gradient Alignment
- Title(参考訳): 無からコヒーレンスを作り出す:勾配アライメントの進化を測定する
- Authors: Satrajit Chatterjee, Piotr Zielinski
- Abstract要約: 本研究では,トレーニング中のサンプルごとの勾配のアライメントを実験的に研究するための新しい指標(m$-coherence)を提案する。
我々は、$m$-coherenceがより解釈可能で、$O(m2)$ではなく$O(m)$で計算し、数学的にクリーンであることを示します。
- 参考スコア(独自算出の注目度): 15.2292571922932
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose a new metric ($m$-coherence) to experimentally study the alignment
of per-example gradients during training. Intuitively, given a sample of size
$m$, $m$-coherence is the number of examples in the sample that benefit from a
small step along the gradient of any one example on average. We show that
compared to other commonly used metrics, $m$-coherence is more interpretable,
cheaper to compute ($O(m)$ instead of $O(m^2)$) and mathematically cleaner. (We
note that $m$-coherence is closely connected to gradient diversity, a quantity
previously used in some theoretical bounds.) Using $m$-coherence, we study the
evolution of alignment of per-example gradients in ResNet and Inception models
on ImageNet and several variants with label noise, particularly from the
perspective of the recently proposed Coherent Gradients (CG) theory that
provides a simple, unified explanation for memorization and generalization
[Chatterjee, ICLR 20]. Although we have several interesting takeaways, our most
surprising result concerns memorization. Naively, one might expect that when
training with completely random labels, each example is fitted independently,
and so $m$-coherence should be close to 1. However, this is not the case:
$m$-coherence reaches much higher values during training (100s), indicating
that over-parameterized neural networks find common patterns even in scenarios
where generalization is not possible. A detailed analysis of this phenomenon
provides both a deeper confirmation of CG, but at the same point puts into
sharp relief what is missing from the theory in order to provide a complete
explanation of generalization in neural networks.
- Abstract(参考訳): トレーニング中のサンプル毎の勾配のアライメントを実験的に研究するための新しいメトリック(m$-coherence)を提案する。
直観的には、$m$、$m$-コヒーレンス(英: $m$-coherence)は、平均的な1つの例の勾配に沿った小さなステップから得られるサンプルの数である。
他の一般的なメトリクスと比較すると、$m$-coherenceはより解釈可能であり、$O(m^2)$ではなく$O(m)$)と数学的にクリーンである。
(m$-コヒーレンスと勾配の多様性は、以前いくつかの理論的境界で使われた量と密接に関連している。)
m$-コヒーレンスを用いて、イメージネット上のResNetおよびインセプションモデルにおけるサンプルごとの勾配のアライメントの進化とラベルノイズを持ついくつかの変種について、特に記憶と一般化のシンプルで統一的な説明を提供するコヒーレント勾配(CG)理論(Chatterjee, ICLR 20)の観点から検討する。
興味深い点がいくつかありますが、最も驚くべき結果は記憶に関するものです。
つまり、完全にランダムなラベルでトレーニングを行う場合、各サンプルは独立して適合するので、$m$-coherence は 1 に近いはずである。
しかし、これはそうではない:$m$-coherenceは、トレーニング中に非常に高い値に達する(100s)。
この現象の詳細な分析は、CGのより深い確認を提供するが、同時に、ニューラルネットワークの一般化の完全な説明を提供するために、理論から欠落しているものを鋭く緩和する。
関連論文リスト
- Convergence Rate Analysis of LION [54.28350823319057]
LION は、勾配カルシュ=クーン=T (sqrtdK-)$で測定された $cal(sqrtdK-)$ の反復を収束する。
従来のSGDと比較して,LIONは損失が小さく,性能も高いことを示す。
論文 参考訳(メタデータ) (2024-11-12T11:30:53Z) - Generalization and Stability of Interpolating Neural Networks with
Minimal Width [37.908159361149835]
補間系における勾配によって訓練された浅層ニューラルネットワークの一般化と最適化について検討する。
トレーニング損失数は$m=Omega(log4 (n))$ニューロンとニューロンを最小化する。
m=Omega(log4 (n))$のニューロンと$Tapprox n$で、テスト損失のトレーニングを$tildeO (1/)$に制限します。
論文 参考訳(メタデータ) (2023-02-18T05:06:15Z) - Theoretical Characterization of How Neural Network Pruning Affects its
Generalization [131.1347309639727]
この研究は、異なるプルーニング率がモデルの勾配降下ダイナミクスと一般化にどのように影響するかを研究する最初の試みである。
プルーニング率が一定の閾値以下である限り、勾配降下はトレーニング損失をゼロに導くことができる。
より驚くべきことに、プルーニング分数が大きくなるにつれて、一般化境界はより良くなる。
論文 参考訳(メタデータ) (2023-01-01T03:10:45Z) - Characterizing Datapoints via Second-Split Forgetting [93.99363547536392]
我々は、オリジナルのトレーニング例が忘れられた後(もしあれば)のエポックを追跡する補足的メトリックである$$-second-$split$$forgetting$$$time$ (SSFT)を提案する。
例えば$mislabeled$の例はすぐに忘れられ、$rare$の例は比較的ゆっくりと忘れられています。
SSFTは、(i)間違ったラベル付きサンプルを識別し、その除去により一般化が向上し、(ii)障害モードに関する洞察を提供する。
論文 参考訳(メタデータ) (2022-10-26T21:03:46Z) - Sharper Rates and Flexible Framework for Nonconvex SGD with Client and
Data Sampling [64.31011847952006]
我々は、平均$n$スムーズでおそらくは非カラー関数のほぼ定常点を求める問題を再考する。
我々は$smallsfcolorgreen$を一般化し、事実上あらゆるサンプリングメカニズムで確実に動作するようにします。
我々は、スムーズな非カラー状態における最適境界の最も一般的な、最も正確な解析を提供する。
論文 参考訳(メタデータ) (2022-06-05T21:32:33Z) - On the Generalization Mystery in Deep Learning [15.2292571922932]
2つの質問に対する答えは、トレーニング中の異なる例の勾配の相互作用にあると論じる。
我々は、コヒーレンスに対する計算が容易で解釈可能な計量を用いて、この議論を定式化する。
この理論は、なぜいくつかの例が他の例よりも早く確実に学習されるのかなど、ディープラーニングの他の多くの現象についても説明している。
論文 参考訳(メタデータ) (2022-03-18T16:09:53Z) - Locality defeats the curse of dimensionality in convolutional
teacher-student scenarios [69.2027612631023]
学習曲線指数$beta$を決定する上で,局所性が重要であることを示す。
我々は、自然の仮定を用いて、トレーニングセットのサイズに応じて減少するリッジでカーネルレグレッションを実行すると、リッジレスの場合と同じような学習曲線指数が得られることを証明して結論付けた。
論文 参考訳(メタデータ) (2021-06-16T08:27:31Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Why Are Convolutional Nets More Sample-Efficient than Fully-Connected
Nets? [33.51250867983687]
標準学習アルゴリズムにおいて、証明可能なサンプル複雑性のギャップを示すことができる自然なタスクを示す。
単一の対象関数を示し、可能なすべての分布について、$O(1)$対$Omega(d2/varepsilon)$ギャップを学習する。
同様の結果が$ell$回帰およびAdamやAdaGradといった適応型トレーニングアルゴリズムに対して達成される。
論文 参考訳(メタデータ) (2020-10-16T17:15:39Z) - The Interpolation Phase Transition in Neural Networks: Memorization and
Generalization under Lazy Training [10.72393527290646]
ニューラル・タンジェント(NT)体制における2層ニューラルネットワークの文脈における現象について検討した。
Ndgg n$ とすると、テストエラーは無限幅のカーネルに対するカーネルリッジ回帰の1つによってよく近似される。
後者は誤差リッジ回帰によりよく近似され、活性化関数の高次成分に関連する自己誘導項により正規化パラメータが増加する。
論文 参考訳(メタデータ) (2020-07-25T01:51:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。