論文の概要: Understanding Grokking Through A Robustness Viewpoint
- arxiv url: http://arxiv.org/abs/2311.06597v1
- Date: Sat, 11 Nov 2023 15:45:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 17:41:28.606262
- Title: Understanding Grokking Through A Robustness Viewpoint
- Title(参考訳): ロバスト性の観点からのグロッキングの理解
- Authors: Zhiquan Tan, Weiran Huang
- Abstract要約: ニューラルネットワークの一般的な$l$ウェイトノルム(メトリック)は、実際にはグルークするのに十分な条件であることを示す。
我々は、ロバストネスと情報理論に基づく新しいメトリクスを提案し、新しいメトリクスがグラッキング現象とよく相関していることを発見した。
- 参考スコア(独自算出の注目度): 3.23379981095083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, an unusual phenomenon called grokking has gained much attention,
where sometimes a neural network generalizes long after it perfectly fits the
training data. We try to understand this seemingly strange phenomenon using the
robustness of the neural network. Using a robustness viewpoint, we show that
the popular $l_2$ weight norm (metric) of the neural network is actually a
sufficient condition for grokking. As we also empirically find that $l_2$ norm
correlates with grokking on the test data not in a timely way, we propose new
metrics based on robustness and information theory and find that our new
metrics correlate well with the grokking phenomenon. Based on the previous
observations, we propose methods to speed up the generalization process. In
addition, we examine the standard training process on modulo addition dataset
and find that it hardly learns other basic group operations before grokking,
including the commutative law. Interestingly, the speed up of generalization
when using our proposed method can be partially explained by learning the
commutative law, a necessary condition when the model groks on test dataset.
- Abstract(参考訳): 近年、グロッキングと呼ばれる異常な現象が注目され、ニューラルネットワークがトレーニングデータに完全に適合した後に一般化することがある。
ニューラルネットワークのロバスト性を利用して、この奇妙な現象を理解しようとしている。
また,ロバスト性の観点からは,ニューラルネットワークのl_2$weight norm (metric) がグルーキングの十分条件であることを示す。
また,l_2$ノルムがテストデータのグロッキングと時間的に相関していることが実証的に分かったので,ロバスト性と情報理論に基づく新しい指標を提案し,新しい指標がグロキング現象とよく相関していることを見いだした。
先程の観測に基づいて,一般化過程を高速化する手法を提案する。
さらに, モジュロ付加データセットの標準トレーニングプロセスについて検討し, 通勤法など, グルーキング前の基本的なグループ操作をほとんど学ばないことを見出した。
興味深いことに,提案手法を用いた一般化の高速化は,モデルがテストデータセットに群がる必要条件である可換法則を学習することによって部分的に説明できる。
関連論文リスト
- Grokking in Linear Estimators -- A Solvable Model that Groks without
Understanding [1.1510009152620668]
グロキングは、トレーニングデータに適合した後、モデルが一般化することを学習する場所である。
線形処理を行う線形ネットワークにおいて、グラッキングが驚くほど起こりうることを解析的および数値的に示す。
論文 参考訳(メタデータ) (2023-10-25T08:08:44Z) - Spectral Gap Regularization of Neural Networks [6.09170287691728]
Fiedler regularizationは、スペクトル/グラフィック情報を利用するニューラルネットワークを正規化するための新しいアプローチである。
トレーニング中の計算を高速化するために,近似的,変動的なアプローチを提供する。
本研究では,Fiedler正則化と,ドロップアウトやウェイト崩壊といった古典的正則化手法を比較検討した。
論文 参考訳(メタデータ) (2023-04-06T14:23:40Z) - Instance-Dependent Generalization Bounds via Optimal Transport [51.71650746285469]
既存の一般化境界は、現代のニューラルネットワークの一般化を促進する重要な要因を説明することができない。
データ空間における学習予測関数の局所リプシッツ正則性に依存するインスタンス依存の一般化境界を導出する。
ニューラルネットワークに対する一般化境界を実験的に解析し、有界値が有意義であることを示し、トレーニング中の一般的な正規化方法の効果を捉える。
論文 参考訳(メタデータ) (2022-11-02T16:39:42Z) - Grokking phase transitions in learning local rules with gradient descent [0.0]
グルーキングは相転移であり、臨界指数、グルーキング確率、グルーキング時間分布の正確な解析式を求める。
構造形成とグルーキングの関係を数値解析する。
論文 参考訳(メタデータ) (2022-10-26T11:07:04Z) - Omnigrok: Grokking Beyond Algorithmic Data [5.15188009671301]
ニューラルネットワークのロスランドスケープを解析することで、グルーキングを理解することを目指している。
トレーニングとテストの損失(モデルウェイト基準)は典型的には"L"と"U"に似ているので、このことを"LUメカニズム"と呼んでいる。
逆方向では、アルゴリズムデータセットのグラッキングを排除できます。
論文 参考訳(メタデータ) (2022-10-03T17:58:04Z) - Intersection of Parallels as an Early Stopping Criterion [64.8387564654474]
そこで本研究では,検証セットを必要とせずに,トレーニングイテレーションの早期停止点を見つける手法を提案する。
幅広い学習率において,コサイン距離基準 (CDC) と呼ばれる手法は,比較したすべての手法よりも平均的な一般化に寄与する。
論文 参考訳(メタデータ) (2022-08-19T19:42:41Z) - Information-Theoretic Generalization Bounds for Iterative
Semi-Supervised Learning [81.1071978288003]
特に,情報理論の原理を用いて,反復型SSLアルゴリズムのエミュレータ一般化誤差の振る舞いを理解することを目的とする。
我々の理論的結果は、クラス条件分散があまり大きくない場合、一般化誤差の上限は反復数とともに単調に減少するが、すぐに飽和することを示している。
論文 参考訳(メタデータ) (2021-10-03T05:38:49Z) - Reasoning-Modulated Representations [85.08205744191078]
タスクが純粋に不透明でないような共通的な環境について研究する。
我々のアプローチは、新しいデータ効率表現学習の道を開く。
論文 参考訳(メタデータ) (2021-07-19T13:57:13Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Squared $\ell_2$ Norm as Consistency Loss for Leveraging Augmented Data
to Learn Robust and Invariant Representations [76.85274970052762]
元のサンプルと拡張されたサンプルの埋め込み/表現の距離を規則化することは、ニューラルネットワークの堅牢性を改善するための一般的なテクニックである。
本稿では、これらの様々な正規化選択について検討し、埋め込みの正規化方法の理解を深める。
私たちが特定したジェネリックアプローチ(squared $ell$ regularized augmentation)は、それぞれ1つのタスクのために特別に設計されたいくつかの手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-11-25T22:40:09Z) - Benign overfitting in ridge regression [0.0]
過度にパラメータ化されたリッジ回帰に対する漸近的でない一般化境界を提供する。
最小あるいは負の正則化が小さい一般化誤差を得るのに十分であるかどうかを同定する。
論文 参考訳(メタデータ) (2020-09-29T20:00:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。