論文の概要: Understanding Grokking Through A Robustness Viewpoint
- arxiv url: http://arxiv.org/abs/2311.06597v2
- Date: Fri, 2 Feb 2024 14:03:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 19:15:10.858880
- Title: Understanding Grokking Through A Robustness Viewpoint
- Title(参考訳): ロバスト性の観点からのグロッキングの理解
- Authors: Zhiquan Tan, Weiran Huang
- Abstract要約: ニューラルネットワークの一般的な$l$ノルム(メトリック)は、実際にはグルークするのに十分な条件であることを示す。
我々は、ロバストネスと情報理論に基づく新しいメトリクスを提案し、我々の新しいメトリクスがグラッキング現象とよく相関し、グラッキングを予測するのに使用できることを発見した。
- 参考スコア(独自算出の注目度): 3.23379981095083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, an interesting phenomenon called grokking has gained much
attention, where generalization occurs long after the models have initially
overfitted the training data. We try to understand this seemingly strange
phenomenon through the robustness of the neural network. From a robustness
perspective, we show that the popular $l_2$ weight norm (metric) of the neural
network is actually a sufficient condition for grokking. Based on the previous
observations, we propose perturbation-based methods to speed up the
generalization process. In addition, we examine the standard training process
on the modulo addition dataset and find that it hardly learns other basic group
operations before grokking, for example, the commutative law. Interestingly,
the speed-up of generalization when using our proposed method can be explained
by learning the commutative law, a necessary condition when the model groks on
the test dataset. We also empirically find that $l_2$ norm correlates with
grokking on the test data not in a timely way, we propose new metrics based on
robustness and information theory and find that our new metrics correlate well
with the grokking phenomenon and may be used to predict grokking.
- Abstract(参考訳): 近年、グラッキングと呼ばれる興味深い現象が注目されており、モデルのトレーニングデータが過度に適合してからは、一般化が長く続く。
この一見奇妙な現象を、ニューラルネットワークの堅牢性を通じて理解しようと試みている。
ロバスト性の観点からは、ニューラルネットワークの一般的な$l_2$ weight norm(メトリック)が、実際にはグロッキングに十分な条件であることを示す。
先程の観測に基づいて,一般化過程を高速化する摂動に基づく手法を提案する。
さらに、modulo加算データセットの標準トレーニングプロセスを調べ、グロッキング(例えば可換則)の前に他の基本的なグループ操作を学習することがほとんどないことを見いだす。
興味深いことに,提案手法を用いた一般化の高速化は,モデルがテストデータセットに群がる必要条件である可換法則を学習することによって説明できる。
また,試験データに標準の$l_2は時間的相関がなく,ロバスト性や情報理論に基づく新しい指標を提案し,新しい指標がグルーキング現象とよく相関し,グルーキングの予測に使用される可能性があることを実証的に見出した。
関連論文リスト
- Grokking Beyond Neural Networks: An Empirical Exploration with Model
Complexity [0.0]
グロキング(Grokking)とは、トレーニングセットで同じパフォーマンスを達成した後、ニューラルネットワークが完璧またはほぼ完璧な精度を達成する場所である。
我々は,スプリアス情報を含む次元を付加することにより,アルゴリズムデータセット上でグラッキングを誘導する機構を明らかにする。
具体的には、この現象は、誤差と複雑さの風景における特定の領域のアクセシビリティによって支配されていると仮定する。
論文 参考訳(メタデータ) (2023-10-26T08:47:42Z) - Grokking in Linear Estimators -- A Solvable Model that Groks without
Understanding [1.1510009152620668]
グロキングは、トレーニングデータに適合した後、モデルが一般化することを学習する場所である。
線形処理を行う線形ネットワークにおいて、グラッキングが驚くほど起こりうることを解析的および数値的に示す。
論文 参考訳(メタデータ) (2023-10-25T08:08:44Z) - Spectral Gap Regularization of Neural Networks [6.09170287691728]
Fiedler regularizationは、スペクトル/グラフィック情報を利用するニューラルネットワークを正規化するための新しいアプローチである。
トレーニング中の計算を高速化するために,近似的,変動的なアプローチを提供する。
本研究では,Fiedler正則化と,ドロップアウトやウェイト崩壊といった古典的正則化手法を比較検討した。
論文 参考訳(メタデータ) (2023-04-06T14:23:40Z) - Instance-Dependent Generalization Bounds via Optimal Transport [51.71650746285469]
既存の一般化境界は、現代のニューラルネットワークの一般化を促進する重要な要因を説明することができない。
データ空間における学習予測関数の局所リプシッツ正則性に依存するインスタンス依存の一般化境界を導出する。
ニューラルネットワークに対する一般化境界を実験的に解析し、有界値が有意義であることを示し、トレーニング中の一般的な正規化方法の効果を捉える。
論文 参考訳(メタデータ) (2022-11-02T16:39:42Z) - Grokking phase transitions in learning local rules with gradient descent [0.0]
グルーキングは相転移であり、臨界指数、グルーキング確率、グルーキング時間分布の正確な解析式を求める。
構造形成とグルーキングの関係を数値解析する。
論文 参考訳(メタデータ) (2022-10-26T11:07:04Z) - Intersection of Parallels as an Early Stopping Criterion [64.8387564654474]
そこで本研究では,検証セットを必要とせずに,トレーニングイテレーションの早期停止点を見つける手法を提案する。
幅広い学習率において,コサイン距離基準 (CDC) と呼ばれる手法は,比較したすべての手法よりも平均的な一般化に寄与する。
論文 参考訳(メタデータ) (2022-08-19T19:42:41Z) - Information-Theoretic Generalization Bounds for Iterative
Semi-Supervised Learning [81.1071978288003]
特に,情報理論の原理を用いて,反復型SSLアルゴリズムのエミュレータ一般化誤差の振る舞いを理解することを目的とする。
我々の理論的結果は、クラス条件分散があまり大きくない場合、一般化誤差の上限は反復数とともに単調に減少するが、すぐに飽和することを示している。
論文 参考訳(メタデータ) (2021-10-03T05:38:49Z) - Reasoning-Modulated Representations [85.08205744191078]
タスクが純粋に不透明でないような共通的な環境について研究する。
我々のアプローチは、新しいデータ効率表現学習の道を開く。
論文 参考訳(メタデータ) (2021-07-19T13:57:13Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Squared $\ell_2$ Norm as Consistency Loss for Leveraging Augmented Data
to Learn Robust and Invariant Representations [76.85274970052762]
元のサンプルと拡張されたサンプルの埋め込み/表現の距離を規則化することは、ニューラルネットワークの堅牢性を改善するための一般的なテクニックである。
本稿では、これらの様々な正規化選択について検討し、埋め込みの正規化方法の理解を深める。
私たちが特定したジェネリックアプローチ(squared $ell$ regularized augmentation)は、それぞれ1つのタスクのために特別に設計されたいくつかの手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-11-25T22:40:09Z) - Benign overfitting in ridge regression [0.0]
過度にパラメータ化されたリッジ回帰に対する漸近的でない一般化境界を提供する。
最小あるいは負の正則化が小さい一般化誤差を得るのに十分であるかどうかを同定する。
論文 参考訳(メタデータ) (2020-09-29T20:00:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。