論文の概要: Understanding Grokking Through A Robustness Viewpoint
- arxiv url: http://arxiv.org/abs/2311.06597v1
- Date: Sat, 11 Nov 2023 15:45:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 17:41:28.606262
- Title: Understanding Grokking Through A Robustness Viewpoint
- Title(参考訳): ロバスト性の観点からのグロッキングの理解
- Authors: Zhiquan Tan, Weiran Huang
- Abstract要約: ニューラルネットワークの一般的な$l$ウェイトノルム(メトリック)は、実際にはグルークするのに十分な条件であることを示す。
我々は、ロバストネスと情報理論に基づく新しいメトリクスを提案し、新しいメトリクスがグラッキング現象とよく相関していることを発見した。
- 参考スコア(独自算出の注目度): 3.23379981095083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, an unusual phenomenon called grokking has gained much attention,
where sometimes a neural network generalizes long after it perfectly fits the
training data. We try to understand this seemingly strange phenomenon using the
robustness of the neural network. Using a robustness viewpoint, we show that
the popular $l_2$ weight norm (metric) of the neural network is actually a
sufficient condition for grokking. As we also empirically find that $l_2$ norm
correlates with grokking on the test data not in a timely way, we propose new
metrics based on robustness and information theory and find that our new
metrics correlate well with the grokking phenomenon. Based on the previous
observations, we propose methods to speed up the generalization process. In
addition, we examine the standard training process on modulo addition dataset
and find that it hardly learns other basic group operations before grokking,
including the commutative law. Interestingly, the speed up of generalization
when using our proposed method can be partially explained by learning the
commutative law, a necessary condition when the model groks on test dataset.
- Abstract(参考訳): 近年、グロッキングと呼ばれる異常な現象が注目され、ニューラルネットワークがトレーニングデータに完全に適合した後に一般化することがある。
ニューラルネットワークのロバスト性を利用して、この奇妙な現象を理解しようとしている。
また,ロバスト性の観点からは,ニューラルネットワークのl_2$weight norm (metric) がグルーキングの十分条件であることを示す。
また,l_2$ノルムがテストデータのグロッキングと時間的に相関していることが実証的に分かったので,ロバスト性と情報理論に基づく新しい指標を提案し,新しい指標がグロキング現象とよく相関していることを見いだした。
先程の観測に基づいて,一般化過程を高速化する手法を提案する。
さらに, モジュロ付加データセットの標準トレーニングプロセスについて検討し, 通勤法など, グルーキング前の基本的なグループ操作をほとんど学ばないことを見出した。
興味深いことに,提案手法を用いた一般化の高速化は,モデルがテストデータセットに群がる必要条件である可換法則を学習することによって部分的に説明できる。
関連論文リスト
- Exact, Tractable Gauss-Newton Optimization in Deep Reversible Architectures Reveal Poor Generalization [52.16435732772263]
多くのアプリケーションにおいて、ディープニューラルネットワークのトレーニングを加速する2階最適化が示されている。
しかし、二階法の一般化特性についてはいまだ議論が続いている。
我々は、Gauss-Newton (GN) の正確な更新が、ディープアーキテクチャのクラスにおいて、牽引可能な形式を取ることを初めて示す。
論文 参考訳(メタデータ) (2024-11-12T17:58:40Z) - Grokking at the Edge of Linear Separability [1.024113475677323]
本研究では,ロジスティック分類の長期的ダイナミクスを,定数ラベルを持つランダム特徴モデルを用いて解析する。
線形分離性の頂点にあるトレーニングセットに分類を適用すると、Grokkingが増幅されることが分かる。
論文 参考訳(メタデータ) (2024-10-06T14:08:42Z) - Anomaly Detection by Context Contrasting [57.695202846009714]
異常検出は、標準から逸脱するサンプルを特定することに焦点を当てる。
近年の自己教師型学習の進歩は、この点において大きな可能性を秘めている。
我々はコンテキスト拡張を通じて学習するCon$を提案する。
論文 参考訳(メタデータ) (2024-05-29T07:59:06Z) - Progress Measures for Grokking on Real-world Tasks [0.0]
グロキング(Grokking)は、機械学習モデルが過度に適合した後長く一般化する現象である。
本稿では,クロスエントロピー損失下での分類にディープニューラルネットワークを用いた実世界のデータセットのグルーキングについて検討する。
論文 参考訳(メタデータ) (2024-05-21T13:06:41Z) - Grokking in Linear Estimators -- A Solvable Model that Groks without
Understanding [1.1510009152620668]
グロキングは、トレーニングデータに適合した後、モデルが一般化することを学習する場所である。
線形処理を行う線形ネットワークにおいて、グラッキングが驚くほど起こりうることを解析的および数値的に示す。
論文 参考訳(メタデータ) (2023-10-25T08:08:44Z) - Instance-Dependent Generalization Bounds via Optimal Transport [51.71650746285469]
既存の一般化境界は、現代のニューラルネットワークの一般化を促進する重要な要因を説明することができない。
データ空間における学習予測関数の局所リプシッツ正則性に依存するインスタンス依存の一般化境界を導出する。
ニューラルネットワークに対する一般化境界を実験的に解析し、有界値が有意義であることを示し、トレーニング中の一般的な正規化方法の効果を捉える。
論文 参考訳(メタデータ) (2022-11-02T16:39:42Z) - Grokking phase transitions in learning local rules with gradient descent [0.0]
グルーキングは相転移であり、臨界指数、グルーキング確率、グルーキング時間分布の正確な解析式を求める。
構造形成とグルーキングの関係を数値解析する。
論文 参考訳(メタデータ) (2022-10-26T11:07:04Z) - Intersection of Parallels as an Early Stopping Criterion [64.8387564654474]
そこで本研究では,検証セットを必要とせずに,トレーニングイテレーションの早期停止点を見つける手法を提案する。
幅広い学習率において,コサイン距離基準 (CDC) と呼ばれる手法は,比較したすべての手法よりも平均的な一般化に寄与する。
論文 参考訳(メタデータ) (2022-08-19T19:42:41Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Squared $\ell_2$ Norm as Consistency Loss for Leveraging Augmented Data
to Learn Robust and Invariant Representations [76.85274970052762]
元のサンプルと拡張されたサンプルの埋め込み/表現の距離を規則化することは、ニューラルネットワークの堅牢性を改善するための一般的なテクニックである。
本稿では、これらの様々な正規化選択について検討し、埋め込みの正規化方法の理解を深める。
私たちが特定したジェネリックアプローチ(squared $ell$ regularized augmentation)は、それぞれ1つのタスクのために特別に設計されたいくつかの手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-11-25T22:40:09Z) - Benign overfitting in ridge regression [0.0]
過度にパラメータ化されたリッジ回帰に対する漸近的でない一般化境界を提供する。
最小あるいは負の正則化が小さい一般化誤差を得るのに十分であるかどうかを同定する。
論文 参考訳(メタデータ) (2020-09-29T20:00:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。