論文の概要: Understanding Grokking Through A Robustness Viewpoint
- arxiv url: http://arxiv.org/abs/2311.06597v2
- Date: Fri, 2 Feb 2024 14:03:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 19:15:10.858880
- Title: Understanding Grokking Through A Robustness Viewpoint
- Title(参考訳): ロバスト性の観点からのグロッキングの理解
- Authors: Zhiquan Tan, Weiran Huang
- Abstract要約: ニューラルネットワークの一般的な$l$ノルム(メトリック)は、実際にはグルークするのに十分な条件であることを示す。
我々は、ロバストネスと情報理論に基づく新しいメトリクスを提案し、我々の新しいメトリクスがグラッキング現象とよく相関し、グラッキングを予測するのに使用できることを発見した。
- 参考スコア(独自算出の注目度): 3.23379981095083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, an interesting phenomenon called grokking has gained much
attention, where generalization occurs long after the models have initially
overfitted the training data. We try to understand this seemingly strange
phenomenon through the robustness of the neural network. From a robustness
perspective, we show that the popular $l_2$ weight norm (metric) of the neural
network is actually a sufficient condition for grokking. Based on the previous
observations, we propose perturbation-based methods to speed up the
generalization process. In addition, we examine the standard training process
on the modulo addition dataset and find that it hardly learns other basic group
operations before grokking, for example, the commutative law. Interestingly,
the speed-up of generalization when using our proposed method can be explained
by learning the commutative law, a necessary condition when the model groks on
the test dataset. We also empirically find that $l_2$ norm correlates with
grokking on the test data not in a timely way, we propose new metrics based on
robustness and information theory and find that our new metrics correlate well
with the grokking phenomenon and may be used to predict grokking.
- Abstract(参考訳): 近年、グラッキングと呼ばれる興味深い現象が注目されており、モデルのトレーニングデータが過度に適合してからは、一般化が長く続く。
この一見奇妙な現象を、ニューラルネットワークの堅牢性を通じて理解しようと試みている。
ロバスト性の観点からは、ニューラルネットワークの一般的な$l_2$ weight norm(メトリック)が、実際にはグロッキングに十分な条件であることを示す。
先程の観測に基づいて,一般化過程を高速化する摂動に基づく手法を提案する。
さらに、modulo加算データセットの標準トレーニングプロセスを調べ、グロッキング(例えば可換則)の前に他の基本的なグループ操作を学習することがほとんどないことを見いだす。
興味深いことに,提案手法を用いた一般化の高速化は,モデルがテストデータセットに群がる必要条件である可換法則を学習することによって説明できる。
また,試験データに標準の$l_2は時間的相関がなく,ロバスト性や情報理論に基づく新しい指標を提案し,新しい指標がグルーキング現象とよく相関し,グルーキングの予測に使用される可能性があることを実証的に見出した。
関連論文リスト
- Exact, Tractable Gauss-Newton Optimization in Deep Reversible Architectures Reveal Poor Generalization [52.16435732772263]
多くのアプリケーションにおいて、ディープニューラルネットワークのトレーニングを加速する2階最適化が示されている。
しかし、二階法の一般化特性についてはいまだ議論が続いている。
我々は、Gauss-Newton (GN) の正確な更新が、ディープアーキテクチャのクラスにおいて、牽引可能な形式を取ることを初めて示す。
論文 参考訳(メタデータ) (2024-11-12T17:58:40Z) - Grokking at the Edge of Linear Separability [1.024113475677323]
本研究では,ロジスティック分類の長期的ダイナミクスを,定数ラベルを持つランダム特徴モデルを用いて解析する。
線形分離性の頂点にあるトレーニングセットに分類を適用すると、Grokkingが増幅されることが分かる。
論文 参考訳(メタデータ) (2024-10-06T14:08:42Z) - Anomaly Detection by Context Contrasting [57.695202846009714]
異常検出は、標準から逸脱するサンプルを特定することに焦点を当てる。
近年の自己教師型学習の進歩は、この点において大きな可能性を秘めている。
我々はコンテキスト拡張を通じて学習するCon$を提案する。
論文 参考訳(メタデータ) (2024-05-29T07:59:06Z) - Progress Measures for Grokking on Real-world Tasks [0.0]
グロキング(Grokking)は、機械学習モデルが過度に適合した後長く一般化する現象である。
本稿では,クロスエントロピー損失下での分類にディープニューラルネットワークを用いた実世界のデータセットのグルーキングについて検討する。
論文 参考訳(メタデータ) (2024-05-21T13:06:41Z) - Grokking in Linear Estimators -- A Solvable Model that Groks without
Understanding [1.1510009152620668]
グロキングは、トレーニングデータに適合した後、モデルが一般化することを学習する場所である。
線形処理を行う線形ネットワークにおいて、グラッキングが驚くほど起こりうることを解析的および数値的に示す。
論文 参考訳(メタデータ) (2023-10-25T08:08:44Z) - Instance-Dependent Generalization Bounds via Optimal Transport [51.71650746285469]
既存の一般化境界は、現代のニューラルネットワークの一般化を促進する重要な要因を説明することができない。
データ空間における学習予測関数の局所リプシッツ正則性に依存するインスタンス依存の一般化境界を導出する。
ニューラルネットワークに対する一般化境界を実験的に解析し、有界値が有意義であることを示し、トレーニング中の一般的な正規化方法の効果を捉える。
論文 参考訳(メタデータ) (2022-11-02T16:39:42Z) - Grokking phase transitions in learning local rules with gradient descent [0.0]
グルーキングは相転移であり、臨界指数、グルーキング確率、グルーキング時間分布の正確な解析式を求める。
構造形成とグルーキングの関係を数値解析する。
論文 参考訳(メタデータ) (2022-10-26T11:07:04Z) - Intersection of Parallels as an Early Stopping Criterion [64.8387564654474]
そこで本研究では,検証セットを必要とせずに,トレーニングイテレーションの早期停止点を見つける手法を提案する。
幅広い学習率において,コサイン距離基準 (CDC) と呼ばれる手法は,比較したすべての手法よりも平均的な一般化に寄与する。
論文 参考訳(メタデータ) (2022-08-19T19:42:41Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Squared $\ell_2$ Norm as Consistency Loss for Leveraging Augmented Data
to Learn Robust and Invariant Representations [76.85274970052762]
元のサンプルと拡張されたサンプルの埋め込み/表現の距離を規則化することは、ニューラルネットワークの堅牢性を改善するための一般的なテクニックである。
本稿では、これらの様々な正規化選択について検討し、埋め込みの正規化方法の理解を深める。
私たちが特定したジェネリックアプローチ(squared $ell$ regularized augmentation)は、それぞれ1つのタスクのために特別に設計されたいくつかの手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-11-25T22:40:09Z) - Benign overfitting in ridge regression [0.0]
過度にパラメータ化されたリッジ回帰に対する漸近的でない一般化境界を提供する。
最小あるいは負の正則化が小さい一般化誤差を得るのに十分であるかどうかを同定する。
論文 参考訳(メタデータ) (2020-09-29T20:00:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。