Fugu-MT 論文翻訳(概要): Understanding Grokking Through A Robustness Viewpoint

論文の概要: Understanding Grokking Through A Robustness Viewpoint

arxiv url: http://arxiv.org/abs/2311.06597v2
Date: Fri, 2 Feb 2024 14:03:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-05 19:15:10.858880
Title: Understanding Grokking Through A Robustness Viewpoint
Title（参考訳）: ロバスト性の観点からのグロッキングの理解
Authors: Zhiquan Tan, Weiran Huang
Abstract要約: ニューラルネットワークの一般的な$l$ノルム(メトリック)は、実際にはグルークするのに十分な条件であることを示す。我々は、ロバストネスと情報理論に基づく新しいメトリクスを提案し、我々の新しいメトリクスがグラッキング現象とよく相関し、グラッキングを予測するのに使用できることを発見した。
参考スコア（独自算出の注目度）: 3.23379981095083
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, an interesting phenomenon called grokking has gained much attention, where generalization occurs long after the models have initially overfitted the training data. We try to understand this seemingly strange phenomenon through the robustness of the neural network. From a robustness perspective, we show that the popular $l_2$ weight norm (metric) of the neural network is actually a sufficient condition for grokking. Based on the previous observations, we propose perturbation-based methods to speed up the generalization process. In addition, we examine the standard training process on the modulo addition dataset and find that it hardly learns other basic group operations before grokking, for example, the commutative law. Interestingly, the speed-up of generalization when using our proposed method can be explained by learning the commutative law, a necessary condition when the model groks on the test dataset. We also empirically find that $l_2$ norm correlates with grokking on the test data not in a timely way, we propose new metrics based on robustness and information theory and find that our new metrics correlate well with the grokking phenomenon and may be used to predict grokking.
Abstract（参考訳）: 近年、グラッキングと呼ばれる興味深い現象が注目されており、モデルのトレーニングデータが過度に適合してからは、一般化が長く続く。この一見奇妙な現象を、ニューラルネットワークの堅牢性を通じて理解しようと試みている。ロバスト性の観点からは、ニューラルネットワークの一般的な$l_2$ weight norm(メトリック)が、実際にはグロッキングに十分な条件であることを示す。先程の観測に基づいて,一般化過程を高速化する摂動に基づく手法を提案する。さらに、modulo加算データセットの標準トレーニングプロセスを調べ、グロッキング(例えば可換則)の前に他の基本的なグループ操作を学習することがほとんどないことを見いだす。興味深いことに,提案手法を用いた一般化の高速化は,モデルがテストデータセットに群がる必要条件である可換法則を学習することによって説明できる。また,試験データに標準の$l_2は時間的相関がなく,ロバスト性や情報理論に基づく新しい指標を提案し,新しい指標がグルーキング現象とよく相関し,グルーキングの予測に使用される可能性があることを実証的に見出した。

関連論文リスト

Tracing the Path to Grokking: Embeddings, Dropout, and Network Activation [0.0]
グロキング(Grokking)とは、トレーニング精度の向上後にニューラルネットワークのテスト精度が向上する遅延一般化のこと。本稿では, 落下時の分散, 強靭性, 埋め込み類似性, 余剰性など, グルーキングの挙動を予測できる指標をいくつか紹介する。
論文参考訳（メタデータ） (2025-07-15T18:30:42Z)
Let Me Grok for You: Accelerating Grokking via Embedding Transfer from a Weaker Model [26.536857505794092]
「グロキング」とは、ニューラルネットワークがトレーニングデータを最初に記憶し、一般化が不十分な現象であるが、訓練が長引いた後に突然、ほぼ完全な一般化へと移行する現象である。本稿では、ニューラルネットワークのトレーニングにおいて、グラッキングを高速化する簡易かつ原理的な方法であるGrokTransferを提案する。我々は、通常訓練において遅延一般化が常に発生する合成XORタスクにおいて、GrokTransferがターゲットモデルを遅延なく直接一般化できるようにすることを厳密に証明する。
論文参考訳（メタデータ） (2025-04-17T19:08:40Z)
Beyond Progress Measures: Theoretical Insights into the Mechanism of Grokking [50.465604300990904]
グロキング(Grokking)とは、オーバーフィッティングの拡張後のテスト精度の急激な改善を指す。本研究では、素数演算のタスクにおいて、Transformerの基盤となるグルーキング機構について検討する。
論文参考訳（メタデータ） (2025-04-04T04:42:38Z)
Grokking Explained: A Statistical Phenomenon [4.113597666007784]
グローキング(英: Grokking)または遅延一般化(英: delay generalization)は、モデルのトレーニングセットの損失が収束した後のみ、テストセットの損失が急激に減少する興味深い学習現象である。本稿では,グルーキングを定式化し,その出現の鍵となる要素がトレーニングデータとテストデータ間の分散シフトであることを示す。
論文参考訳（メタデータ） (2025-02-03T19:28:11Z)
Exact, Tractable Gauss-Newton Optimization in Deep Reversible Architectures Reveal Poor Generalization [52.16435732772263]
多くのアプリケーションにおいて、ディープニューラルネットワークのトレーニングを加速する2階最適化が示されている。しかし、二階法の一般化特性についてはいまだ議論が続いている。我々は、Gauss-Newton (GN) の正確な更新が、ディープアーキテクチャのクラスにおいて、牽引可能な形式を取ることを初めて示す。
論文参考訳（メタデータ） (2024-11-12T17:58:40Z)
Grokking at the Edge of Linear Separability [1.024113475677323]
本研究では,ロジスティック分類の長期的ダイナミクスを,定数ラベルを持つランダム特徴モデルを用いて解析する。線形分離性の頂点にあるトレーニングセットに分類を適用すると、Grokkingが増幅されることが分かる。
論文参考訳（メタデータ） (2024-10-06T14:08:42Z)
Anomaly Detection by Context Contrasting [57.695202846009714]
異常検出は、標準から逸脱するサンプルを特定することに焦点を当てる。近年の自己教師型学習の進歩は、この点において大きな可能性を秘めている。我々はコンテキスト拡張を通じて学習するCon$を提案する。
論文参考訳（メタデータ） (2024-05-29T07:59:06Z)
Progress Measures for Grokking on Real-world Tasks [0.0]
グロキング(Grokking)は、機械学習モデルが過度に適合した後長く一般化する現象である。本稿では,クロスエントロピー損失下での分類にディープニューラルネットワークを用いた実世界のデータセットのグルーキングについて検討する。
論文参考訳（メタデータ） (2024-05-21T13:06:41Z)
Grokking in Linear Estimators -- A Solvable Model that Groks without Understanding [1.1510009152620668]
グロキングは、トレーニングデータに適合した後、モデルが一般化することを学習する場所である。線形処理を行う線形ネットワークにおいて、グラッキングが驚くほど起こりうることを解析的および数値的に示す。
論文参考訳（メタデータ） (2023-10-25T08:08:44Z)
Instance-Dependent Generalization Bounds via Optimal Transport [51.71650746285469]
既存の一般化境界は、現代のニューラルネットワークの一般化を促進する重要な要因を説明することができない。データ空間における学習予測関数の局所リプシッツ正則性に依存するインスタンス依存の一般化境界を導出する。ニューラルネットワークに対する一般化境界を実験的に解析し、有界値が有意義であることを示し、トレーニング中の一般的な正規化方法の効果を捉える。
論文参考訳（メタデータ） (2022-11-02T16:39:42Z)
Grokking phase transitions in learning local rules with gradient descent [0.0]
グルーキングは相転移であり、臨界指数、グルーキング確率、グルーキング時間分布の正確な解析式を求める。構造形成とグルーキングの関係を数値解析する。
論文参考訳（メタデータ） (2022-10-26T11:07:04Z)
Intersection of Parallels as an Early Stopping Criterion [64.8387564654474]
そこで本研究では,検証セットを必要とせずに,トレーニングイテレーションの早期停止点を見つける手法を提案する。幅広い学習率において,コサイン距離基準 (CDC) と呼ばれる手法は,比較したすべての手法よりも平均的な一般化に寄与する。
論文参考訳（メタデータ） (2022-08-19T19:42:41Z)
Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文参考訳（メタデータ） (2021-06-06T19:08:53Z)
Squared $\ell_2$ Norm as Consistency Loss for Leveraging Augmented Data to Learn Robust and Invariant Representations [76.85274970052762]
元のサンプルと拡張されたサンプルの埋め込み/表現の距離を規則化することは、ニューラルネットワークの堅牢性を改善するための一般的なテクニックである。本稿では、これらの様々な正規化選択について検討し、埋め込みの正規化方法の理解を深める。私たちが特定したジェネリックアプローチ(squared $ell$ regularized augmentation)は、それぞれ1つのタスクのために特別に設計されたいくつかの手法より優れていることを示す。
論文参考訳（メタデータ） (2020-11-25T22:40:09Z)
Benign overfitting in ridge regression [0.0]
過度にパラメータ化されたリッジ回帰に対する漸近的でない一般化境界を提供する。最小あるいは負の正則化が小さい一般化誤差を得るのに十分であるかどうかを同定する。
論文参考訳（メタデータ） (2020-09-29T20:00:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。