論文の概要: Flatness is Necessary, Neural Collapse is Not: Rethinking Generalization via Grokking
- arxiv url: http://arxiv.org/abs/2509.17738v1
- Date: Mon, 22 Sep 2025 13:05:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.398928
- Title: Flatness is Necessary, Neural Collapse is Not: Rethinking Generalization via Grokking
- Title(参考訳): 平坦さは必要であり、神経崩壊は必要ではない - グローキングによる一般化の再考
- Authors: Ting Han, Linara Adilova, Henning Petzka, Jens Kleesiek, Michael Kamp,
- Abstract要約: 一般化の開始付近で神経崩壊と相対的平坦性が現れるが、常に平坦性だけがそれを予測している。
理論的には、ニューラルネットワークの崩壊は古典的な仮定の下で相対的な平坦性を意味する。
この結果は、相対平坦性は一般化のための潜在的に必要であり、より基本的な性質である、という見方を支持する。
- 参考スコア(独自算出の注目度): 14.213441786059327
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural collapse, i.e., the emergence of highly symmetric, class-wise clustered representations, is frequently observed in deep networks and is often assumed to reflect or enable generalization. In parallel, flatness of the loss landscape has been theoretically and empirically linked to generalization. Yet, the causal role of either phenomenon remains unclear: Are they prerequisites for generalization, or merely by-products of training dynamics? We disentangle these questions using grokking, a training regime in which memorization precedes generalization, allowing us to temporally separate generalization from training dynamics and we find that while both neural collapse and relative flatness emerge near the onset of generalization, only flatness consistently predicts it. Models encouraged to collapse or prevented from collapsing generalize equally well, whereas models regularized away from flat solutions exhibit delayed generalization. Furthermore, we show theoretically that neural collapse implies relative flatness under classical assumptions, explaining their empirical co-occurrence. Our results support the view that relative flatness is a potentially necessary and more fundamental property for generalization, and demonstrate how grokking can serve as a powerful probe for isolating its geometric underpinnings.
- Abstract(参考訳): 神経崩壊、すなわち、高度に対称なクラスワイドなクラスタリング表現の出現は、ディープネットワークでしばしば観測され、しばしば、一般化を反映または可能と仮定される。
平行して、損失ランドスケープの平坦性は理論上、経験的に一般化と結びついている。
それらは一般化の前提条件なのか、それとも単にトレーニングダイナミクスの副産物なのか?
我々は、記憶が一般化に先行する訓練体制であるグラッキングを用いてこれらの疑問を解き、トレーニング力学から時間的に一般化を分離することができ、神経崩壊と相対的平坦性の両方が一般化の開始付近に出現するのに対して、平坦性だけが常にそれを予測していることがわかった。
崩壊を奨励したり、崩壊を防いだりするモデルは等しく一般化するが、平らな解から切り離されたモデルは遅れた一般化を示す。
さらに,ニューラル崩壊は古典的な仮定の下で相対的な平坦性を示し,その経験的共起を説明する。
以上の結果から,相対平坦性は一般化に必要であり,より基本的な性質である可能性が示唆され,幾何的基盤を分離するための強力なプローブとしてグルーキングが有効であることを示す。
関連論文リスト
- Flatness After All? [6.698677477097004]
我々は、ヘッセンの柔らかいランク測度を用いて平坦度を測定することで一般化を評価することができると論じる。
非校正モデルに対しては、よく知られた竹内情報基準に平坦度尺度を接続し、過度に自信のないモデルに対する一般化ギャップの信頼性評価を行う。
論文 参考訳(メタデータ) (2025-06-21T20:33:36Z) - Deep Learning is Not So Mysterious or Different [54.5330466151362]
我々は、異常な一般化行動はニューラルネットワークとは異なるものではないと主張している。
我々はこれらの現象を説明する上で重要な統一原理として、軟性誘導バイアスを提示する。
また、ディープラーニングが、表現学習の能力など、他の方法と相対的に異なる点を強調します。
論文 参考訳(メタデータ) (2025-03-03T22:56:04Z) - Grokking at the Edge of Linear Separability [1.024113475677323]
グルーキングは非単調なテスト損失行動を伴う一般化が遅れている。
問題のパラメータが臨界点に近くても、グラッキングは自然に発生する。
論文 参考訳(メタデータ) (2024-10-06T14:08:42Z) - When does compositional structure yield compositional generalization? A kernel theory [0.0]
固定された構成的表現を持つカーネルモデルにおける合成一般化の理論を示す。
学習データのバイアスから生じる合成一般化における新しい障害モードを同定する。
本研究は, 学習データの統計的構造が構成一般化にどのように影響するかを考察する。
論文 参考訳(メタデータ) (2024-05-26T00:50:11Z) - Skews in the Phenomenon Space Hinder Generalization in Text-to-Image Generation [59.138470433237615]
本稿では,関係学習用データセットの言語的スキューと視覚的スクリューの両方を定量化する統計指標を提案する。
系統的に制御されたメトリクスは、一般化性能を強く予測できることを示す。
この研究は、データの多様性やバランスを向上し、絶対的なサイズをスケールアップするための重要な方向を示します。
論文 参考訳(メタデータ) (2024-03-25T03:18:39Z) - More Than a Toy: Random Matrix Models Predict How Real-World Neural
Representations Generalize [94.70343385404203]
ほとんどの理論解析は、カーネル回帰においても定性的現象を捉えるには不十分であることがわかった。
古典的GCV推定器は局所確率行列法則が成立するたびに一般化リスクに収束することを示す。
この結果から, ランダム行列理論は, 実際には神経表現の性質を理解する上で重要である可能性が示唆された。
論文 参考訳(メタデータ) (2022-03-11T18:59:01Z) - In Search of Robust Measures of Generalization [79.75709926309703]
我々は、一般化誤差、最適化誤差、過大なリスクのバウンダリを開発する。
経験的に評価すると、これらの境界の大部分は数値的に空白である。
我々は、分散ロバストネスの枠組みの中で、一般化対策を評価するべきであると論じる。
論文 参考訳(メタデータ) (2020-10-22T17:54:25Z) - Relative Flatness and Generalization [31.307340632319583]
損失曲線の平坦性は、機械学習モデルの一般化能力に関係していると推測される。
なぜ、そして、その状況下で平坦性が一般化に結びついているのかは、まだ明らかな理論上の問題である。
論文 参考訳(メタデータ) (2020-01-03T11:39:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。