論文の概要: Explaining Grokking and Information Bottleneck through Neural Collapse Emergence
- arxiv url: http://arxiv.org/abs/2509.20829v1
- Date: Thu, 25 Sep 2025 07:17:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.747527
- Title: Explaining Grokking and Information Bottleneck through Neural Collapse Emergence
- Title(参考訳): ニューラルネットワークによるグロッキングとインフォメーション・ボトルネックの解説
- Authors: Keitaro Sakamoto, Issei Sato,
- Abstract要約: 本稿では,グルーキングの統一的な説明と,神経崩壊のレンズによる情報ボトルネック原理について述べる。
本研究では,集団の集団間分散の縮小が,情報ボトルネックとグルーキングの両根底にある重要な要因であることを示す。
神経崩壊のダイナミクスを解析することにより、トレーニングセットの適合と神経崩壊の進行の間に異なる時間スケールが、後期現象の挙動に関係していることが示される。
- 参考スコア(独自算出の注目度): 33.22494588674352
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The training dynamics of deep neural networks often defy expectations, even as these models form the foundation of modern machine learning. Two prominent examples are grokking, where test performance improves abruptly long after the training loss has plateaued, and the information bottleneck principle, where models progressively discard input information irrelevant to the prediction task as training proceeds. However, the mechanisms underlying these phenomena and their relations remain poorly understood. In this work, we present a unified explanation of such late-phase phenomena through the lens of neural collapse, which characterizes the geometry of learned representations. We show that the contraction of population within-class variance is a key factor underlying both grokking and information bottleneck, and relate this measure to the neural collapse measure defined on the training set. By analyzing the dynamics of neural collapse, we show that distinct time scales between fitting the training set and the progression of neural collapse account for the behavior of the late-phase phenomena. Finally, we validate our theoretical findings on multiple datasets and architectures.
- Abstract(参考訳): 深層ニューラルネットワークのトレーニングダイナミクスは、これらのモデルが現代の機械学習の基礎を形成しているにもかかわらず、しばしば期待に反する。
2つの顕著な例は、トレーニング損失が減少した後、テストパフォーマンスが突然改善するグラッキングと、トレーニングが進むにつれて、予測タスクに関係のない入力情報を段階的に破棄する情報ボトルネック原理である。
しかし、これらの現象とその関係のメカニズムはいまだに理解されていない。
本稿では,学習表現の幾何学を特徴付ける神経崩壊のレンズを通して,このような後期現象を統一的に説明する。
本研究は,集団の集団間分散の縮小が,グラッキングと情報ボトルネックの両根底にある重要な要因であることを示し,この指標をトレーニングセット上で定義された神経崩壊尺度と関連づける。
神経崩壊のダイナミクスを解析することにより、トレーニングセットの適合と神経崩壊の進行の間に異なる時間スケールが、後期現象の挙動に関係していることが示される。
最後に、複数のデータセットとアーキテクチャに関する理論的知見を検証する。
関連論文リスト
- Scaling Collapse Reveals Universal Dynamics in Compute-Optimally Trained Neural Networks [59.552873049024775]
計算最適化モデルでは, 極めて高精度な普遍性を示すことを示す。
学習速度が減衰すると、崩壊は非常に厳しくなり、モデル間の正規化曲線の差はノイズフロアより下になる。
これらの現象は、典型的なニューラルスケーリング法則において、崩壊とパワー・ロー構造を結びつけることによって説明される。
論文 参考訳(メタデータ) (2025-07-02T20:03:34Z) - The emergence of sparse attention: impact of data distribution and benefits of repetition [14.652502263025882]
本研究では,トランスフォーマーにおける重要かつ頻繁な注意パターンであるスパースアテンションのトレーニングに伴う出現について検討した。
玩具モデルの理論的解析と線形回帰変種を訓練した小型変圧器の経験的観察を組み合わせることで,機械的スパークアテンションの出現を明らかにする。
我々の研究は、データ分布とモデル設計が1つの形態の台頭の背後にある学習力学にどのように影響するかを理解するための、シンプルで理論的に基礎的なフレームワークを提供する。
論文 参考訳(メタデータ) (2025-05-23T13:14:02Z) - Do Mice Grok? Glimpses of Hidden Progress During Overtraining in Sensory Cortex [32.79706360108185]
マウスにおけるこのような学習の証拠は, 動作がほぼ順調に保たれた後, タスクの継続訓練後に見つかる(オーバートレーニング)。
オーバートレーニングの開始時に誤って分類された例は,その間は行動が変化しなかったものの,後から即座に分類できることが実証された。
このモデルが,動物学習における逆転を過剰に学習する経験的パズルについて,どのように説明するかを示す。
論文 参考訳(メタデータ) (2024-11-05T22:42:49Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z) - The large learning rate phase of deep learning: the catapult mechanism [50.23041928811575]
問題解決可能なトレーニングダイナミクスを備えたニューラルネットワークのクラスを提示する。
現実的なディープラーニング環境において,モデルの予測とトレーニングのダイナミクスとの間には,よい一致がある。
我々の結果は、異なる学習率でトレーニングされたモデルの特性に光を当てたと信じています。
論文 参考訳(メタデータ) (2020-03-04T17:52:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。