論文の概要: Information-Theoretic Progress Measures reveal Grokking is an Emergent Phase Transition
- arxiv url: http://arxiv.org/abs/2408.08944v1
- Date: Fri, 16 Aug 2024 16:33:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 23:26:14.959547
- Title: Information-Theoretic Progress Measures reveal Grokking is an Emergent Phase Transition
- Title(参考訳): グローキングが創発的相転移であることを示す情報理論的進展対策
- Authors: Kenzo Clauw, Sebastiano Stramaglia, Daniele Marinazzo,
- Abstract要約: 記憶が遅れた後,モデルが突然一般化するグルーキングについて検討した。
我々は、ニューロン全体間の相乗的相互作用によって引き起こされる創発的な相転移にグルーキングが起因していると考えている。
- 参考スコア(独自算出の注目度): 0.24578723416255754
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper studies emergent phenomena in neural networks by focusing on grokking where models suddenly generalize after delayed memorization. To understand this phase transition, we utilize higher-order mutual information to analyze the collective behavior (synergy) and shared properties (redundancy) between neurons during training. We identify distinct phases before grokking allowing us to anticipate when it occurs. We attribute grokking to an emergent phase transition caused by the synergistic interactions between neurons as a whole. We show that weight decay and weight initialization can enhance the emergent phase.
- Abstract(参考訳): 本稿では,遅延記憶の後にモデルが突然一般化するグルーキングに着目し,ニューラルネットワークの創発現象を考察する。
この相転移を理解するために、高次相互情報を用いて、トレーニング中のニューロン間の集団行動(アレルギー)と共有特性(冗長性)を分析する。
我々は、グルーキングの前に異なる位相を識別し、それが起こると予測できる。
我々は、ニューロン間の相乗的相互作用によって生じる創発的な相転移をグルーキングとみなす。
重み劣化と重み初期化が創発的位相を促進できることを示す。
関連論文リスト
- Confidence Regulation Neurons in Language Models [91.90337752432075]
本研究では,大規模言語モデルが次世代の予測において不確実性を表現・規制するメカニズムについて検討する。
エントロピーニューロンは異常に高い重量ノルムを特徴とし、最終層正規化(LayerNorm)スケールに影響を与え、ロジットを効果的にスケールダウンさせる。
ここで初めて説明するトークン周波数ニューロンは、各トークンのログをそのログ周波数に比例して増加または抑制することで、出力分布をユニグラム分布から遠ざかる。
論文 参考訳(メタデータ) (2024-06-24T01:31:03Z) - Deep Grokking: Would Deep Neural Networks Generalize Better? [51.24007462968805]
グロキング(Grokking)とは、テストセットにおけるネットワークの一般化精度の急激な上昇を指す。
深層ニューラルネットワークは、浅いものよりもグラッキングの影響を受けやすいことがわかりました。
また,モデル深度を増大させると,興味深い多段階一般化現象が観測される。
論文 参考訳(メタデータ) (2024-05-29T19:05:11Z) - Exploring neural oscillations during speech perception via surrogate gradient spiking neural networks [59.38765771221084]
本稿では、ディープラーニングフレームワークと互換性があり、スケーラブルな、生理学的にインスパイアされた音声認識アーキテクチャを提案する。
本研究では, 終末から終末までの勾配降下訓練が, 中枢スパイク神経ネットワークにおける神経振動の出現に繋がることを示す。
本研究は, スパイク周波数適応やリカレント接続などのフィードバック機構が, 認識性能を向上させるために, 神経活動の調節と同期に重要な役割を担っていることを明らかにする。
論文 参考訳(メタデータ) (2024-04-22T09:40:07Z) - Fluctuation based interpretable analysis scheme for quantum many-body
snapshots [0.0]
物質の微視的理解と分類は、強相関量子物理学の中心にある。
ここでは、混乱学習と相関畳み込みニューラルネットワークを組み合わせることで、完全に解釈可能な位相検出を行う。
我々の研究は、解釈可能な量子画像処理における新しい方向を、長距離の順序に相応しいものに開放する。
論文 参考訳(メタデータ) (2023-04-12T17:59:59Z) - Phase Diagram of Initial Condensation for Two-layer Neural Networks [4.404198015660192]
2層ニューラルネットワークの初期凝縮の位相図を示す。
私たちのフェーズダイアグラムは、ニューラルネットワークの動的構造を包括的に理解するのに役立ちます。
論文 参考訳(メタデータ) (2023-03-12T03:55:38Z) - Exact Phase Transitions in Deep Learning [5.33024001730262]
トレーニング損失における予測誤差とモデル複雑性の競合は,1つの隠蔽層をもつネットの2次位相遷移と,複数の隠蔽層を持つネットの1次位相遷移につながることを証明した。
提案理論はニューラルネットワークの最適化に直接関係しており,ベイズ深層学習における後部崩壊問題の起源を指摘する。
論文 参考訳(メタデータ) (2022-05-25T06:00:34Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Astrocytes mediate analogous memory in a multi-layer neuron-astrocytic
network [52.77024349608834]
情報の一部が数秒間堅牢な活動パターンとして維持され、他の刺激が来なければ完全に消滅することを示す。
この種の短期記憶は、操作情報を数秒保存し、次のパターンとの重複を避けるために完全に忘れてしまう。
任意のパターンをロードし、一定の間隔で保存し、適切な手掛かりパターンを入力に適用した場合に検索する方法について示す。
論文 参考訳(メタデータ) (2021-08-31T16:13:15Z) - Towards quantifying information flows: relative entropy in deep neural
networks and the renormalization group [0.0]
相対エントロピーやクルバック・リーバーの分岐を明示的に計算することで,情報の流れを定量化する。
ニューラルネットワークの場合、その振る舞いは機械学習における様々な情報手法に影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2021-07-14T18:00:01Z) - Condition Integration Memory Network: An Interpretation of the Meaning
of the Neuronal Design [10.421465303670638]
本論文では,プリミティブニューラルネットワークの機能的性質に関する仮説的枠組みを紹介する。
ニューロンとシナプスの活動が、世界の動的変化を象徴的に再現できるという考えを分析します。
アルゴリズム構造に参加せずにこれを実現する。
論文 参考訳(メタデータ) (2021-05-21T05:59:27Z) - Towards a Neural Model for Serial Order in Frontal Cortex: a Brain
Theory from Memory Development to Higher-Level Cognition [53.816853325427424]
そこで本研究では,未熟な前頭前野 (PFC) が側頭葉信号の階層的パターンを検出する主要な機能を利用していることを提案する。
我々の仮説では、PFCは順序パターンの形で時間的配列の階層構造を検出し、それらを脳の異なる部分で階層的に情報をインデックスするために利用する。
これにより、抽象的な知識を操作し、時間的に順序付けられた情報を計画するための言語対応の脳にツールを提供する。
論文 参考訳(メタデータ) (2020-05-22T14:29:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。