Fugu-MT 論文翻訳(概要): Information-Theoretic Progress Measures reveal Grokking is an Emergent Phase Transition

論文の概要: Information-Theoretic Progress Measures reveal Grokking is an Emergent Phase Transition

arxiv url: http://arxiv.org/abs/2408.08944v1
Date: Fri, 16 Aug 2024 16:33:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-20 23:26:14.959547
Title: Information-Theoretic Progress Measures reveal Grokking is an Emergent Phase Transition
Title（参考訳）: グローキングが創発的相転移であることを示す情報理論的進展対策
Authors: Kenzo Clauw, Sebastiano Stramaglia, Daniele Marinazzo,
Abstract要約: 記憶が遅れた後,モデルが突然一般化するグルーキングについて検討した。我々は、ニューロン全体間の相乗的相互作用によって引き起こされる創発的な相転移にグルーキングが起因していると考えている。
参考スコア（独自算出の注目度）: 0.24578723416255754
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper studies emergent phenomena in neural networks by focusing on grokking where models suddenly generalize after delayed memorization. To understand this phase transition, we utilize higher-order mutual information to analyze the collective behavior (synergy) and shared properties (redundancy) between neurons during training. We identify distinct phases before grokking allowing us to anticipate when it occurs. We attribute grokking to an emergent phase transition caused by the synergistic interactions between neurons as a whole. We show that weight decay and weight initialization can enhance the emergent phase.
Abstract（参考訳）: 本稿では,遅延記憶の後にモデルが突然一般化するグルーキングに着目し,ニューラルネットワークの創発現象を考察する。この相転移を理解するために、高次相互情報を用いて、トレーニング中のニューロン間の集団行動(アレルギー)と共有特性(冗長性)を分析する。我々は、グルーキングの前に異なる位相を識別し、それが起こると予測できる。我々は、ニューロン間の相乗的相互作用によって生じる創発的な相転移をグルーキングとみなす。重み劣化と重み初期化が創発的位相を促進できることを示す。

関連論文リスト

Consciousness as a Jamming Phase [0.0]
本稿では,大規模言語モデルにおける意識の出現を,高次元無秩序システムにおける重要な現象として解釈する神経ジャミング位相図を開発する。粒状物質や他の複雑なシステムにおけるジャミング遷移の類似性を確立することにより、ニューラルネットワークの位相挙動を管理する3つの基本的な制御パラメータを同定する。
論文参考訳（メタデータ） (2025-07-10T22:07:06Z)
Understanding Gated Neurons in Transformers from Their Input-Output Functionality [48.91500104957796]
ニューロンの入力重みと出力重みのコサイン類似性について検討する。初期中間層ではエンリッチメントニューロンが支配的であり,後期層では枯渇傾向が見られた。
論文参考訳（メタデータ） (2025-05-23T14:14:17Z)
New Evidence of the Two-Phase Learning Dynamics of Neural Networks [59.55028392232715]
時間ウィンドウ全体にわたってネットワーク状態を比較するインターバルワイズ・パースペクティブを導入する。摂動に対するネットワークの応答はカオスから安定への移行を示す。また、この遷移点の後に、モデルの関数軌道は狭い円錐形の部分集合に制限される。
論文参考訳（メタデータ） (2025-05-20T04:03:52Z)
An overview of condensation phenomenon in deep learning [7.264378254137811]
ニューラルネットワークの非線形トレーニングの間、同じ層のニューロンは、同様の出力を持つグループに凝縮する傾向がある。本稿では, トレーニング力学と損失景観の構造の観点から, 凝縮の基盤となるメカニズムについて検討する。凝縮現象は、ニューラルネットワークの能力に関する貴重な洞察を与え、トランスフォーマーベースの言語モデルにおけるより強力な推論能力に相関する。
論文参考訳（メタデータ） (2025-04-13T08:50:24Z)
Confidence Regulation Neurons in Language Models [91.90337752432075]
本研究では,大規模言語モデルが次世代の予測において不確実性を表現・規制するメカニズムについて検討する。エントロピーニューロンは異常に高い重量ノルムを特徴とし、最終層正規化(LayerNorm)スケールに影響を与え、ロジットを効果的にスケールダウンさせる。ここで初めて説明するトークン周波数ニューロンは、各トークンのログをそのログ周波数に比例して増加または抑制することで、出力分布をユニグラム分布から遠ざかる。
論文参考訳（メタデータ） (2024-06-24T01:31:03Z)
Deep Grokking: Would Deep Neural Networks Generalize Better? [51.24007462968805]
グロキング(Grokking)とは、テストセットにおけるネットワークの一般化精度の急激な上昇を指す。深層ニューラルネットワークは、浅いものよりもグラッキングの影響を受けやすいことがわかりました。また,モデル深度を増大させると,興味深い多段階一般化現象が観測される。
論文参考訳（メタデータ） (2024-05-29T19:05:11Z)
Exploring neural oscillations during speech perception via surrogate gradient spiking neural networks [59.38765771221084]
本稿では、ディープラーニングフレームワークと互換性があり、スケーラブルな、生理学的にインスパイアされた音声認識アーキテクチャを提案する。本研究では, 終末から終末までの勾配降下訓練が, 中枢スパイク神経ネットワークにおける神経振動の出現に繋がることを示す。本研究は, スパイク周波数適応やリカレント接続などのフィードバック機構が, 認識性能を向上させるために, 神経活動の調節と同期に重要な役割を担っていることを明らかにする。
論文参考訳（メタデータ） (2024-04-22T09:40:07Z)
Fluctuation based interpretable analysis scheme for quantum many-body snapshots [0.0]
物質の微視的理解と分類は、強相関量子物理学の中心にある。ここでは、混乱学習と相関畳み込みニューラルネットワークを組み合わせることで、完全に解釈可能な位相検出を行う。我々の研究は、解釈可能な量子画像処理における新しい方向を、長距離の順序に相応しいものに開放する。
論文参考訳（メタデータ） (2023-04-12T17:59:59Z)
Phase Diagram of Initial Condensation for Two-layer Neural Networks [4.404198015660192]
2層ニューラルネットワークの初期凝縮の位相図を示す。私たちのフェーズダイアグラムは、ニューラルネットワークの動的構造を包括的に理解するのに役立ちます。
論文参考訳（メタデータ） (2023-03-12T03:55:38Z)
Exact Phase Transitions in Deep Learning [5.33024001730262]
トレーニング損失における予測誤差とモデル複雑性の競合は,1つの隠蔽層をもつネットの2次位相遷移と,複数の隠蔽層を持つネットの1次位相遷移につながることを証明した。提案理論はニューラルネットワークの最適化に直接関係しており,ベイズ深層学習における後部崩壊問題の起源を指摘する。
論文参考訳（メタデータ） (2022-05-25T06:00:34Z)
Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文参考訳（メタデータ） (2022-02-01T17:11:13Z)
Astrocytes mediate analogous memory in a multi-layer neuron-astrocytic network [52.77024349608834]
情報の一部が数秒間堅牢な活動パターンとして維持され、他の刺激が来なければ完全に消滅することを示す。この種の短期記憶は、操作情報を数秒保存し、次のパターンとの重複を避けるために完全に忘れてしまう。任意のパターンをロードし、一定の間隔で保存し、適切な手掛かりパターンを入力に適用した場合に検索する方法について示す。
論文参考訳（メタデータ） (2021-08-31T16:13:15Z)
Towards quantifying information flows: relative entropy in deep neural networks and the renormalization group [0.0]
相対エントロピーやクルバック・リーバーの分岐を明示的に計算することで,情報の流れを定量化する。ニューラルネットワークの場合、その振る舞いは機械学習における様々な情報手法に影響を及ぼす可能性がある。
論文参考訳（メタデータ） (2021-07-14T18:00:01Z)
Condition Integration Memory Network: An Interpretation of the Meaning of the Neuronal Design [10.421465303670638]
本論文では,プリミティブニューラルネットワークの機能的性質に関する仮説的枠組みを紹介する。ニューロンとシナプスの活動が、世界の動的変化を象徴的に再現できるという考えを分析します。アルゴリズム構造に参加せずにこれを実現する。
論文参考訳（メタデータ） (2021-05-21T05:59:27Z)
Towards a Neural Model for Serial Order in Frontal Cortex: a Brain Theory from Memory Development to Higher-Level Cognition [53.816853325427424]
そこで本研究では,未熟な前頭前野 (PFC) が側頭葉信号の階層的パターンを検出する主要な機能を利用していることを提案する。我々の仮説では、PFCは順序パターンの形で時間的配列の階層構造を検出し、それらを脳の異なる部分で階層的に情報をインデックスするために利用する。これにより、抽象的な知識を操作し、時間的に順序付けられた情報を計画するための言語対応の脳にツールを提供する。
論文参考訳（メタデータ） (2020-05-22T14:29:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。