論文の概要: Grokking From Abstraction to Intelligence
- arxiv url: http://arxiv.org/abs/2603.29262v1
- Date: Tue, 31 Mar 2026 04:57:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.156851
- Title: Grokking From Abstraction to Intelligence
- Title(参考訳): 抽象化からインテリジェンスへ
- Authors: Junjie Zhang, Zhen Shen, Gang Xiong, Xisong Dong,
- Abstract要約: モジュラー算術におけるグロキングは、それ自身をクインテシデントフルーツフライ実験として確立している。
そこで我々は,文法の原理によって支配される内部モデル構造を自然に単純化することから,グラクキングが生じることを示唆する。
- 参考スコア(独自算出の注目度): 15.03232023785853
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Grokking in modular arithmetic has established itself as the quintessential fruit fly experiment, serving as a critical domain for investigating the mechanistic origins of model generalization. Despite its significance, existing research remains narrowly focused on specific local circuits or optimization tuning, largely overlooking the global structural evolution that fundamentally drives this phenomenon. We propose that grokking originates from a spontaneous simplification of internal model structures governed by the principle of parsimony. We integrate causal, spectral, and algorithmic complexity measures alongside Singular Learning Theory to reveal that the transition from memorization to generalization corresponds to the physical collapse of redundant manifolds and deep information compression, offering a novel perspective for understanding the mechanisms of model overfitting and generalization.
- Abstract(参考訳): モジュラー算術におけるグロキングは、モデル一般化の機械的起源を研究するための重要な領域として機能する、五分数フルーツフライ実験として自身を確立している。
その重要性にもかかわらず、既存の研究は特定の局所回路や最適化チューニングに細心の注意を払っており、この現象を根本から駆動するグローバルな構造的進化を見越している。
そこで我々は,文法の原理によって支配される内部モデル構造を自然に単純化することから,グラクキングが生じることを示唆する。
我々は, 因果的, スペクトル的, アルゴリズム的複雑性対策を特異学習理論と組み合わせ, 暗記から一般化への遷移が, 重複多様体の物理的崩壊と深部情報圧縮に対応し, モデル過剰化と一般化のメカニズムを理解するための新たな視点を提供する。
関連論文リスト
- The Causal Round Trip: Generating Authentic Counterfactuals by Eliminating Information Loss [4.166536642958902]
構造再構成誤差(SRE)を除去して因果音を発生させる最初の拡散型フレームワークであるBELM-MDCMを紹介する。
我々の研究は、古典的因果論の厳密さと近代的な生成モデルのパワーを調和させる。
論文 参考訳(メタデータ) (2025-11-07T13:37:23Z) - A Mathematical Explanation of Transformers for Large Language Models and GPTs [6.245431127481903]
本稿では,トランスフォーマーを構造化積分微分方程式の離散化として解釈する新しい連続フレームワークを提案する。
この定式化の中で、自己注意機構は非局所積分作用素として自然に現れる。
提案手法は, 連続領域にトランスフォーマー演算全体を埋め込むことにより, 従来の理論的解析を超えて拡張する。
論文 参考訳(メタデータ) (2025-10-05T01:16:08Z) - NeuralGrok: Accelerate Grokking by Neural Gradient Transformation [54.65707216563953]
算術的タスクにおける変換器の一般化を高速化する最適勾配変換を学習する勾配に基づく手法であるNeuralGrokを提案する。
実験により,NeuralGrokは一般化を著しく加速することが示された。
また、NeuralGrokはより安定したトレーニングパラダイムを促進し、モデルの複雑さを常に低減します。
論文 参考訳(メタデータ) (2025-04-24T04:41:35Z) - On the Role of Information Structure in Reinforcement Learning for Partially-Observable Sequential Teams and Games [55.2480439325792]
逐次的意思決定問題において、情報構造とは、異なる時点に発生するシステム内の事象が相互にどのように影響するかを記述するものである。
対照的に、現実のシーケンシャルな意思決定問題は通常、システム変数の複雑で時間的な相互依存を伴う。
情報構造を明示する新しい強化学習モデルを定式化する。
論文 参考訳(メタデータ) (2024-03-01T21:28:19Z) - PAC-Chernoff Bounds: Understanding Generalization in the Interpolation Regime [6.645111950779666]
本稿では,補間器の完全密度を示す分布依存型PAC-Chernoff境界を提案する。
我々は、ある補間子がなぜ例外的な一般化を示すのかを示す統一的な理論的枠組みを提示する。
論文 参考訳(メタデータ) (2023-06-19T14:07:10Z) - DIFFormer: Scalable (Graph) Transformers Induced by Energy Constrained
Diffusion [66.21290235237808]
本稿では,データセットからのインスタンスのバッチを進化状態にエンコードするエネルギー制約拡散モデルを提案する。
任意のインスタンス対間の対拡散強度に対する閉形式最適推定を示唆する厳密な理論を提供する。
各種タスクにおいて優れた性能を有する汎用エンコーダバックボーンとして,本モデルの適用性を示す実験を行った。
論文 参考訳(メタデータ) (2023-01-23T15:18:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。