論文の概要: NeuralGrok: Accelerate Grokking by Neural Gradient Transformation
- arxiv url: http://arxiv.org/abs/2504.17243v2
- Date: Fri, 25 Apr 2025 03:44:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.247184
- Title: NeuralGrok: Accelerate Grokking by Neural Gradient Transformation
- Title(参考訳): NeuralGrok: ニューラルネットワークの勾配変換による高速化
- Authors: Xinyu Zhou, Simin Fan, Martin Jaggi, Jie Fu,
- Abstract要約: 算術的タスクにおける変換器の一般化を高速化する最適勾配変換を学習する勾配に基づく手法であるNeuralGrokを提案する。
実験により,NeuralGrokは一般化を著しく加速することが示された。
また、NeuralGrokはより安定したトレーニングパラダイムを促進し、モデルの複雑さを常に低減します。
- 参考スコア(独自算出の注目度): 54.65707216563953
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Grokking is proposed and widely studied as an intricate phenomenon in which generalization is achieved after a long-lasting period of overfitting. In this work, we propose NeuralGrok, a novel gradient-based approach that learns an optimal gradient transformation to accelerate the generalization of transformers in arithmetic tasks. Specifically, NeuralGrok trains an auxiliary module (e.g., an MLP block) in conjunction with the base model. This module dynamically modulates the influence of individual gradient components based on their contribution to generalization, guided by a bilevel optimization algorithm. Our extensive experiments demonstrate that NeuralGrok significantly accelerates generalization, particularly in challenging arithmetic tasks. We also show that NeuralGrok promotes a more stable training paradigm, constantly reducing the model's complexity, while traditional regularization methods, such as weight decay, can introduce substantial instability and impede generalization. We further investigate the intrinsic model complexity leveraging a novel Absolute Gradient Entropy (AGE) metric, which explains that NeuralGrok effectively facilitates generalization by reducing the model complexity. We offer valuable insights on the grokking phenomenon of Transformer models, which encourages a deeper understanding of the fundamental principles governing generalization ability.
- Abstract(参考訳): 長期にわたるオーバーフィッティングの後に一般化が達成される複雑な現象として、グロッキングが提案され、広く研究されている。
本研究では,算術的タスクにおける変換器の一般化を高速化するために,最適勾配変換を学習する新しい勾配法であるNeuralGrokを提案する。
具体的には、NeuralGrokはベースモデルと合わせて補助モジュール(例えば、MLPブロック)をトレーニングする。
このモジュールは、2レベル最適化アルゴリズムによって導かれる一般化への寄与に基づいて、個々の勾配成分の影響を動的に変調する。
我々の広範な実験により、NeuralGrokは、特に挑戦的な算術的なタスクにおいて、一般化を著しく加速することが示された。
また、NeuralGrokはモデルの複雑さを常に減らし、より安定したトレーニングパラダイムを促進する一方で、従来の正規化手法である重み減衰は、かなりの不安定性と一般化を妨げる可能性があることを示す。
さらに,新しいAbsolute Gradient Entropy(AGE)メトリックを応用した本質的なモデル複雑性について検討し,モデル複雑性を低減することにより,NeuralGrokが効果的に一般化を促進することを説明する。
我々はトランスフォーマーモデルにおけるグルーキング現象に関する貴重な知見を提供し、一般化能力の基本的な原理を深く理解することを奨励する。
関連論文リスト
- Exact, Tractable Gauss-Newton Optimization in Deep Reversible Architectures Reveal Poor Generalization [52.16435732772263]
多くのアプリケーションにおいて、ディープニューラルネットワークのトレーニングを加速する2階最適化が示されている。
しかし、二階法の一般化特性についてはいまだ議論が続いている。
我々は、Gauss-Newton (GN) の正確な更新が、ディープアーキテクチャのクラスにおいて、牽引可能な形式を取ることを初めて示す。
論文 参考訳(メタデータ) (2024-11-12T17:58:40Z) - What Improves the Generalization of Graph Transformers? A Theoretical Dive into the Self-attention and Positional Encoding [67.59552859593985]
自己アテンションと位置エンコーディングを組み込んだグラフトランスフォーマーは、さまざまなグラフ学習タスクのための強力なアーキテクチャとして登場した。
本稿では,半教師付き分類のための浅いグラフ変換器の理論的検討について紹介する。
論文 参考訳(メタデータ) (2024-06-04T05:30:16Z) - Generalization of Scaled Deep ResNets in the Mean-Field Regime [55.77054255101667]
無限深度および広帯域ニューラルネットワークの限界におけるエンスケールResNetについて検討する。
この結果から,遅延学習体制を超えた深層ResNetの一般化能力に関する新たな知見が得られた。
論文 参考訳(メタデータ) (2024-03-14T21:48:00Z) - Linear Time GPs for Inferring Latent Trajectories from Neural Spike
Trains [7.936841911281107]
我々は,Hida-Mat'ernカーネルと共役変分推論(CVI)を利用した潜在GPモデルの一般的な推論フレームワークであるcvHMを提案する。
我々は任意の確率で線形時間複雑性を持つ潜在神経軌道の変分推定を行うことができる。
論文 参考訳(メタデータ) (2023-06-01T16:31:36Z) - Understanding the Generalization Ability of Deep Learning Algorithms: A
Kernelized Renyi's Entropy Perspective [11.255943520955764]
本稿では,Renyiのエントロピーをカーネル化した新しい情報理論尺度を提案する。
我々は,Renyiエントロピーのカーネル化の下で,勾配/ランジュバン降下(SGD/SGLD)学習アルゴリズムの一般化誤差境界を確立する。
我々の情報理論的境界は勾配の統計に依存しており、現在のSOTA(State-of-the-art)結果よりも厳密であることを示す。
論文 参考訳(メタデータ) (2023-05-02T01:17:15Z) - Learning Non-Vacuous Generalization Bounds from Optimization [8.294831479902658]
最適化の観点からは、単純だが空でない一般化を示す。
我々は、勾配アルゴリズムによってアクセスされた仮説セットが本質的にフラクタル的であることを利用して、この目標を達成する。
数値解析により,現代のニューラルネットワークにおいて,本手法が有意な一般化を保証することが実証された。
論文 参考訳(メタデータ) (2022-06-09T08:59:46Z) - Thermodynamics-informed graph neural networks [0.09332987715848712]
幾何的および熱力学的帰納バイアスを用いて、結果の積分スキームの精度と一般化を改善することを提案する。
1つ目は、非ユークリッド幾何学的事前および置換不変ノードとエッジ更新関数を誘導するグラフニューラルネットワークである。
第2のバイアスは、より一般的な非保守的力学をモデル化するために、ハミルトン形式論の拡張である問題のジェネリック構造を学ぶことで強制される。
論文 参考訳(メタデータ) (2022-03-03T17:30:44Z) - Orthogonal Graph Neural Networks [53.466187667936026]
グラフニューラルネットワーク(GNN)は,ノード表現の学習において優れていたため,大きな注目を集めている。
より畳み込み層を積み重ねることで、GNNのパフォーマンスが大幅に低下する。
本稿では,モデルトレーニングの安定化とモデル一般化性能の向上のために,既存のGNNバックボーンを拡張可能なOrtho-GConvを提案する。
論文 参考訳(メタデータ) (2021-09-23T12:39:01Z) - Fractal Structure and Generalization Properties of Stochastic
Optimization Algorithms [71.62575565990502]
最適化アルゴリズムの一般化誤差は、その一般化尺度の根底にあるフラクタル構造の複雑性'にバウンドできることを示す。
さらに、特定の問題(リニア/ロジスティックレグレッション、隠れ/層ニューラルネットワークなど)とアルゴリズムに対して、結果をさらに専門化します。
論文 参考訳(メタデータ) (2021-06-09T08:05:36Z) - The Neural Tangent Kernel in High Dimensions: Triple Descent and a
Multi-Scale Theory of Generalization [34.235007566913396]
現代のディープラーニングモデルでは、トレーニングデータに適合するために必要なパラメータよりもはるかに多くのパラメータが採用されている。
この予期せぬ振る舞いを記述するための新たなパラダイムは、エンファンダブル降下曲線(英語版)である。
本稿では,勾配降下を伴う広帯域ニューラルネットワークの挙動を特徴付けるニューラル・タンジェント・カーネルを用いた一般化の高精度な高次元解析を行う。
論文 参考訳(メタデータ) (2020-08-15T20:55:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。