論文の概要: Grokfast: Accelerated Grokking by Amplifying Slow Gradients
- arxiv url: http://arxiv.org/abs/2405.20233v1
- Date: Thu, 30 May 2024 16:35:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 13:29:24.506460
- Title: Grokfast: Accelerated Grokking by Amplifying Slow Gradients
- Title(参考訳): Grokfast: Slow Gradientを増幅することで、グローキングを加速する
- Authors: Jaerin Lee, Bong Gyun Kang, Kihoon Kim, Kyoung Mu Lee,
- Abstract要約: グルーキングは 遅れた一般化を 10倍の反復で達成する 訓練データに ほぼ完璧に適合した
我々の目標は、グラッキング現象下でのモデルの一般化を加速することである。
実験の結果,このアルゴリズムは画像,言語,グラフを含む多様なタスクに適用可能であることがわかった。
- 参考スコア(独自算出の注目度): 43.04874003852966
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One puzzling artifact in machine learning dubbed grokking is where delayed generalization is achieved tenfolds of iterations after near perfect overfitting to the training data. Focusing on the long delay itself on behalf of machine learning practitioners, our goal is to accelerate generalization of a model under grokking phenomenon. By regarding a series of gradients of a parameter over training iterations as a random signal over time, we can spectrally decompose the parameter trajectories under gradient descent into two components: the fast-varying, overfitting-yielding component and the slow-varying, generalization-inducing component. This analysis allows us to accelerate the grokking phenomenon more than $\times 50$ with only a few lines of code that amplifies the slow-varying components of gradients. The experiments show that our algorithm applies to diverse tasks involving images, languages, and graphs, enabling practical availability of this peculiar artifact of sudden generalization. Our code is available at \url{https://github.com/ironjr/grokfast}.
- Abstract(参考訳): グラッキングと呼ばれる機械学習のファズリングアーティファクトのひとつは、トレーニングデータにほぼ完全にオーバーフィットした後、遅れた一般化が10倍のイテレーションで達成されることだ。
機械学習の実践者に代わって、長い遅れ自体に焦点をあてて、グラッキング現象下でのモデルの一般化を加速させることを目標としています。
時間とともに繰り返しを訓練する際のパラメータの勾配をランダムな信号として扱うことで、勾配降下の下でパラメータの軌道をスペクトル的に2つの成分に分解することができる。
この分析により、勾配の遅い成分を増幅する数行のコードだけで、$\times 50$以上のグルーキング現象を加速することができる。
実験により,本アルゴリズムは画像,言語,グラフを含む多種多様なタスクに適用され,突発的一般化のこの特異な成果物の実用化が可能となった。
私たちのコードは \url{https://github.com/ironjr/grokfast} で利用可能です。
関連論文リスト
- Exact, Tractable Gauss-Newton Optimization in Deep Reversible Architectures Reveal Poor Generalization [52.16435732772263]
多くのアプリケーションにおいて、ディープニューラルネットワークのトレーニングを加速する2階最適化が示されている。
しかし、二階法の一般化特性についてはいまだ議論が続いている。
我々は、Gauss-Newton (GN) の正確な更新が、ディープアーキテクチャのクラスにおいて、牽引可能な形式を取ることを初めて示す。
論文 参考訳(メタデータ) (2024-11-12T17:58:40Z) - Towards More Accurate Diffusion Model Acceleration with A Timestep
Aligner [84.97253871387028]
数千のデノナイジングステップを用いて画像を生成するために定式化された拡散モデルは通常、遅い推論速度に悩まされる。
最小限のコストで特定の区間に対するより正確な積分方向を見つけるのに役立つ時間ステップ整合器を提案する。
実験により,我々のプラグイン設計を効率的に訓練し,様々な最先端加速度法の推論性能を向上できることが示された。
論文 参考訳(メタデータ) (2023-10-14T02:19:07Z) - Theoretical Characterization of How Neural Network Pruning Affects its
Generalization [131.1347309639727]
この研究は、異なるプルーニング率がモデルの勾配降下ダイナミクスと一般化にどのように影響するかを研究する最初の試みである。
プルーニング率が一定の閾値以下である限り、勾配降下はトレーニング損失をゼロに導くことができる。
より驚くべきことに、プルーニング分数が大きくなるにつれて、一般化境界はより良くなる。
論文 参考訳(メタデータ) (2023-01-01T03:10:45Z) - Nested Gradient Codes for Straggler Mitigation in Distributed Machine
Learning [21.319460501659666]
グラディエントコードは、一定数のストラグラーを許容するように設計されている。
フレキシブルなトラグラー数に許容できる勾配符号化方式を提案する。
適切なタスクスケジューリングと小さな追加シグナリングにより、作業者の負荷を実際のストラグラー数に適応させる。
論文 参考訳(メタデータ) (2022-12-16T16:56:51Z) - Flatter, faster: scaling momentum for optimal speedup of SGD [0.0]
ニューラルネットワークのトレーニングにおいて、勾配降下(SGD)とラベルノイズと運動量との相互作用から生じるトレーニングダイナミクスについて検討した。
運動量ハイパーパラメータ1-NISTbeta$を学習率で2/3$にスケーリングすると、一般化を犠牲にすることなく、最大で2/3$のトレーニングが加速することがわかった。
論文 参考訳(メタデータ) (2022-10-28T20:41:48Z) - Fast Saturating Gate for Learning Long Time Scales with Recurrent Neural
Networks [13.518582483147325]
簡単な関数合成による入力に対して2倍の指数収束率を持つ高速ゲートと呼ばれるゲート関数を提案する。
提案手法は, 非常に長い時間スケールを含むベンチマークタスクにおいて, 精度と計算効率において, 従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-10-04T03:32:54Z) - Temporal Latent Bottleneck: Synthesis of Fast and Slow Processing
Mechanisms in Sequence Learning [85.95599675484341]
リカレントニューラルネットワークは、時間的に圧縮された表現の学習に対して強い誘導バイアスを持つ。
変換器は時間的に圧縮された表現を学習する際の帰納的バイアスがほとんどない。
論文 参考訳(メタデータ) (2022-05-30T00:12:33Z) - A Communication-Efficient Distributed Gradient Clipping Algorithm for
Training Deep Neural Networks [11.461878019780597]
グラディエントDescentは、ディープニューラルネットワークにおいてゆっくりと収束する。
勾配クリッピング方式が並列スピードアップを楽しむために複数のマシンを活用できるかどうかは謎のままである。
論文 参考訳(メタデータ) (2022-05-10T16:55:33Z) - Adapting Stepsizes by Momentumized Gradients Improves Optimization and
Generalization [89.66571637204012]
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
論文 参考訳(メタデータ) (2021-06-22T03:13:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。