Fugu-MT 論文翻訳(概要): The Slingshot Mechanism: An Empirical Study of Adaptive Optimizers and the \emph{Grokking Phenomenon}

論文の概要: The Slingshot Mechanism: An Empirical Study of Adaptive Optimizers and the \emph{Grokking Phenomenon}

arxiv url: http://arxiv.org/abs/2206.04817v1
Date: Fri, 10 Jun 2022 00:04:21 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-13 14:52:11.147070
Title: The Slingshot Mechanism: An Empirical Study of Adaptive Optimizers and the \emph{Grokking Phenomenon}
Title（参考訳）: スリングショット機構:適応オプティマイザとemph{grokking"現象の実験的研究
Authors: Vimal Thilak, Etai Littwin, Shuangfei Zhai, Omid Saremi, Roni Paiss and Joshua Susskind
Abstract要約: エンフロキング現象(英語: emphgrokking phenomenon)とは、長期にわたるオーバーフィッティングの後、突然、完全な一般化へと移行した状態を指す。 emphSlingshot Mechanism(emphSlingshot Mechanism)と呼ばれる、極端に遅い段階の適応勾配の異常なプラギーングが発見された。
参考スコア（独自算出の注目度）: 9.686260297217558
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The \emph{grokking phenomenon} as reported by Power et al.~\cite{power2021grokking} refers to a regime where a long period of overfitting is followed by a seemingly sudden transition to perfect generalization. In this paper, we attempt to reveal the underpinnings of Grokking via a series of empirical studies. Specifically, we uncover an optimization anomaly plaguing adaptive optimizers at extremely late stages of training, referred to as the \emph{Slingshot Mechanism}. A prominent artifact of the Slingshot Mechanism can be measured by the cyclic phase transitions between stable and unstable training regimes, and can be easily monitored by the cyclic behavior of the norm of the last layers weights. We empirically observe that without explicit regularization, Grokking as reported in \cite{power2021grokking} almost exclusively happens at the onset of \emph{Slingshots}, and is absent without it. While common and easily reproduced in more general settings, the Slingshot Mechanism does not follow from any known optimization theories that we are aware of, and can be easily overlooked without an in depth examination. Our work points to a surprising and useful inductive bias of adaptive gradient optimizers at late stages of training, calling for a revised theoretical analysis of their origin.
Abstract（参考訳）: power et al によって報告された \emph{grokking phenomena} 。 ~\cite{power2021grokking} は、長期のオーバーフィッティングが続き、突然、完全な一般化へと移行した状態を指す。本稿では,Grokkingの基盤を明らかにするために,一連の実証的研究を行った。具体的には、極端に遅い段階で適応最適化器を最適化する最適化を探索し、これを「emph{Slingshot Mechanism}」と呼ぶ。スリングショット機構の顕著なアーチファクトは、安定なトレーニング体制と不安定なトレーニング体制の間の循環相転移によって測定でき、最後の層重みのノルムの循環挙動によって容易に監視できる。我々は経験的に、明示的な正規化がなければ、 \cite{power2021grokking} で報告されているようなグロッキングは \emph{slingshots} の開始時にほとんどのみ起こり、それなしでは存在しない。より一般的な環境では一般的で容易に再現できるが、スリングショット機構は我々が認識しているいかなる既知の最適化理論にも従わず、奥行きを調べることなく容易に見過ごせる。私たちの研究は、トレーニングの後期における適応勾配最適化器の驚くほど有用な帰納的バイアスを示し、それらの起源の理論的解析の改訂を要求している。

関連論文リスト

Mirror, Mirror of the Flow: How Does Regularization Shape Implicit Bias? [16.42340707770231]
入射バイアスは、モデルをいかに一般化するかを説明する上で重要な役割を果たす。重量減少のような明示的な規則化は、過度な適合を防ぐためにしばしば用いられる。トレーニング力学の幾何学における持続的影響を解析する。
論文参考訳（メタデータ） (2025-04-17T12:17:51Z)
Beyond Progress Measures: Theoretical Insights into the Mechanism of Grokking [50.465604300990904]
グロキング(Grokking)とは、オーバーフィッティングの拡張後のテスト精度の急激な改善を指す。本研究では、素数演算のタスクにおいて、Transformerの基盤となるグルーキング機構について検討する。
論文参考訳（メタデータ） (2025-04-04T04:42:38Z)
Grokking at the Edge of Linear Separability [1.024113475677323]
本研究では,ロジスティック分類の長期的ダイナミクスを,定数ラベルを持つランダム特徴モデルを用いて解析する。線形分離性の頂点にあるトレーニングセットに分類を適用すると、Grokkingが増幅されることが分かる。
論文参考訳（メタデータ） (2024-10-06T14:08:42Z)
On the Generalization Ability of Unsupervised Pretraining [53.06175754026037]
教師なし学習の最近の進歩は、教師なし事前学習、および微調整がモデル一般化を改善することを示している。本稿では、教師なし事前学習中に得られた知識の伝達可能性に影響を及ぼす重要な要因をその後の微調整フェーズに照らす新しい理論的枠組みを提案する。この結果は教師なし事前学習と微調整のパラダイムの理解を深め、より効果的な事前学習アルゴリズムの設計に光を当てることができる。
論文参考訳（メタデータ） (2024-03-11T16:23:42Z)
On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文参考訳（メタデータ） (2023-12-13T02:11:07Z)
Dichotomy of Early and Late Phase Implicit Biases Can Provably Induce Grokking [81.57031092474625]
Powerらによる最近の研究は、算術のタスクを学習する際の驚くべき"グロキング"現象を強調した。ニューラルネットワークはまずトレーニングセットを“記憶”し、完全なトレーニング精度を持つが、ほぼランダムなテスト精度を実現する。本論文は, 理論設定におけるグルーキング現象を考察し, 初期および後期の暗黙バイアスの2分法により誘導可能であることを示す。
論文参考訳（メタデータ） (2023-11-30T18:55:38Z)
Towards Demystifying the Generalization Behaviors When Neural Collapse Emerges [132.62934175555145]
Neural Collapse(NC)は、トレーニング末期(TPT)におけるディープニューラルネットワークのよく知られた現象である本稿では,列車の精度が100%に達した後も,継続訓練がテストセットの精度向上に繋がる理由を理論的に説明する。我々はこの新たに発見された性質を「非保守的一般化」と呼ぶ。
論文参考訳（メタデータ） (2023-10-12T14:29:02Z)
Ensembling over Classifiers: a Bias-Variance Perspective [13.006468721874372]
Pfau (2013) による偏差分解の拡張の上に構築し, 分類器のアンサンブルの挙動に関する重要な知見を得る。条件付き推定は必然的に既約誤差を生じさせることを示す。経験的に、標準的なアンサンブルはバイアスを減少させ、この予期せぬ減少のために、分類器のアンサンブルがうまく機能するかもしれないという仮説を立てる。
論文参考訳（メタデータ） (2022-06-21T17:46:35Z)
Stochastic Training is Not Necessary for Generalization [57.04880404584737]
勾配降下の暗黙的な正則化(SGD)は、ニューラルネットワークで観測される印象的な一般化の振る舞いに基礎的であると広く信じられている。本研究では,SGDと同等のCIFAR-10において,非確率的フルバッチトレーニングが強力な性能を発揮することを示す。
論文参考訳（メタデータ） (2021-09-29T00:50:00Z)
Interpolation can hurt robust generalization even when there is no noise [76.3492338989419]
リッジの正規化による一般化の回避は,ノイズがなくても大幅に一般化できることを示す。この現象は線形回帰と分類の両方のロバストなリスクを証明し、したがってロバストなオーバーフィッティングに関する最初の理論的結果を与える。
論文参考訳（メタデータ） (2021-08-05T23:04:15Z)
FastAno: Fast Anomaly Detection via Spatio-temporal Patch Transformation [6.112591965159383]
本研究では,空間回転変換 (SRT) と時間混合変換 (TMT) を提案し,通常のフレームキューブ内で不規則なパッチキューブを生成する。提案手法は,3つの異常検出ベンチマークで評価され,競争精度が向上し,それまでのすべての作業を速度的に上回っている。
論文参考訳（メタデータ） (2021-06-16T08:14:31Z)
Video Anomaly Detection By The Duality Of Normality-Granted Optical Flow [1.8065361710947974]
正規性付与光流の双対性によって異常を正常なものと区別する。出現運動対応方式をフレーム再構成から予測まで拡張する。
論文参考訳（メタデータ） (2021-05-10T12:25:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。