論文の概要: Measuring Sharpness in Grokking
- arxiv url: http://arxiv.org/abs/2402.08946v1
- Date: Wed, 14 Feb 2024 05:22:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 16:57:00.871487
- Title: Measuring Sharpness in Grokking
- Title(参考訳): グロッキングにおける鋭さの測定
- Authors: Jack Miller, Patrick Gleeson, Charles O'Neill, Thang Bui, Noam Levi
- Abstract要約: 適切な機能形式を適合させることにより,グルーキングを計測する堅牢な手法を提案する。
トレーニングにおける遷移のシャープさと2つの条件下での検証精度について検討した。
両設定ともに,相対グルーキングギャップとグルーキングシャープネスの傾向が類似していることが判明した。
- 参考スコア(独自算出の注目度): 0.9374652839580183
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural networks sometimes exhibit grokking, a phenomenon where perfect or
near-perfect performance is achieved on a validation set well after the same
performance has been obtained on the corresponding training set. In this
workshop paper, we introduce a robust technique for measuring grokking, based
on fitting an appropriate functional form. We then use this to investigate the
sharpness of transitions in training and validation accuracy under two
settings. The first setting is the theoretical framework developed by Levi et
al. (2023) where closed form expressions are readily accessible. The second
setting is a two-layer MLP trained to predict the parity of bits, with grokking
induced by the concealment strategy of Miller et al. (2023). We find that
trends between relative grokking gap and grokking sharpness are similar in both
settings when using absolute and relative measures of sharpness. Reflecting on
this, we make progress toward explaining some trends and identify the need for
further study to untangle the various mechanisms which influence the sharpness
of grokking.
- Abstract(参考訳): ニューラルネットワークは、対応するトレーニングセットで同じ性能が得られた後、検証セット上で完璧またはほぼ完璧な性能を達成する現象であるグラッキングを示すことがある。
本ワークショップでは,適切な機能形態の適合に基づくグルーキング計測手法について紹介する。
次に、この手法を用いて、トレーニングにおける遷移のシャープさと2つの設定による検証精度を調査する。
最初の設定はlevi et al. (2023) によって開発された理論的な枠組みで、閉じた形式表現が容易にアクセスできる。
第2の設定は、ビットのパリティを予測するように訓練された2層mlpであり、miller et al. (2023) の隠蔽戦略によってグロッキングが引き起こされる。
相対グロッキングギャップとグロキングシャープネスの傾向は,絶対的および相対的シャープネス尺度を用いた場合,両者とも類似していることがわかった。
これを踏まえ、いくつかの傾向を説明し、グロッキングの鋭さに影響を与える様々なメカニズムを解き放つためのさらなる研究の必要性を見極める。
関連論文リスト
- Towards Calibrated Deep Clustering Network [66.32979175252478]
推定された信頼度と実際の精度を効果的に調整できる新しいデュアルヘッドディープクラスタリングパイプラインを提案する。
提案するキャリブレーション・ディープ・クラスタリング・フレームワークは,キャリブレーションの予測誤差から,最先端のディープ・クラスタリング手法を約10倍超えた。
論文 参考訳(メタデータ) (2024-03-04T11:23:40Z) - Towards Distribution-Agnostic Generalized Category Discovery [51.52673017664908]
データ不均衡とオープンエンドの分布は、現実の視覚世界の本質的な特性である。
我々は,BaCon(Self-Balanced Co-Advice contrastive framework)を提案する。
BaConは、対照的な学習ブランチと擬似ラベルブランチで構成され、DA-GCDタスクを解決するためのインタラクティブな監視を提供するために協力して動作する。
論文 参考訳(メタデータ) (2023-10-02T17:39:58Z) - Unifying Grokking and Double Descent [1.522101583951124]
ディープラーニングにおける一般化の原則的理解は、単一の概念的枠組みの下で異なる観察を統一する必要があるかもしれない。
従来の研究は、ほぼ完璧なトレーニングパフォーマンスとニアチャンステストパフォーマンスの持続期間を最終的に一般化する訓練力学である、エンフロキングを研究してきた。
我々は、パターン学習速度の枠組みの中で、グラッキングと二重降下を同じ学習力学の例と解釈できると仮定する。
論文 参考訳(メタデータ) (2023-03-10T19:16:53Z) - On double-descent in uncertainty quantification in overparametrized
models [24.073221004661427]
不確かさの定量化は、信頼性と信頼性のある機械学習における中心的な課題である。
最適正規化推定器のキャリブレーション曲線において, 分類精度とキャリブレーションのトレードオフを示す。
これは経験的ベイズ法とは対照的であり、高次一般化誤差と過度パラメトリゼーションにもかかわらず、我々の設定では十分に校正されていることを示す。
論文 参考訳(メタデータ) (2022-10-23T16:01:08Z) - ConMatch: Semi-Supervised Learning with Confidence-Guided Consistency
Regularization [26.542718087103665]
本稿では,ConMatchと呼ばれる擬似ラベルの信頼度によって重み付けされた画像の2つの強化されたビューから,モデルの予測間の一貫性の正則化をインテリジェントに活用する,新しい半教師付き学習フレームワークを提案する。
提案手法に対するConMatchの有効性を実証する実験を行い,広範囲にわたるアブレーション研究を行った。
論文 参考訳(メタデータ) (2022-08-18T04:37:50Z) - SmoothMix: Training Confidence-calibrated Smoothed Classifiers for
Certified Robustness [61.212486108346695]
自己混合によるスムーズな分類器のロバスト性を制御するためのトレーニングスキームSmoothMixを提案する。
提案手法は, 厳密性に制限された原因として, 信頼性の低い, オフクラスに近いサンプルを効果的に同定する。
提案手法はスムーズな分類器の検証値である$ell$-robustnessを大幅に改善できることを示す。
論文 参考訳(メタデータ) (2021-11-17T18:20:59Z) - Efficient Deep Feature Calibration for Cross-Modal Joint Embedding
Learning [14.070841236184439]
本稿では,テキスト画像のクロスモーダルな関節埋め込みを効果的に学習するための2相深い特徴キャリブレーションフレームワークを提案する。
プリプロセッシングでは、生のテキストイメージ入力データから派生したセマンティックコンテキスト特徴と、深い特徴工学を組み合わせることで、深い特徴キャリブレーションを行う。
組込み学習において,ソフトマージンと二重負サンプリングによるバッチハード三重項損失関数の最適化により,深い特徴校正を行う。
論文 参考訳(メタデータ) (2021-08-02T08:16:58Z) - An Adaptive Framework for Learning Unsupervised Depth Completion [59.17364202590475]
カラー画像から高密度深度マップとそれに伴うスパース深度測定を推定する手法を提案する。
正規化とコビジュアライゼーションは、モデルの適合度とデータによって関連付けられており、単一のフレームワークに統合可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T02:27:55Z) - Semi-supervised Contrastive Learning with Similarity Co-calibration [72.38187308270135]
SsCL(Semi-supervised Contrastive Learning)と呼ばれる新しいトレーニング戦略を提案する。
ssclは、自己教師付き学習におけるよく知られたコントラスト損失と、半教師付き学習におけるクロスエントロピー損失を組み合わせる。
SsCLはより差別的な表現を生じさせ,ショット学習に有益であることを示す。
論文 参考訳(メタデータ) (2021-05-16T09:13:56Z) - Hidden Cost of Randomized Smoothing [72.93630656906599]
本稿では、現在のランダム化平滑化による副作用を指摘する。
具体的には,1)スムーズな分類器の決定境界が小さくなり,クラスレベルでの精度の相違が生じること,2)学習過程における雑音増強の適用は,一貫性のない学習目的による縮小問題を必ずしも解決しない,という2つの主要なポイントを具体化し,証明する。
論文 参考訳(メタデータ) (2020-03-02T23:37:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。