論文の概要: Measuring Sharpness in Grokking
- arxiv url: http://arxiv.org/abs/2402.08946v1
- Date: Wed, 14 Feb 2024 05:22:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 16:57:00.871487
- Title: Measuring Sharpness in Grokking
- Title(参考訳): グロッキングにおける鋭さの測定
- Authors: Jack Miller, Patrick Gleeson, Charles O'Neill, Thang Bui, Noam Levi
- Abstract要約: 適切な機能形式を適合させることにより,グルーキングを計測する堅牢な手法を提案する。
トレーニングにおける遷移のシャープさと2つの条件下での検証精度について検討した。
両設定ともに,相対グルーキングギャップとグルーキングシャープネスの傾向が類似していることが判明した。
- 参考スコア(独自算出の注目度): 0.9374652839580183
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural networks sometimes exhibit grokking, a phenomenon where perfect or
near-perfect performance is achieved on a validation set well after the same
performance has been obtained on the corresponding training set. In this
workshop paper, we introduce a robust technique for measuring grokking, based
on fitting an appropriate functional form. We then use this to investigate the
sharpness of transitions in training and validation accuracy under two
settings. The first setting is the theoretical framework developed by Levi et
al. (2023) where closed form expressions are readily accessible. The second
setting is a two-layer MLP trained to predict the parity of bits, with grokking
induced by the concealment strategy of Miller et al. (2023). We find that
trends between relative grokking gap and grokking sharpness are similar in both
settings when using absolute and relative measures of sharpness. Reflecting on
this, we make progress toward explaining some trends and identify the need for
further study to untangle the various mechanisms which influence the sharpness
of grokking.
- Abstract(参考訳): ニューラルネットワークは、対応するトレーニングセットで同じ性能が得られた後、検証セット上で完璧またはほぼ完璧な性能を達成する現象であるグラッキングを示すことがある。
本ワークショップでは,適切な機能形態の適合に基づくグルーキング計測手法について紹介する。
次に、この手法を用いて、トレーニングにおける遷移のシャープさと2つの設定による検証精度を調査する。
最初の設定はlevi et al. (2023) によって開発された理論的な枠組みで、閉じた形式表現が容易にアクセスできる。
第2の設定は、ビットのパリティを予測するように訓練された2層mlpであり、miller et al. (2023) の隠蔽戦略によってグロッキングが引き起こされる。
相対グロッキングギャップとグロキングシャープネスの傾向は,絶対的および相対的シャープネス尺度を用いた場合,両者とも類似していることがわかった。
これを踏まえ、いくつかの傾向を説明し、グロッキングの鋭さに影響を与える様々なメカニズムを解き放つためのさらなる研究の必要性を見極める。
関連論文リスト
- Improving self-training under distribution shifts via anchored confidence with theoretical guarantees [13.796664304274643]
自己学習は、予測信頼度と実際の精度の相違が増大するため、分布シフトの時にしばしば不足する。
時間的整合性に基づく分散シフト下での自己学習を改善するための原理的手法を開発した。
提案手法では,計算オーバーヘッドを伴わない分散シフトシナリオにおいて,自己学習性能を8%から16%向上させる。
論文 参考訳(メタデータ) (2024-11-01T13:48:11Z) - ZZU-NLP at SIGHAN-2024 dimABSA Task: Aspect-Based Sentiment Analysis with Coarse-to-Fine In-context Learning [0.36332383102551763]
DimABSAタスクはレストランレビューに微妙な感情強度予測を必要とする。
そこで本稿では,DimABSAタスクに対するBaichuan2-7Bモデルに基づく大まかなインコンテクスト学習手法を提案する。
論文 参考訳(メタデータ) (2024-07-22T02:54:46Z) - Certified $\ell_2$ Attribution Robustness via Uniformly Smoothed Attributions [20.487079380753876]
本研究では,ある空間から一様にサンプリングされた雑音によってバニラ属性を増大させる一様平滑化手法を提案する。
攻撃領域内の全ての摂動に対して、摂動試料の均一なスムーズな属性と非摂動試料とのコサイン類似性を低くすることが保証された。
論文 参考訳(メタデータ) (2024-05-10T09:56:02Z) - Towards Distribution-Agnostic Generalized Category Discovery [51.52673017664908]
データ不均衡とオープンエンドの分布は、現実の視覚世界の本質的な特性である。
我々は,BaCon(Self-Balanced Co-Advice contrastive framework)を提案する。
BaConは、対照的な学習ブランチと擬似ラベルブランチで構成され、DA-GCDタスクを解決するためのインタラクティブな監視を提供するために協力して動作する。
論文 参考訳(メタデータ) (2023-10-02T17:39:58Z) - Shrinking Class Space for Enhanced Certainty in Semi-Supervised Learning [59.44422468242455]
そこで我々はShrinkMatchと呼ばれる新しい手法を提案し、不確実なサンプルを学習する。
それぞれの不確実なサンプルに対して、元の Top-1 クラスを単に含むスランク類空間を適応的に求める。
次に、スランク空間における強と弱に強化された2つのサンプル間の整合正則化を課し、識別的表現を試みます。
論文 参考訳(メタデータ) (2023-08-13T14:05:24Z) - On double-descent in uncertainty quantification in overparametrized
models [24.073221004661427]
不確かさの定量化は、信頼性と信頼性のある機械学習における中心的な課題である。
最適正規化推定器のキャリブレーション曲線において, 分類精度とキャリブレーションのトレードオフを示す。
これは経験的ベイズ法とは対照的であり、高次一般化誤差と過度パラメトリゼーションにもかかわらず、我々の設定では十分に校正されていることを示す。
論文 参考訳(メタデータ) (2022-10-23T16:01:08Z) - ConMatch: Semi-Supervised Learning with Confidence-Guided Consistency
Regularization [26.542718087103665]
本稿では,ConMatchと呼ばれる擬似ラベルの信頼度によって重み付けされた画像の2つの強化されたビューから,モデルの予測間の一貫性の正則化をインテリジェントに活用する,新しい半教師付き学習フレームワークを提案する。
提案手法に対するConMatchの有効性を実証する実験を行い,広範囲にわたるアブレーション研究を行った。
論文 参考訳(メタデータ) (2022-08-18T04:37:50Z) - SmoothMix: Training Confidence-calibrated Smoothed Classifiers for
Certified Robustness [61.212486108346695]
自己混合によるスムーズな分類器のロバスト性を制御するためのトレーニングスキームSmoothMixを提案する。
提案手法は, 厳密性に制限された原因として, 信頼性の低い, オフクラスに近いサンプルを効果的に同定する。
提案手法はスムーズな分類器の検証値である$ell$-robustnessを大幅に改善できることを示す。
論文 参考訳(メタデータ) (2021-11-17T18:20:59Z) - An Adaptive Framework for Learning Unsupervised Depth Completion [59.17364202590475]
カラー画像から高密度深度マップとそれに伴うスパース深度測定を推定する手法を提案する。
正規化とコビジュアライゼーションは、モデルの適合度とデータによって関連付けられており、単一のフレームワークに統合可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T02:27:55Z) - Semi-supervised Contrastive Learning with Similarity Co-calibration [72.38187308270135]
SsCL(Semi-supervised Contrastive Learning)と呼ばれる新しいトレーニング戦略を提案する。
ssclは、自己教師付き学習におけるよく知られたコントラスト損失と、半教師付き学習におけるクロスエントロピー損失を組み合わせる。
SsCLはより差別的な表現を生じさせ,ショット学習に有益であることを示す。
論文 参考訳(メタデータ) (2021-05-16T09:13:56Z) - Hidden Cost of Randomized Smoothing [72.93630656906599]
本稿では、現在のランダム化平滑化による副作用を指摘する。
具体的には,1)スムーズな分類器の決定境界が小さくなり,クラスレベルでの精度の相違が生じること,2)学習過程における雑音増強の適用は,一貫性のない学習目的による縮小問題を必ずしも解決しない,という2つの主要なポイントを具体化し,証明する。
論文 参考訳(メタデータ) (2020-03-02T23:37:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。