Fugu-MT 論文翻訳(概要): Measuring Sharpness in Grokking

論文の概要: Measuring Sharpness in Grokking

arxiv url: http://arxiv.org/abs/2402.08946v1
Date: Wed, 14 Feb 2024 05:22:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-15 16:57:00.871487
Title: Measuring Sharpness in Grokking
Title（参考訳）: グロッキングにおける鋭さの測定
Authors: Jack Miller, Patrick Gleeson, Charles O'Neill, Thang Bui, Noam Levi
Abstract要約: 適切な機能形式を適合させることにより,グルーキングを計測する堅牢な手法を提案する。トレーニングにおける遷移のシャープさと2つの条件下での検証精度について検討した。両設定ともに,相対グルーキングギャップとグルーキングシャープネスの傾向が類似していることが判明した。
参考スコア（独自算出の注目度）: 0.9374652839580183
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Neural networks sometimes exhibit grokking, a phenomenon where perfect or near-perfect performance is achieved on a validation set well after the same performance has been obtained on the corresponding training set. In this workshop paper, we introduce a robust technique for measuring grokking, based on fitting an appropriate functional form. We then use this to investigate the sharpness of transitions in training and validation accuracy under two settings. The first setting is the theoretical framework developed by Levi et al. (2023) where closed form expressions are readily accessible. The second setting is a two-layer MLP trained to predict the parity of bits, with grokking induced by the concealment strategy of Miller et al. (2023). We find that trends between relative grokking gap and grokking sharpness are similar in both settings when using absolute and relative measures of sharpness. Reflecting on this, we make progress toward explaining some trends and identify the need for further study to untangle the various mechanisms which influence the sharpness of grokking.
Abstract（参考訳）: ニューラルネットワークは、対応するトレーニングセットで同じ性能が得られた後、検証セット上で完璧またはほぼ完璧な性能を達成する現象であるグラッキングを示すことがある。本ワークショップでは,適切な機能形態の適合に基づくグルーキング計測手法について紹介する。次に、この手法を用いて、トレーニングにおける遷移のシャープさと2つの設定による検証精度を調査する。最初の設定はlevi et al. (2023) によって開発された理論的な枠組みで、閉じた形式表現が容易にアクセスできる。第2の設定は、ビットのパリティを予測するように訓練された2層mlpであり、miller et al. (2023) の隠蔽戦略によってグロッキングが引き起こされる。相対グロッキングギャップとグロキングシャープネスの傾向は,絶対的および相対的シャープネス尺度を用いた場合,両者とも類似していることがわかった。これを踏まえ、いくつかの傾向を説明し、グロッキングの鋭さに影響を与える様々なメカニズムを解き放つためのさらなる研究の必要性を見極める。

関連論文リスト

Beyond Progress Measures: Theoretical Insights into the Mechanism of Grokking [50.465604300990904]
グロキング(Grokking)とは、オーバーフィッティングの拡張後のテスト精度の急激な改善を指す。本研究では、素数演算のタスクにおいて、Transformerの基盤となるグルーキング機構について検討する。
論文参考訳（メタデータ） (2025-04-04T04:42:38Z)
Grokking Explained: A Statistical Phenomenon [4.113597666007784]
グローキング(英: Grokking)または遅延一般化(英: delay generalization)は、モデルのトレーニングセットの損失が収束した後のみ、テストセットの損失が急激に減少する興味深い学習現象である。本稿では,グルーキングを定式化し,その出現の鍵となる要素がトレーニングデータとテストデータ間の分散シフトであることを示す。
論文参考訳（メタデータ） (2025-02-03T19:28:11Z)
Improving self-training under distribution shifts via anchored confidence with theoretical guarantees [13.796664304274643]
自己学習は、予測信頼度と実際の精度の相違が増大するため、分布シフトの時にしばしば不足する。時間的整合性に基づく分散シフト下での自己学習を改善するための原理的手法を開発した。提案手法では,計算オーバーヘッドを伴わない分散シフトシナリオにおいて,自己学習性能を8%から16%向上させる。
論文参考訳（メタデータ） (2024-11-01T13:48:11Z)
ZZU-NLP at SIGHAN-2024 dimABSA Task: Aspect-Based Sentiment Analysis with Coarse-to-Fine In-context Learning [0.36332383102551763]
DimABSAタスクはレストランレビューに微妙な感情強度予測を必要とする。そこで本稿では,DimABSAタスクに対するBaichuan2-7Bモデルに基づく大まかなインコンテクスト学習手法を提案する。
論文参考訳（メタデータ） (2024-07-22T02:54:46Z)
Certified $\ell_2$ Attribution Robustness via Uniformly Smoothed Attributions [20.487079380753876]
本研究では,ある空間から一様にサンプリングされた雑音によってバニラ属性を増大させる一様平滑化手法を提案する。攻撃領域内の全ての摂動に対して、摂動試料の均一なスムーズな属性と非摂動試料とのコサイン類似性を低くすることが保証された。
論文参考訳（メタデータ） (2024-05-10T09:56:02Z)
Towards Distribution-Agnostic Generalized Category Discovery [51.52673017664908]
データ不均衡とオープンエンドの分布は、現実の視覚世界の本質的な特性である。我々は,BaCon(Self-Balanced Co-Advice contrastive framework)を提案する。 BaConは、対照的な学習ブランチと擬似ラベルブランチで構成され、DA-GCDタスクを解決するためのインタラクティブな監視を提供するために協力して動作する。
論文参考訳（メタデータ） (2023-10-02T17:39:58Z)
Shrinking Class Space for Enhanced Certainty in Semi-Supervised Learning [59.44422468242455]
そこで我々はShrinkMatchと呼ばれる新しい手法を提案し、不確実なサンプルを学習する。それぞれの不確実なサンプルに対して、元の Top-1 クラスを単に含むスランク類空間を適応的に求める。次に、スランク空間における強と弱に強化された2つのサンプル間の整合正則化を課し、識別的表現を試みます。
論文参考訳（メタデータ） (2023-08-13T14:05:24Z)
On double-descent in uncertainty quantification in overparametrized models [24.073221004661427]
不確かさの定量化は、信頼性と信頼性のある機械学習における中心的な課題である。最適正規化推定器のキャリブレーション曲線において, 分類精度とキャリブレーションのトレードオフを示す。これは経験的ベイズ法とは対照的であり、高次一般化誤差と過度パラメトリゼーションにもかかわらず、我々の設定では十分に校正されていることを示す。
論文参考訳（メタデータ） (2022-10-23T16:01:08Z)
ConMatch: Semi-Supervised Learning with Confidence-Guided Consistency Regularization [26.542718087103665]
本稿では,ConMatchと呼ばれる擬似ラベルの信頼度によって重み付けされた画像の2つの強化されたビューから,モデルの予測間の一貫性の正則化をインテリジェントに活用する,新しい半教師付き学習フレームワークを提案する。提案手法に対するConMatchの有効性を実証する実験を行い,広範囲にわたるアブレーション研究を行った。
論文参考訳（メタデータ） (2022-08-18T04:37:50Z)
SmoothMix: Training Confidence-calibrated Smoothed Classifiers for Certified Robustness [61.212486108346695]
自己混合によるスムーズな分類器のロバスト性を制御するためのトレーニングスキームSmoothMixを提案する。提案手法は, 厳密性に制限された原因として, 信頼性の低い, オフクラスに近いサンプルを効果的に同定する。提案手法はスムーズな分類器の検証値である$ell$-robustnessを大幅に改善できることを示す。
論文参考訳（メタデータ） (2021-11-17T18:20:59Z)
An Adaptive Framework for Learning Unsupervised Depth Completion [59.17364202590475]
カラー画像から高密度深度マップとそれに伴うスパース深度測定を推定する手法を提案する。正規化とコビジュアライゼーションは、モデルの適合度とデータによって関連付けられており、単一のフレームワークに統合可能であることを示す。
論文参考訳（メタデータ） (2021-06-06T02:27:55Z)
Semi-supervised Contrastive Learning with Similarity Co-calibration [72.38187308270135]
SsCL(Semi-supervised Contrastive Learning)と呼ばれる新しいトレーニング戦略を提案する。 ssclは、自己教師付き学習におけるよく知られたコントラスト損失と、半教師付き学習におけるクロスエントロピー損失を組み合わせる。 SsCLはより差別的な表現を生じさせ,ショット学習に有益であることを示す。
論文参考訳（メタデータ） (2021-05-16T09:13:56Z)
Hidden Cost of Randomized Smoothing [72.93630656906599]
本稿では、現在のランダム化平滑化による副作用を指摘する。具体的には,1)スムーズな分類器の決定境界が小さくなり,クラスレベルでの精度の相違が生じること,2)学習過程における雑音増強の適用は,一貫性のない学習目的による縮小問題を必ずしも解決しない,という2つの主要なポイントを具体化し,証明する。
論文参考訳（メタデータ） (2020-03-02T23:37:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。