論文の概要: Assessing Generalization of SGD via Disagreement
- arxiv url: http://arxiv.org/abs/2106.13799v1
- Date: Fri, 25 Jun 2021 17:53:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-28 13:20:50.903206
- Title: Assessing Generalization of SGD via Disagreement
- Title(参考訳): 診断によるSGDの一般化評価
- Authors: Yiding Jiang, Vaishnavh Nagarajan, Christina Baek, J. Zico Kolter
- Abstract要約: 実験により、同一のトレーニングセット上で同じアーキテクチャをトレーニングするだけで、異なるグラディエント・ディフレクション(SGD)を実行することで、ディープネットワークのテストエラーを推定できることを実証的に示す。
この発見は、ラベルのないテストデータを使ってテストエラーを直接予測する単純な経験的尺度を提供するだけでなく、一般化とキャリブレーションの間に新たな概念的接続を確立する。
- 参考スコア(独自算出の注目度): 71.17788927037081
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We empirically show that the test error of deep networks can be estimated by
simply training the same architecture on the same training set but with a
different run of Stochastic Gradient Descent (SGD), and measuring the
disagreement rate between the two networks on unlabeled test data. This builds
on -- and is a stronger version of -- the observation in Nakkiran & Bansal '20,
which requires the second run to be on an altogether fresh training set. We
further theoretically show that this peculiar phenomenon arises from the
\emph{well-calibrated} nature of \emph{ensembles} of SGD-trained models. This
finding not only provides a simple empirical measure to directly predict the
test error using unlabeled test data, but also establishes a new conceptual
connection between generalization and calibration.
- Abstract(参考訳): 実験により、同一のトレーニングセット上で同じアーキテクチャをトレーニングするだけで、SGD(Stochastic Gradient Descent)が異なる動作で深層ネットワークのテスト誤差を推定できることを示し、ラベルのないテストデータ上で2つのネットワーク間の不一致率を測定する。
これは、Nakkiran & Bansal '20における観察の、より強力なバージョンの上に構築されている。
さらに、この特異な現象は、SGD訓練モデルの \emph{well-calibrated} の性質から生じることを理論的に示す。
この発見は、ラベルのないテストデータを使ってテストエラーを直接予測する単純な経験的尺度を提供するだけでなく、一般化とキャリブレーションの間に新たな概念的接続を確立する。
関連論文リスト
- Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Selective Learning: Towards Robust Calibration with Dynamic Regularization [79.92633587914659]
ディープラーニングにおけるミススキャリブレーションとは、予測された信頼とパフォーマンスの間には相違がある、という意味である。
トレーニング中に何を学ぶべきかを学ぶことを目的とした動的正規化(DReg)を導入し、信頼度調整のトレードオフを回避する。
論文 参考訳(メタデータ) (2024-02-13T11:25:20Z) - On the Variance of Neural Network Training with respect to Test Sets and Distributions [1.994307489466967]
標準のCIFAR-10とImageNetのトレーニングは、基礎となるテスト配信の性能にほとんどばらつきがないことを示す。
テストセットにおけるニューラルネットワークトレーニングのばらつきは,Jiangらによって発見されたクラス校正特性のダウンストリームの結果であることを示す。
本分析では, 分類ケースのばらつきを正確に予測する簡単な式を導出する。
論文 参考訳(メタデータ) (2023-04-04T16:09:55Z) - Explicit Tradeoffs between Adversarial and Natural Distributional
Robustness [48.44639585732391]
実際、モデルは信頼性を確保するために両方のタイプの堅牢さを享受する必要があります。
本研究では, 対角線と自然分布の強靭性の間には, 明らかなトレードオフが存在することを示す。
論文 参考訳(メタデータ) (2022-09-15T19:58:01Z) - A Note on "Assessing Generalization of SGD via Disagreement" [38.59619544501593]
本手法は, 分布シフト時に深いアンサンブルのキャリブレーションが劣化するため, 非現実的である可能性が示唆された。
提案された校正基準は、ニクソンらによって導入された2つの指標「ACE」と「SCE」と等価である。
論文 参考訳(メタデータ) (2022-02-03T21:23:34Z) - Training on Test Data with Bayesian Adaptation for Covariate Shift [96.3250517412545]
ディープニューラルネットワークは、信頼できない不確実性推定で不正確な予測を行うことが多い。
分布シフトの下でのラベルなし入力とモデルパラメータとの明確に定義された関係を提供するベイズモデルを導出する。
本手法は精度と不確実性の両方を向上することを示す。
論文 参考訳(メタデータ) (2021-09-27T01:09:08Z) - Mutual Supervision for Dense Object Detection [37.30539436044029]
我々は、Mutual Supervision(MuSu)と呼ばれる新しい監督パラダイムを提案する。
MuSuは、主に分類予測スコアに基づいて回帰ヘッドのトレーニングサンプルを定義し、その後、回帰ヘッドのローカライズスコアに基づいて分類ヘッドのサンプルを定義する。
この相互監督によって訓練された検出器の収束が保証され,提案手法の有効性がMS COCOベンチマークで検証された。
論文 参考訳(メタデータ) (2021-09-13T14:04:13Z) - Detecting Errors and Estimating Accuracy on Unlabeled Data with
Self-training Ensembles [38.23896575179384]
本稿では,この2つの課題に同時に対処する,原則的かつ実用的な枠組みを提案する。
1つのインスタンス化は、教師なし精度推定における推定誤差を少なくとも70%削減し、エラー検出のためのF1スコアを少なくとも4.7%改善する。
iWildCamでは、教師なし精度推定における推定誤差を少なくとも70%削減し、エラー検出のためのF1スコアを少なくとも4.7%改善する。
論文 参考訳(メタデータ) (2021-06-29T21:32:51Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。