論文の概要: Towards Understanding Why Label Smoothing Degrades Selective Classification and How to Fix It
- arxiv url: http://arxiv.org/abs/2403.14715v2
- Date: Fri, 11 Oct 2024 14:57:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-14 13:30:12.123005
- Title: Towards Understanding Why Label Smoothing Degrades Selective Classification and How to Fix It
- Title(参考訳): ラベルの平滑化が選択的分類を低下させる理由と修正方法の理解に向けて
- Authors: Guoxuan Xia, Olivier Laurent, Gianni Franchi, Christos-Savvas Bouganis,
- Abstract要約: ラベルスムーシング(LS)はニューラルネットワークをトレーニングするための一般的な正規化手法である。
まず、LSが選択的分類を一貫して劣化させる広範囲の大規模タスクを経験的に実証する。
次に,LSによる失われたSCの回復に対するポストホックロジット正規化の有効性を実証した。
- 参考スコア(独自算出の注目度): 6.19039575840278
- License:
- Abstract: Label smoothing (LS) is a popular regularisation method for training neural networks as it is effective in improving test accuracy and is simple to implement. Hard one-hot labels are smoothed by uniformly distributing probability mass to other classes, reducing overfitting. Prior work has suggested that in some cases LS can degrade selective classification (SC) -- where the aim is to reject misclassifications using a model's uncertainty. In this work, we first demonstrate empirically across an extended range of large-scale tasks and architectures that LS consistently degrades SC. We then address a gap in existing knowledge, providing an explanation for this behaviour by analysing logit-level gradients: LS degrades the uncertainty rank ordering of correct vs incorrect predictions by regularising the max logit more when a prediction is likely to be correct, and less when it is likely to be wrong. This elucidates previously reported experimental results where strong classifiers underperform in SC. We then demonstrate the empirical effectiveness of post-hoc logit normalisation for recovering lost SC performance caused by LS. Furthermore, linking back to our gradient analysis, we again provide an explanation for why such normalisation is effective.
- Abstract(参考訳): ラベルスムーシング(LS)は、テスト精度を向上させるのに有効であり、実装が簡単であるため、ニューラルネットワークをトレーニングするための一般的な正規化手法である。
ハードワンホットラベルは、確率質量を他のクラスに均一に分散することで滑らかになり、オーバーフィッティングを減少させる。
以前の研究は、LSが選択分類(SC)を分解できる場合があり、モデルの不確実性を使用して誤分類を拒否することを目的としていたことを示唆している。
本研究では,LS が SC を安定的に劣化させるような大規模タスクやアーキテクチャの広範な範囲で実証実験を行った。
LSは、予測が正しそうな場合には、最大ロジットを正規化することで、正しい予測と誤予測の不確かさのランクを下げる。
この結果より, SCでは強い分類器が不十分であったことが示唆された。
次に,LSによる失われたSCの回復に対するポストホックロジット正規化の有効性を実証した。
さらに、勾配解析にリンクして、このような正規化が有効である理由について説明する。
関連論文リスト
- Adaptive Label Smoothing for Out-of-Distribution Detection [1.5999407512883508]
適応ラベル平滑化(ALS)と呼ばれる新しい正規化手法を提案する。
ALSは非真のクラスを同じ確率にプッシュするが、最大確率は固定でも制限でもない。
私たちのコードは一般に公開されます。
論文 参考訳(メタデータ) (2024-10-08T15:35:11Z) - Do not trust what you trust: Miscalibration in Semi-supervised Learning [21.20806568508201]
最先端の半教師付き学習(SSL)アプローチは、ラベルなしサンプルのトレーニングをガイドする擬似ラベルとして機能するために、信頼性の高い予測に依存している。
擬似ラベルに基づくSSL方式は, かなり誤解されていることを示し, ミンエントロピーの最小化を正式に示す。
我々は単純なペナルティ項を統合し、ラベルのないサンプルの予測のロジットを低く保ち、ネットワーク予測が過信にならないようにする。
論文 参考訳(メタデータ) (2024-03-22T18:43:46Z) - Deep Imbalanced Regression via Hierarchical Classification Adjustment [50.19438850112964]
コンピュータビジョンにおける回帰タスクは、しばしば、対象空間をクラスに定量化することで分類される。
トレーニングサンプルの大多数は目標値の先頭にあるが、少数のサンプルは通常より広い尾幅に分布する。
不均衡回帰タスクを解くために階層型分類器を構築することを提案する。
不均衡回帰のための新しい階層型分類調整(HCA)は,3つのタスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2023-10-26T04:54:39Z) - Model Calibration in Dense Classification with Adaptive Label
Perturbation [44.62722402349157]
既存の密接な二分分類モデルは、過信される傾向がある。
本稿では,各トレーニング画像に対する独自のラベル摂動レベルを学習する適応ラベル摂動(ASLP)を提案する。
ASLPは、分布内および分布外の両方のデータに基づいて、密度の高い二分分類モデルの校正度を著しく改善することができる。
論文 参考訳(メタデータ) (2023-07-25T14:40:11Z) - When Does Confidence-Based Cascade Deferral Suffice? [69.28314307469381]
カスケードは、推論コストをサンプル毎に適応的に変化させる古典的な戦略である。
deferralルールは、シーケンス内の次の分類子を呼び出すか、または予測を終了するかを決定する。
カスケードの構造に執着しているにもかかわらず、信頼に基づく推論は実際は極めてうまく機能することが多い。
論文 参考訳(メタデータ) (2023-07-06T04:13:57Z) - Taming Overconfident Prediction on Unlabeled Data from Hindsight [50.9088560433925]
ラベルのないデータに対する予測の不確実性を最小化することは、半教師付き学習において優れた性能を達成するための鍵となる要素である。
本稿では,アダプティブシャーニング(Adaptive Sharpening, ADS)と呼ばれる2つのメカニズムを提案する。
ADSは、プラグインにすることで最先端のSSLメソッドを大幅に改善する。
論文 参考訳(メタデータ) (2021-12-15T15:17:02Z) - Scalable Marginal Likelihood Estimation for Model Selection in Deep
Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。
本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文 参考訳(メタデータ) (2021-04-11T09:50:24Z) - Re-Assessing the "Classify and Count" Quantification Method [88.60021378715636]
分類とカウント(CC)は、しばしば偏りのある推定器である。
以前の作業では、CCの適切に最適化されたバージョンを適切に使用できなかった。
最先端の手法に劣っているものの、ほぼ最先端の精度を実現している、と我々は主張する。
論文 参考訳(メタデータ) (2020-11-04T21:47:39Z) - Unbiased Risk Estimators Can Mislead: A Case Study of Learning with
Complementary Labels [92.98756432746482]
我々は,補完ラベルを用いた学習という,弱教師付き問題を研究する。
勾配推定の品質はリスク最小化においてより重要であることを示す。
本稿では,ゼロバイアスと分散の低減を両立させる新しい補助的相補的損失(SCL)フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-05T04:19:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。