論文の概要: MaxSup: Overcoming Representation Collapse in Label Smoothing
- arxiv url: http://arxiv.org/abs/2502.15798v1
- Date: Tue, 18 Feb 2025 20:10:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:59:05.891535
- Title: MaxSup: Overcoming Representation Collapse in Label Smoothing
- Title(参考訳): MaxSup:ラベルの平滑化における表現の崩壊を克服する
- Authors: Yuxuan Zhou, Heng Li, Zhi-Qi Cheng, Xudong Yan, Mario Fritz, Margret Keuper,
- Abstract要約: ラベル平滑化(LS)は、ニューラルネットワークの予測における過信を抑制し、一般化を促進するために広く採用されている。
以前の研究では、LSは特徴表現を過剰に厳密なクラスタに強制し、クラス内の区別を損なうことが示されている。
我々は、意図した正規化を正しい予測と誤予測の両方に均一に適用するMax Suppression(MaxSup)を提案する。
- 参考スコア(独自算出の注目度): 55.067663157622384
- License:
- Abstract: Label Smoothing (LS) is widely adopted to curb overconfidence in neural network predictions and enhance generalization. However, previous research shows that LS can force feature representations into excessively tight clusters, eroding intra-class distinctions. More recent findings suggest that LS also induces overconfidence in misclassifications, yet the precise mechanism remained unclear. In this work, we decompose the loss term introduced by LS, revealing two key components: (i) a regularization term that functions only when the prediction is correct, and (ii) an error-enhancement term that emerges under misclassifications. This latter term compels the model to reinforce incorrect predictions with exaggerated certainty, further collapsing the feature space. To address these issues, we propose Max Suppression (MaxSup), which uniformly applies the intended regularization to both correct and incorrect predictions by penalizing the top-1 logit instead of the ground-truth logit. Through feature analyses, we show that MaxSup restores intra-class variation and sharpens inter-class boundaries. Extensive experiments on image classification and downstream tasks confirm that MaxSup is a more robust alternative to LS. Code is available at: https://github.com/ZhouYuxuanYX/Maximum-Suppression-Regularization.
- Abstract(参考訳): ラベル平滑化(LS)は、ニューラルネットワークの予測における過信を抑制し、一般化を促進するために広く採用されている。
しかし、以前の研究では、LSは特徴表現を過剰に厳密なクラスタに強制し、クラス内の区別を損なう可能性があることが示されている。
近年の研究では、LSは誤分類における過剰な自信も引き起こすことが示唆されているが、正確なメカニズムは分かっていない。
本研究では、LSが導入した損失項を分解し、2つの重要な構成要素を明らかにする。
(i)予測が正しい場合にのみ機能する正規化用語、及び
(ii)誤分類の下で出現する誤り発生語。
この後者の項は、不正確な予測を誇張された確実性で補強するためにモデルを補完し、さらに特徴空間を崩壊させる。
これらの問題に対処するため,本論文では,ストレートトルースロジットの代わりにトップ1ロジットをペナル化することにより,意図した正規化を正誤予測の両方に均一に適用するMax Suppressionを提案する。
特徴分析により,MaxSupはクラス内変動を回復し,クラス間境界を鋭くすることを示した。
画像分類と下流タスクに関する大規模な実験により、MaxSupはLSのより堅牢な代替品であることが確認された。
コードは、https://github.com/ZhouYuxuanYX/Maximum-Suppression-Regularizationで入手できる。
関連論文リスト
- Improved Feature Generating Framework for Transductive Zero-shot Learning [31.656888766677664]
特徴生成適応ネットワークは、目に見えないクラスの高品質な表現を生成するために強力な生成モデルとして登場した。
ゼロショット学習(TZSL)の枠組みにおける未確認クラス事前の重要影響について考察する。
PFA学習(Pseudo-conditional Feature Adversarial)とVER学習(VER)の2つの新しいコンポーネントを組み込んだ改良型特徴生成フレームワークI-VAEGANを紹介する。
論文 参考訳(メタデータ) (2024-12-24T08:42:16Z) - Predicting Emergent Capabilities by Finetuning [98.9684114851891]
微調整された言語モデルでは,出現頻度の低いモデルに展開するスケーリングのポイントをシフトできることがわかった。
提案手法は4つの標準NLPベンチマークを用いて検証する。
いくつかのケースでは、最大4倍の計算でトレーニングされたモデルが出現したかどうかを正確に予測できる。
論文 参考訳(メタデータ) (2024-11-25T01:48:09Z) - Towards Understanding Why Label Smoothing Degrades Selective Classification and How to Fix It [6.19039575840278]
ラベルスムーシング(LS)はニューラルネットワークをトレーニングするための一般的な正規化手法である。
LSは、正誤予測の不確実なランク順を格下げする。
我々は、ロジトレベルの勾配を分析することによって、この振る舞いを説明する。
論文 参考訳(メタデータ) (2024-03-19T06:46:24Z) - Classification under Nuisance Parameters and Generalized Label Shift in Likelihood-Free Inference [3.507509142413452]
本稿では,不確実性定量化のための新しい手法を提案する。
提案手法は,ドメイン適応能力を持つ事前学習型分類器を効果的に提供し,高出力を維持しながら有効な予測セットを返却する。
現実的な力学モデルから得られたデータを用いて、生物学と天体物理学における2つの挑戦的な科学的問題に対して、その性能を実証する。
論文 参考訳(メタデータ) (2024-02-08T00:12:18Z) - When Does Confidence-Based Cascade Deferral Suffice? [69.28314307469381]
カスケードは、推論コストをサンプル毎に適応的に変化させる古典的な戦略である。
deferralルールは、シーケンス内の次の分類子を呼び出すか、または予測を終了するかを決定する。
カスケードの構造に執着しているにもかかわらず、信頼に基づく推論は実際は極めてうまく機能することが多い。
論文 参考訳(メタデータ) (2023-07-06T04:13:57Z) - Domain-Adjusted Regression or: ERM May Already Learn Features Sufficient
for Out-of-Distribution Generalization [52.7137956951533]
既存の特徴から予測器を学習するためのよりシンプルな手法を考案することは、将来の研究にとって有望な方向である、と我々は主張する。
本稿では,線形予測器を学習するための凸目標である領域調整回帰(DARE)を紹介する。
自然モデルの下では、DARE解が制限されたテスト分布の集合に対する最小最適予測器であることを証明する。
論文 参考訳(メタデータ) (2022-02-14T16:42:16Z) - Taming Overconfident Prediction on Unlabeled Data from Hindsight [50.9088560433925]
ラベルのないデータに対する予測の不確実性を最小化することは、半教師付き学習において優れた性能を達成するための鍵となる要素である。
本稿では,アダプティブシャーニング(Adaptive Sharpening, ADS)と呼ばれる2つのメカニズムを提案する。
ADSは、プラグインにすることで最先端のSSLメソッドを大幅に改善する。
論文 参考訳(メタデータ) (2021-12-15T15:17:02Z) - The Devil is in the Margin: Margin-based Label Smoothing for Network
Calibration [21.63888208442176]
ディープニューラルネットワークの優位な性能にもかかわらず、最近の研究では、それらが十分に校正されていないことが示されている。
現状のキャリブレーション損失に対する統一的制約最適化の視点を提供する。
我々は不等式制約に基づく単純で柔軟な一般化を提案し、ロジット距離に制御可能なマージンを課す。
論文 参考訳(メタデータ) (2021-11-30T14:21:47Z) - Second-Moment Loss: A Novel Regression Objective for Improved
Uncertainties [7.766663822644739]
不確実性の定量化は、安全な機械学習を確立する最も有望なアプローチの1つである。
これまでの最も一般的なアプローチの1つはモンテカルロドロップアウトで、計算量的に安価で、実際に簡単に適用できる。
この問題に対処するため,第2モーメント損失(UCI)と呼ばれる新たな目標を提案する。
論文 参考訳(メタデータ) (2020-12-23T14:17:33Z) - Towards Discriminability and Diversity: Batch Nuclear-norm Maximization
under Label Insufficient Situations [154.51144248210338]
Batch Nuclear-norm Maximization (BNM) は、学習シナリオのラベルが不十分な場合の学習を促進するために提案されている。
BNMはライバルより優れており、既存のよく知られた手法でうまく機能する。
論文 参考訳(メタデータ) (2020-03-27T05:04:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。