論文の概要: Practical estimation of the optimal classification error with soft labels and calibration
- arxiv url: http://arxiv.org/abs/2505.20761v1
- Date: Tue, 27 May 2025 06:04:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.439379
- Title: Practical estimation of the optimal classification error with soft labels and calibration
- Title(参考訳): ソフトラベルとキャリブレーションを用いた最適分類誤差の実用的評価
- Authors: Ryota Ushio, Takashi Ishida, Masashi Sugiyama,
- Abstract要約: 我々は,ベイズ誤差,最適誤差率を推定するために,ソフトラベルを用いた以前の研究を拡張した。
我々は、破損したソフトラベルによる推定という、より困難な問題に取り組みます。
私たちのメソッドはインスタンスフリーです。つまり、入力インスタンスへのアクセスを前提としません。
- 参考スコア(独自算出の注目度): 52.1410307583181
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While the performance of machine learning systems has experienced significant improvement in recent years, relatively little attention has been paid to the fundamental question: to what extent can we improve our models? This paper provides a means of answering this question in the setting of binary classification, which is practical and theoretically supported. We extend a previous work that utilizes soft labels for estimating the Bayes error, the optimal error rate, in two important ways. First, we theoretically investigate the properties of the bias of the hard-label-based estimator discussed in the original work. We reveal that the decay rate of the bias is adaptive to how well the two class-conditional distributions are separated, and it can decay significantly faster than the previous result suggested as the number of hard labels per instance grows. Second, we tackle a more challenging problem setting: estimation with corrupted soft labels. One might be tempted to use calibrated soft labels instead of clean ones. However, we reveal that calibration guarantee is not enough, that is, even perfectly calibrated soft labels can result in a substantially inaccurate estimate. Then, we show that isotonic calibration can provide a statistically consistent estimator under an assumption weaker than that of the previous work. Our method is instance-free, i.e., we do not assume access to any input instances. This feature allows it to be adopted in practical scenarios where the instances are not available due to privacy issues. Experiments with synthetic and real-world datasets show the validity of our methods and theory.
- Abstract(参考訳): 近年、機械学習システムの性能は大幅に改善されているが、基本的な疑問に比較的注意が払われていない。
本稿では, 理論的に支援された二項分類の設定において, この問題に答える手段を提供する。
我々は,ベイズ誤差(最適誤差率)を2つの重要な方法で推定するために,ソフトラベルを用いた以前の研究を拡張した。
まず,本研究で論じられたハードラベルに基づく推定器のバイアス特性について理論的に検討する。
バイアスの減衰速度は, 2つのクラス条件分布の分離の程度に適応し, インスタンスあたりのハードラベル数が増加するにつれて, 従来の結果よりもはるかに早く減衰することを示した。
次に、劣化したソフトラベルによる推定という、より困難な問題に取り組みます。
清潔なラベルの代わりにキャリブレーションされたソフトラベルを使う誘惑があるかもしれない。
しかし、キャリブレーション保証が十分ではないこと、すなわち、完璧にキャリブレーションされたソフトラベルでさえ、実質的に不正確な推定結果をもたらすことを明らかにする。
そこで, 等速キャリブレーションにより, 従来の研究よりも弱い仮定の下で, 統計的に一貫した推定値が得られることを示す。
私たちのメソッドはインスタンスフリーです。つまり、入力インスタンスへのアクセスを前提としません。
この機能は、プライバシの問題によりインスタンスが利用できない現実的なシナリオで採用することができる。
合成および実世界のデータセットを用いた実験は、我々の方法と理論の有効性を示す。
関連論文リスト
- Data-Driven Estimation of the False Positive Rate of the Bayes Binary
Classifier via Soft Labels [25.40796153743837]
本稿では,与えられたデータセットからベイズ分類器の誤り陽性率(FPR)を推定する。
我々は,デノナイジング手法とNadaraya-Watson推定器を利用した効果的なFPR推定器を開発した。
論文 参考訳(メタデータ) (2024-01-27T20:41:55Z) - Late Stopping: Avoiding Confidently Learning from Mislabeled Examples [61.00103151680946]
そこで本研究では,DNNの長期学習プロセスを通じて,本質的な頑健な学習能力を生かした新しいフレームワークであるLatlas Stoppingを提案する。
誤ラベルとクリーンな例は、それらが一貫して正しく分類されるために必要なエポックの数に相違があることを実証的に観察する。
ベンチマークシミュレーションと実世界のノイズデータセットによる実験結果から,提案手法は最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-26T12:43:25Z) - Shrinking Class Space for Enhanced Certainty in Semi-Supervised Learning [59.44422468242455]
そこで我々はShrinkMatchと呼ばれる新しい手法を提案し、不確実なサンプルを学習する。
それぞれの不確実なサンプルに対して、元の Top-1 クラスを単に含むスランク類空間を適応的に求める。
次に、スランク空間における強と弱に強化された2つのサンプル間の整合正則化を課し、識別的表現を試みます。
論文 参考訳(メタデータ) (2023-08-13T14:05:24Z) - Model Calibration in Dense Classification with Adaptive Label
Perturbation [44.62722402349157]
既存の密接な二分分類モデルは、過信される傾向がある。
本稿では,各トレーニング画像に対する独自のラベル摂動レベルを学習する適応ラベル摂動(ASLP)を提案する。
ASLPは、分布内および分布外の両方のデータに基づいて、密度の高い二分分類モデルの校正度を著しく改善することができる。
論文 参考訳(メタデータ) (2023-07-25T14:40:11Z) - SoftMatch: Addressing the Quantity-Quality Trade-off in Semi-supervised
Learning [101.86916775218403]
本稿では, サンプル重み付けを統一した定式化により, 一般的な擬似ラベル法を再検討する。
トレーニング中の擬似ラベルの量と質を両立させることでトレードオフを克服するSoftMatchを提案する。
実験では、画像、テキスト、不均衡な分類など、さまざまなベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-26T03:53:25Z) - Debiased Pseudo Labeling in Self-Training [77.83549261035277]
ディープニューラルネットワークは、大規模ラベル付きデータセットの助けを借りて、幅広いタスクで顕著なパフォーマンスを達成する。
ラベル付きデータの要求を軽減するため、ラベル付けされていないデータに擬似ラベルを付けることにより、学術と産業の両方で自己学習が広く使われている。
疑似ラベルの生成と利用を2つの独立した頭文字で分離するデバイアスドを提案する。
論文 参考訳(メタデータ) (2022-02-15T02:14:33Z) - Dash: Semi-Supervised Learning with Dynamic Thresholding [72.74339790209531]
我々は、ラベルのない例を使ってモデルをトレーニングする半教師付き学習(SSL)アプローチを提案する。
提案手法であるDashは、ラベルなしデータ選択の観点から適応性を享受する。
論文 参考訳(メタデータ) (2021-09-01T23:52:29Z) - Self-Supervised Learning from Semantically Imprecise Data [7.24935792316121]
動物」や「鳥」などの不正確なラベルから学ぶことは、熟練したラベル付きトレーニングデータが乏しい場合に重要な機能です。
CHILLAXはこの課題に取り組むために最近提案された方法です。
制約外挿を用いた自己教師型スキームでCHILLAXを拡張して擬似ラベルを生成する。
論文 参考訳(メタデータ) (2021-04-22T07:26:14Z) - Comparing the Value of Labeled and Unlabeled Data in Method-of-Moments
Latent Variable Estimation [17.212805760360954]
我々は,メソッド・オブ・モーメント・潜在変数推定におけるモデル誤特定に着目したフレームワークを用いている。
そして、ある場合においてこのバイアスを確実に排除する補正を導入する。
理論上, 合成実験により, 特定されたモデルではラベル付点がラベル付点以上の定数に値することを示した。
論文 参考訳(メタデータ) (2021-03-03T23:52:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。