論文の概要: Learning with Confidence: Training Better Classifiers from Soft Labels
- arxiv url: http://arxiv.org/abs/2409.16071v1
- Date: Tue, 24 Sep 2024 13:12:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 05:46:35.953635
- Title: Learning with Confidence: Training Better Classifiers from Soft Labels
- Title(参考訳): 信頼で学ぶ:ソフトラベルからより良い分類器を訓練する
- Authors: Sjoerd de Vries, Dirk Thierens,
- Abstract要約: 教師付き機械学習では、モデルは通常、ハードラベルを持つデータ、すなわちクラスメンバーシップの明確な割り当てを用いて訓練される。
クラスラベル上の離散確率分布として表されるラベルの不確実性を組み込むことで,分類モデルの予測性能が向上するかどうかを検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In supervised machine learning, models are typically trained using data with hard labels, i.e., definite assignments of class membership. This traditional approach, however, does not take the inherent uncertainty in these labels into account. We investigate whether incorporating label uncertainty, represented as discrete probability distributions over the class labels -- known as soft labels -- improves the predictive performance of classification models. We first demonstrate the potential value of soft label learning (SLL) for estimating model parameters in a simulation experiment, particularly for limited sample sizes and imbalanced data. Subsequently, we compare the performance of various wrapper methods for learning from both hard and soft labels using identical base classifiers. On real-world-inspired synthetic data with clean labels, the SLL methods consistently outperform hard label methods. Since real-world data is often noisy and precise soft labels are challenging to obtain, we study the effect that noisy probability estimates have on model performance. Alongside conventional noise models, our study examines four types of miscalibration that are known to affect human annotators. The results show that SLL methods outperform the hard label methods in the majority of settings. Finally, we evaluate the methods on a real-world dataset with confidence scores, where the SLL methods are shown to match the traditional methods for predicting the (noisy) hard labels while providing more accurate confidence estimates.
- Abstract(参考訳): 教師付き機械学習では、モデルは通常、ハードラベルを持つデータ、すなわちクラスメンバーシップの明確な割り当てを用いて訓練される。
しかし、この伝統的なアプローチは、これらのラベルに固有の不確実性を考慮していない。
本研究は,分類モデルの予測性能を改善するために,分類ラベル(ソフトラベルとして知られる)上の離散確率分布として表されるラベルの不確実性を組み込むことを検討した。
まず,シミュレーション実験において,モデルパラメータを推定するためのソフトラベル学習(SLL)の可能性,特にサンプルサイズや不均衡データについて示す。
次に,同一のベース分類器を用いて,ハードラベルとソフトラベルの両方から学習する様々なラッパー手法の性能を比較した。
クリーンラベルを用いた実世界の人工データにおいて、SLL法はハードラベル法より一貫して優れている。
実世界のデータはしばしばノイズが多く,正確なソフトラベルの取得は困難であるため,ノイズ確率推定がモデル性能に与える影響について検討する。
従来のノイズモデルと並んで,人間のアノテータに影響を与えることが知られている4種類の誤校正について検討した。
その結果、SLLメソッドは、ほとんどの設定においてハードラベルメソッドよりも優れていた。
最後に,SLL法は従来の(ノイズの多い)ハードラベルの予測手法と一致し,より正確な信頼度推定を提供する。
関連論文リスト
- Boosting Semi-Supervised Learning by bridging high and low-confidence
predictions [4.18804572788063]
Pseudo-labelingは半教師あり学習(SSL)において重要な技術である
ReFixMatchと呼ばれる新しい手法を提案し、これはトレーニング中にラベルなしのデータをすべて活用することを目的としている。
論文 参考訳(メタデータ) (2023-08-15T00:27:18Z) - Channel-Wise Contrastive Learning for Learning with Noisy Labels [60.46434734808148]
チャネルワイド・コントラッシブ・ラーニング(CWCL)を導入し,真正なラベル情報とノイズを区別する。
従来のインスタンス単位のコントラスト学習(IWCL)とは異なり、CWCLはよりニュアンスでレジリエントな特徴を真のラベルと一致させる傾向にある。
まずCWCLを用いて、クリーンにラベル付けされたサンプルを識別し、次に、これらのサンプルを段階的に微調整する。
論文 参考訳(メタデータ) (2023-08-14T06:04:50Z) - Label-Retrieval-Augmented Diffusion Models for Learning from Noisy
Labels [61.97359362447732]
ノイズの多いラベルからの学習は、実際のアプリケーションのための機械学習において、重要かつ長年にわたる問題である。
本稿では,生成モデルの観点からラベルノイズ問題を再構成する。
我々のモデルは、標準的な実世界のベンチマークデータセットで新しいSOTA(State-of-the-art)結果を達成する。
論文 参考訳(メタデータ) (2023-05-31T03:01:36Z) - Adversary-Aware Partial label learning with Label distillation [47.18584755798137]
本稿では、Ad-Aware partial Label Learningを紹介し、各インスタンスの候補ラベルのコレクションに、ノイズの多いラベルのセットである$textitrival$を紹介します。
提案手法は, CIFAR10, CIFAR100, CUB200データセットに対して有望な結果を得る。
論文 参考訳(メタデータ) (2023-04-02T10:18:30Z) - SoftMatch: Addressing the Quantity-Quality Trade-off in Semi-supervised
Learning [101.86916775218403]
本稿では, サンプル重み付けを統一した定式化により, 一般的な擬似ラベル法を再検討する。
トレーニング中の擬似ラベルの量と質を両立させることでトレードオフを克服するSoftMatchを提案する。
実験では、画像、テキスト、不均衡な分類など、さまざまなベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-26T03:53:25Z) - Learning to Detect Noisy Labels Using Model-Based Features [16.681748918518075]
Select-Enhanced Noisy label Training (SENT)を提案する。
SENTは、データ駆動の柔軟性を保ちながら、メタ学習に依存しない。
自己学習とラベルの破損の設定の下で、強力なベースラインよりもパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2022-12-28T10:12:13Z) - Boosting Semi-Supervised Learning with Contrastive Complementary
Labeling [11.851898765002334]
一般的なアプローチは擬似ラベル作成であり、信頼度の高いラベル付きデータに対してのみ擬似ラベルを生成する。
信頼度が低い擬似ラベルを持つデータは、トレーニングプロセスにまだ有効である可能性があることを強調する。
そこで本研究では,多数の信頼な負対を構成する新しいコントラスト補完ラベリング法を提案する。
論文 参考訳(メタデータ) (2022-12-13T15:25:49Z) - Debiased Pseudo Labeling in Self-Training [77.83549261035277]
ディープニューラルネットワークは、大規模ラベル付きデータセットの助けを借りて、幅広いタスクで顕著なパフォーマンスを達成する。
ラベル付きデータの要求を軽減するため、ラベル付けされていないデータに擬似ラベルを付けることにより、学術と産業の両方で自己学習が広く使われている。
疑似ラベルの生成と利用を2つの独立した頭文字で分離するデバイアスドを提案する。
論文 参考訳(メタデータ) (2022-02-15T02:14:33Z) - In Defense of Pseudo-Labeling: An Uncertainty-Aware Pseudo-label
Selection Framework for Semi-Supervised Learning [53.1047775185362]
Pseudo-labeling (PL) は一般的な SSL アプローチで、この制約はありませんが、当初の処方では比較的不十分です。
PLは不整合モデルからの誤った高い信頼度予測により性能が低下していると論じる。
そこで本研究では,疑似ラベリング精度を向上させるための不確実性認識型擬似ラベル選択(ups)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-15T23:29:57Z) - Tackling Instance-Dependent Label Noise via a Universal Probabilistic
Model [80.91927573604438]
本稿では,ノイズラベルをインスタンスに明示的に関連付ける,単純かつ普遍的な確率モデルを提案する。
合成および実世界のラベルノイズを用いたデータセット実験により,提案手法がロバスト性に大きな改善をもたらすことを確認した。
論文 参考訳(メタデータ) (2021-01-14T05:43:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。