論文の概要: Uncertainty-aware Pseudo-label Selection for Positive-Unlabeled Learning
- arxiv url: http://arxiv.org/abs/2201.13192v3
- Date: Sun, 10 Mar 2024 13:49:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 18:07:54.724121
- Title: Uncertainty-aware Pseudo-label Selection for Positive-Unlabeled Learning
- Title(参考訳): 不確実性を考慮した正ラベル学習のための擬似ラベル選択
- Authors: Emilio Dorigatti, Jann Goschenhofer, Benjamin Schubert, Mina Rezaei,
Bernd Bischl
- Abstract要約: 本稿では,正の未ラベル学習環境における不均衡データセットとモデル校正の問題に取り組むことを提案する。
マイノリティクラスからのシグナルを増強することにより、擬似ラベル付けはラベル付きデータセットをラベル付きデータセットから新しいサンプルで拡張する。
PUUPLは一連の実験において、高度に不均衡な設定で大幅な性能向上をもたらす。
- 参考スコア(独自算出の注目度): 10.014356492742074
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Positive-unlabeled learning (PUL) aims at learning a binary classifier from
only positive and unlabeled training data. Even though real-world applications
often involve imbalanced datasets where the majority of examples belong to one
class, most contemporary approaches to PUL do not investigate performance in
this setting, thus severely limiting their applicability in practice. In this
work, we thus propose to tackle the issues of imbalanced datasets and model
calibration in a PUL setting through an uncertainty-aware pseudo-labeling
procedure (PUUPL): by boosting the signal from the minority class,
pseudo-labeling expands the labeled dataset with new samples from the unlabeled
set, while explicit uncertainty quantification prevents the emergence of
harmful confirmation bias leading to increased predictive performance. Within a
series of experiments, PUUPL yields substantial performance gains in highly
imbalanced settings while also showing strong performance in balanced PU
scenarios across recent baselines. We furthermore provide ablations and
sensitivity analyses to shed light on PUUPL's several ingredients. Finally, a
real-world application with an imbalanced dataset confirms the advantage of our
approach.
- Abstract(参考訳): PUL(Positive-Unlabeled Learning)は、正および未ラベルのトレーニングデータのみからバイナリ分類器を学習することを目的としている。
実世界のアプリケーションでは、ほとんどの例が1つのクラスに属する不均衡データセットを含むことが多いが、pulに対する現代のアプローチは、この設定でのパフォーマンスを調査していないため、実際の適用可能性が厳しく制限されている。
そこで本研究では,不確実性認識擬似ラベル処理(puupl)により,不均衡データセットとモデルキャリブレーションの問題に対処し,マイノリティクラスからの信号の増大によりラベル付きデータセットをラベルなし集合から新しいサンプルで拡張し,明示的な不確実性定量化により有害な確認バイアスの発生が防止され,予測性能が向上する。
PUUPLは一連の実験において、高度に不均衡な環境での大幅なパフォーマンス向上と、最近のベースラインにおけるバランスのとれたPUシナリオの強いパフォーマンスを示す。
さらに,puuplの各種成分に対するアブレーションおよび感度解析を行った。
最後に、不均衡データセットを持つ現実世界のアプリケーションは、このアプローチの利点を確認します。
関連論文リスト
- An Unbiased Risk Estimator for Partial Label Learning with Augmented Classes [46.663081214928226]
PLLACを理論的に保証した非バイアスリスク推定器を提案する。
PLLACの推定誤差の理論的解析を行う。
ベンチマーク、UCI、実世界のデータセットの実験では、提案手法の有効性が示されている。
論文 参考訳(メタデータ) (2024-09-29T07:36:16Z) - A Channel-ensemble Approach: Unbiased and Low-variance Pseudo-labels is Critical for Semi-supervised Classification [61.473485511491795]
半教師付き学習(SSL)はコンピュータビジョンにおける実践的な課題である。
Pseudo-label (PL) メソッド、例えば FixMatch や FreeMatch は SSL で State of The Art (SOTA) のパフォーマンスを取得する。
本稿では,複数の下位PLを理論的に保証された非偏りと低分散のPLに集約する,軽量なチャネルベースアンサンブル法を提案する。
論文 参考訳(メタデータ) (2024-03-27T09:49:37Z) - Learning with Imbalanced Noisy Data by Preventing Bias in Sample
Selection [82.43311784594384]
実世界のデータセットには、ノイズの多いラベルだけでなく、クラス不均衡も含まれている。
不均衡なデータセットにおけるノイズラベルに対処する,単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-02-17T10:34:53Z) - CLAF: Contrastive Learning with Augmented Features for Imbalanced
Semi-Supervised Learning [40.5117833362268]
半教師付き学習とコントラスト学習は、ポピュラーなアプリケーションでより良いパフォーマンスを達成するために徐々に組み合わせられてきた。
1つの一般的な方法は、擬似ラベルを未ラベルのサンプルに割り当て、擬似ラベルのサンプルから正と負のサンプルを選択して、対照的な学習を適用することである。
比較学習における少数クラスサンプルの不足を軽減するために,CLAF(Contrastive Learning with Augmented Features)を提案する。
論文 参考訳(メタデータ) (2023-12-15T08:27:52Z) - Beyond Myopia: Learning from Positive and Unlabeled Data through
Holistic Predictive Trends [26.79150786180822]
我々は、PULで興味深いが、長い間見過ごされてきた観察を公表する。
ポジティブクラスとネガティブクラスの予測傾向は、明らかに異なるパターンを示す。
本稿では,TPPにインスパイアされた新しいトレンド検出尺度を提案し,変化予測における不偏性を証明する。
論文 参考訳(メタデータ) (2023-10-06T08:06:15Z) - SoftMatch: Addressing the Quantity-Quality Trade-off in Semi-supervised
Learning [101.86916775218403]
本稿では, サンプル重み付けを統一した定式化により, 一般的な擬似ラベル法を再検討する。
トレーニング中の擬似ラベルの量と質を両立させることでトレードオフを克服するSoftMatchを提案する。
実験では、画像、テキスト、不均衡な分類など、さまざまなベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-26T03:53:25Z) - Disentangling Sampling and Labeling Bias for Learning in Large-Output
Spaces [64.23172847182109]
異なる負のサンプリングスキームが支配的ラベルと稀なラベルで暗黙的にトレードオフパフォーマンスを示す。
すべてのラベルのサブセットで作業することで生じるサンプリングバイアスと、ラベルの不均衡に起因するデータ固有のラベルバイアスの両方に明示的に対処する統一された手段を提供する。
論文 参考訳(メタデータ) (2021-05-12T15:40:13Z) - In Defense of Pseudo-Labeling: An Uncertainty-Aware Pseudo-label
Selection Framework for Semi-Supervised Learning [53.1047775185362]
Pseudo-labeling (PL) は一般的な SSL アプローチで、この制約はありませんが、当初の処方では比較的不十分です。
PLは不整合モデルからの誤った高い信頼度予測により性能が低下していると論じる。
そこで本研究では,疑似ラベリング精度を向上させるための不確実性認識型擬似ラベル選択(ups)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-15T23:29:57Z) - Distribution Aligning Refinery of Pseudo-label for Imbalanced
Semi-supervised Learning [126.31716228319902]
Pseudo-label (DARP) アルゴリズムの分散アライメント・リファナリーを開発する。
DARPは最先端のSSLスキームと有効かつ効率的に互換性があることを示す。
論文 参考訳(メタデータ) (2020-07-17T09:16:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。