論文の概要: Improving Positive Unlabeled Learning: Practical AUL Estimation and New
Training Method for Extremely Imbalanced Data Sets
- arxiv url: http://arxiv.org/abs/2004.09820v1
- Date: Tue, 21 Apr 2020 08:32:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-11 06:02:29.206499
- Title: Improving Positive Unlabeled Learning: Practical AUL Estimation and New
Training Method for Extremely Imbalanced Data Sets
- Title(参考訳): 正のラベルなし学習の改善:実用的aur推定と超不均衡データセットのための新しい訓練法
- Authors: Liwei Jiang, Dan Li, Qisheng Wang, Shuai Wang, Songtao Wang
- Abstract要約: 我々は2つの側面から、最先端技術に関するポジティブ・アンラベル(PU)学習を改善する。
まず,未ラベルサンプルの事前知識を必要とせずに生のPUデータを利用する,非バイアスの実用的なAUL推定法を提案する。
次に,極めて不均衡なデータセットに対する新しいトレーニング手法であるProbTaggingを提案する。
- 参考スコア(独自算出の注目度): 10.870831090350402
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Positive Unlabeled (PU) learning is widely used in many applications, where a
binary classifier is trained on the datasets consisting of only positive and
unlabeled samples. In this paper, we improve PU learning over state-of-the-art
from two aspects. Firstly, existing model evaluation methods for PU learning
requires ground truth of unlabeled samples, which is unlikely to be obtained in
practice. In order to release this restriction, we propose an asymptotic
unbiased practical AUL (area under the lift) estimation method, which makes use
of raw PU data without prior knowledge of unlabeled samples.
Secondly, we propose ProbTagging, a new training method for extremely
imbalanced data sets, where the number of unlabeled samples is hundreds or
thousands of times that of positive samples. ProbTagging introduces probability
into the aggregation method. Specifically, each unlabeled sample is tagged
positive or negative with the probability calculated based on the similarity to
its positive neighbors. Based on this, multiple data sets are generated to
train different models, which are then combined into an ensemble model.
Compared to state-of-the-art work, the experimental results show that
ProbTagging can increase the AUC by up to 10%, based on three industrial and
two artificial PU data sets.
- Abstract(参考訳): 正のアンラベル(PU)学習は多くのアプリケーションで広く使われており、バイナリ分類器は正と未ラベルのサンプルのみからなるデータセットで訓練される。
本稿では,最先端技術によるPU学習を2つの側面から改善する。
まず、既存のPU学習のためのモデル評価手法は、実際に得られる可能性が低い未ラベル標本の基礎的真理を必要とする。
この制限を解除するために,未ラベルサンプルの事前知識を必要とせずに生のPUデータを利用する,漸近的無バイアス実用的なAUL推定法を提案する。
第2に,極端に不均衡なデータセットのための新しいトレーニング手法であるProbTaggingを提案する。
ProbTaggingはアグリゲーション法に確率を導入する。
具体的には、各ラベルのないサンプルは、その正の近傍との類似性に基づいて算出された確率で、正または負のタグづけされる。
これに基づいて、異なるモデルをトレーニングするために複数のデータセットが生成され、アンサンブルモデルに結合される。
現状技術と比較すると,3つの産業用および2つの人工PUデータセットに基づいて,ProbTaggingはAUCを最大10%増加させることができる。
関連論文リスト
- Probabilistic Contrastive Learning for Long-Tailed Visual Recognition [78.70453964041718]
細長い分布は、少数の少数派が限られた数のサンプルを含む実世界のデータにしばしば現れる。
近年の研究では、教師付きコントラスト学習がデータ不均衡を緩和する有望な可能性を示していることが明らかになっている。
本稿では,特徴空間の各クラスからのサンプルデータ分布を推定する確率論的コントラスト学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-11T13:44:49Z) - Robust Positive-Unlabeled Learning via Noise Negative Sample
Self-correction [48.929877651182885]
正および未ラベルのデータから学ぶことは、文学における正の未ラベル(PU)学習として知られている。
本研究では,人間の学習の性質を動機とした学習戦略を取り入れた,新しい堅牢なPU学習手法を提案する。
論文 参考訳(メタデータ) (2023-08-01T04:34:52Z) - Positive Unlabeled Learning Selected Not At Random (PULSNAR): class proportion estimation when the SCAR assumption does not hold [2.76815720120527]
PU学習(Positive and Unlabeled learning)は、半教師付きバイナリ分類の一種である。
PU学習は、確認された負が利用できない、あるいは入手が難しい設定において幅広い応用がある。
2つのPU学習アルゴリズムを提案し、$alpha$を推定し、PUインスタンスの確率を計算し、分類基準を改善する。
論文 参考訳(メタデータ) (2023-03-14T23:16:22Z) - Dist-PU: Positive-Unlabeled Learning from a Label Distribution
Perspective [89.5370481649529]
本稿では,PU学習のためのラベル分布視点を提案する。
そこで本研究では,予測型と基底型のラベル分布間のラベル分布の整合性を追求する。
提案手法の有効性を3つのベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2022-12-06T07:38:29Z) - Positive Unlabeled Contrastive Learning [14.975173394072053]
自己教師型事前学習パラダイムを古典的正の未ラベル(PU)設定に拡張する。
PU固有のクラスタリング手法を用いて,ラベルのないサンプルを擬似ラベル付けする手法を開発した。
提案手法は,いくつかの標準PUベンチマークデータセットに対して,最先端のPU手法を手作業で上回っている。
論文 参考訳(メタデータ) (2022-06-01T20:16:32Z) - Sampling from Arbitrary Functions via PSD Models [55.41644538483948]
まず確率分布をモデル化し,そのモデルからサンプリングする。
これらのモデルでは, 少数の評価値を用いて, 高精度に多数の密度を近似することが可能であることが示され, それらのモデルから効果的にサンプルする簡単なアルゴリズムが提示される。
論文 参考訳(メタデータ) (2021-10-20T12:25:22Z) - Positive-Unlabeled Classification under Class-Prior Shift: A
Prior-invariant Approach Based on Density Ratio Estimation [85.75352990739154]
密度比推定に基づく新しいPU分類法を提案する。
提案手法の顕著な利点は、訓練段階においてクラスプライヤを必要としないことである。
論文 参考訳(メタデータ) (2021-07-11T13:36:53Z) - Rethinking InfoNCE: How Many Negative Samples Do You Need? [54.146208195806636]
半定量的理論フレームワークを用いて, InfoNCE に最適化された負のサンプル数について検討した。
トレーニングの有効性関数を最大化する$K$値を用いて,最適負サンプリング比を推定する。
論文 参考訳(メタデータ) (2021-05-27T08:38:29Z) - MixPUL: Consistency-based Augmentation for Positive and Unlabeled
Learning [8.7382177147041]
本稿では, 整合性正規化に基づく簡易かつ効果的なデータ拡張手法である coinedalgo を提案する。
アルゴインコーポレートは、拡張データを生成するために、教師付きおよび教師なしの一貫性トレーニングを行う。
我々は,CIFAR-10データセットの分類誤差を16.49から13.09まで,それぞれ異なる正のデータ量で平均的に改善したことを示す。
論文 参考訳(メタデータ) (2020-04-20T15:43:33Z) - Learning from Positive and Unlabeled Data with Arbitrary Positive Shift [11.663072799764542]
本稿では,未ラベルデータに対して任意の非表現陽性データであってもPU学習が可能であることを示す。
これを統計的に一貫した2つの手法に統合し、任意の正のバイアスに対処する。
実験により,多数の実世界のデータセットにまたがる手法の有効性が示された。
論文 参考訳(メタデータ) (2020-02-24T13:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。