論文の概要: Positive Unlabeled Learning Selected Not At Random (PULSNAR): class
proportion estimation when the SCAR assumption does not hold
- arxiv url: http://arxiv.org/abs/2303.08269v2
- Date: Tue, 7 Nov 2023 21:19:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 20:15:45.703742
- Title: Positive Unlabeled Learning Selected Not At Random (PULSNAR): class
proportion estimation when the SCAR assumption does not hold
- Title(参考訳): PULSNAR (Positive Unlabeled Learning Selected Not At Random) : SCAR仮定が成立しない場合のクラス比推定
- Authors: Praveen Kumar and Christophe G. Lambert
- Abstract要約: PU学習(Positive and Unlabeled learning)は、半教師付きバイナリ分類の一種である。
2つのPU学習アルゴリズムを提案し、$alpha$を推定し、PUインスタンスの確率を計算し、分類基準を改善する。
- 参考スコア(独自算出の注目度): 3.270211031023673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Positive and Unlabeled (PU) learning is a type of semi-supervised binary
classification where the machine learning algorithm differentiates between a
set of positive instances (labeled) and a set of both positive and negative
instances (unlabeled). PU learning has broad applications in settings where
confirmed negatives are unavailable or difficult to obtain, and there is value
in discovering positives among the unlabeled (e.g., viable drugs among untested
compounds). Most PU learning algorithms make the selected completely at random
(SCAR) assumption, namely that positives are selected independently of their
features. However, in many real-world applications, such as healthcare,
positives are not SCAR (e.g., severe cases are more likely to be diagnosed),
leading to a poor estimate of the proportion, $\alpha$, of positives among
unlabeled examples and poor model calibration, resulting in an uncertain
decision threshold for selecting positives. PU learning algorithms can estimate
$\alpha$ or the probability of an individual unlabeled instance being positive
or both. We propose two PU learning algorithms to estimate $\alpha$, calculate
calibrated probabilities for PU instances, and improve classification metrics:
i) PULSCAR (positive unlabeled learning selected completely at random), and ii)
PULSNAR (positive unlabeled learning selected not at random). PULSNAR uses a
divide-and-conquer approach that creates and solves several SCAR-like
sub-problems using PULSCAR. In our experiments, PULSNAR outperformed
state-of-the-art approaches on both synthetic and real-world benchmark
datasets.
- Abstract(参考訳): ポジティブおよびアンラベル学習(英: positive and unlabeled learning)は、機械学習アルゴリズムが正のインスタンス群(ラベル付き)と負のインスタンス群(ラベル付き)とを区別する半教師付きバイナリ分類の一種である。
PU学習は、確認された陰性が入手できない、あるいは入手が難しい設定において広く応用されており、ラベルなし化合物(例えば、未試験化合物中の有効薬物)の正の発見に価値がある。
ほとんどのPU学習アルゴリズムは、選択された正が特徴から独立して選択されるという、ランダム(SCAR)な仮定で完全に選択する。
しかし、医療のような現実世界の多くのアプリケーションでは、陽性は傷つきにくい(例えば、重篤な症例は診断される可能性が高い)ため、ラベルなしの例とモデルキャリブレーションの粗悪な例の正の比率である$\alpha$の見積もりが不十分となり、正を選択するための不確定な決定しきい値となる。
pu 学習アルゴリズムは、$\alpha$ または個々のラベルなしインスタンスが陽性または両方である確率を推定することができる。
2つのPU学習アルゴリズムを提案し、$\alpha$を推定し、PUインスタンスの校正確率を計算し、分類基準を改善する。
一 PULSCAR(ランダムに選択された正の未ラベル学習)及び
ii) PULSNAR(ランダムに選ばない正の未ラベル学習)
PULSNARは、PULSCARを使用してSCARライクなサブプロブレムを作成し、解決する分割・コンカレントアプローチを使用する。
我々の実験では、PULSNARは合成および実世界のベンチマークデータセットにおいて最先端のアプローチより優れていた。
関連論文リスト
- Verifying the Selected Completely at Random Assumption in Positive-Unlabeled Learning [0.7646713951724013]
観測されたデータがSCARの仮定に合致するかどうかを判定するために,比較的単純で計算的に高速なテストを提案する。
本テストは,SCAR ケースに適合する人工ラベルを生成することに基づいて,SCAR の null 仮説の下での試験統計量の分布を模倣することができる。
論文 参考訳(メタデータ) (2024-03-29T20:36:58Z) - Contrastive Learning with Negative Sampling Correction [52.990001829393506]
PUCL(Positive-Unlabeled Contrastive Learning)という新しいコントラスト学習手法を提案する。
PUCLは生成した負のサンプルをラベルのないサンプルとして扱い、正のサンプルからの情報を用いて、対照的な損失のバイアスを補正する。
PUCLは一般的なコントラスト学習問題に適用でき、様々な画像やグラフの分類タスクにおいて最先端の手法より優れている。
論文 参考訳(メタデータ) (2024-01-13T11:18:18Z) - Joint empirical risk minimization for instance-dependent
positive-unlabeled data [4.112909937203119]
正とラベルなしのデータ(PU学習)からの学習は、機械学習のタスクとして積極的に研究されている。
目標は、ラベル付きインスタンスとラベルなしインスタンスの一部を含むデータセットに基づいて、バイナリ分類モデルをトレーニングすることだ。
ラベルなし集合は、残りの部分の正と全ての負の観察を含む。
論文 参考訳(メタデータ) (2023-12-27T12:45:12Z) - Learning with Complementary Labels Revisited: The Selected-Completely-at-Random Setting Is More Practical [66.57396042747706]
補完ラベル学習は、弱教師付き学習問題である。
均一分布仮定に依存しない一貫したアプローチを提案する。
相補的なラベル学習は、負のラベル付きバイナリ分類問題の集合として表現できる。
論文 参考訳(メタデータ) (2023-11-27T02:59:17Z) - Robust Positive-Unlabeled Learning via Noise Negative Sample
Self-correction [48.929877651182885]
正および未ラベルのデータから学ぶことは、文学における正の未ラベル(PU)学習として知られている。
本研究では,人間の学習の性質を動機とした学習戦略を取り入れた,新しい堅牢なPU学習手法を提案する。
論文 参考訳(メタデータ) (2023-08-01T04:34:52Z) - Dist-PU: Positive-Unlabeled Learning from a Label Distribution
Perspective [89.5370481649529]
本稿では,PU学習のためのラベル分布視点を提案する。
そこで本研究では,予測型と基底型のラベル分布間のラベル分布の整合性を追求する。
提案手法の有効性を3つのベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2022-12-06T07:38:29Z) - Learning with Proper Partial Labels [87.65718705642819]
部分ラベル学習は、不正確なラベルを持つ弱い教師付き学習の一種である。
この適切な部分ラベル学習フレームワークには,従来の部分ラベル学習設定が数多く含まれていることを示す。
次に、分類リスクの統一的非バイアス推定器を導出する。
論文 参考訳(メタデータ) (2021-12-23T01:37:03Z) - Adaptive Positive-Unlabelled Learning via Markov Diffusion [0.0]
Positive-Unlabelled (PU) 学習は、正のインスタンスのセットのみをラベル付けする機械学習環境である。
このアルゴリズムの主な目的は、元来問題のない正のインスタンスを含む可能性のあるインスタンスの集合を特定することである。
論文 参考訳(メタデータ) (2021-08-13T10:25:47Z) - Improving Positive Unlabeled Learning: Practical AUL Estimation and New
Training Method for Extremely Imbalanced Data Sets [10.870831090350402]
我々は2つの側面から、最先端技術に関するポジティブ・アンラベル(PU)学習を改善する。
まず,未ラベルサンプルの事前知識を必要とせずに生のPUデータを利用する,非バイアスの実用的なAUL推定法を提案する。
次に,極めて不均衡なデータセットに対する新しいトレーニング手法であるProbTaggingを提案する。
論文 参考訳(メタデータ) (2020-04-21T08:32:57Z) - Learning from Positive and Unlabeled Data with Arbitrary Positive Shift [11.663072799764542]
本稿では,未ラベルデータに対して任意の非表現陽性データであってもPU学習が可能であることを示す。
これを統計的に一貫した2つの手法に統合し、任意の正のバイアスに対処する。
実験により,多数の実世界のデータセットにまたがる手法の有効性が示された。
論文 参考訳(メタデータ) (2020-02-24T13:53:22Z) - On Positive-Unlabeled Classification in GAN [130.43248168149432]
本稿では,標準GANに対する肯定的かつ未ラベルの分類問題を定義する。
その後、GANにおける差別者の訓練を安定させる新しい手法が導かれる。
論文 参考訳(メタデータ) (2020-02-04T05:59:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。