論文の概要: Verifying the Selected Completely at Random Assumption in Positive-Unlabeled Learning
- arxiv url: http://arxiv.org/abs/2404.00145v1
- Date: Fri, 29 Mar 2024 20:36:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 07:07:01.807486
- Title: Verifying the Selected Completely at Random Assumption in Positive-Unlabeled Learning
- Title(参考訳): 肯定的非ラベル学習におけるランダム推定における完全選択の検証
- Authors: Paweł Teisseyre, Konrad Furmańczyk, Jan Mielniczuk,
- Abstract要約: 観測されたデータがSCARの仮定に合致するかどうかを判定するために,比較的単純で計算的に高速なテストを提案する。
本テストは,SCAR ケースに適合する人工ラベルを生成することに基づいて,SCAR の null 仮説の下での試験統計量の分布を模倣することができる。
- 参考スコア(独自算出の注目度): 0.7646713951724013
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of positive-unlabeled (PU) learning is to train a binary classifier on the basis of training data containing positive and unlabeled instances, where unlabeled observations can belong either to the positive class or to the negative class. Modeling PU data requires certain assumptions on the labeling mechanism that describes which positive observations are assigned a label. The simplest assumption, considered in early works, is SCAR (Selected Completely at Random Assumption), according to which the propensity score function, defined as the probability of assigning a label to a positive observation, is constant. On the other hand, a much more realistic assumption is SAR (Selected at Random), which states that the propensity function solely depends on the observed feature vector. SCAR-based algorithms are much simpler and computationally much faster compared to SAR-based algorithms, which usually require challenging estimation of the propensity score. In this work, we propose a relatively simple and computationally fast test that can be used to determine whether the observed data meet the SCAR assumption. Our test is based on generating artificial labels conforming to the SCAR case, which in turn allows to mimic the distribution of the test statistic under the null hypothesis of SCAR. We justify our method theoretically. In experiments, we demonstrate that the test successfully detects various deviations from SCAR scenario and at the same time it is possible to effectively control the type I error. The proposed test can be recommended as a pre-processing step to decide which final PU algorithm to choose in cases when nature of labeling mechanism is not known.
- Abstract(参考訳): The goal of positive-unlabeled (PU) learning is training a binary classifier based on the training data containing positive and unlabeled instance, where unlabeled observed can belong to the positive class or the negative class。
PUデータのモデリングには、どの正の観測がラベルに割り当てられるかを記述するラベリング機構に関する特定の仮定が必要である。
初期の研究で考慮された最も単純な仮定はSCAR(Selected Completely at Random Assumption)であり、正の観測にラベルを割り当てる確率として定義される確率スコア関数は定数である。
一方、より現実的な仮定は SAR (Selected at Random) であり、確率関数は観測された特徴ベクトルにのみ依存する。
SCARベースのアルゴリズムは、SARベースのアルゴリズムに比べてはるかに単純で計算的に高速である。
そこで本研究では,SCARの仮定に適合するかどうかを判定するために,比較的単純かつ高速なテストを提案する。
本テストは,SCAR ケースに適合する人工ラベルを生成することに基づいて,SCAR の null 仮説の下での試験統計量の分布を模倣することができる。
私たちは理論的にその方法を正当化する。
実験では,SCARシナリオから様々な逸脱を検知し,同時にI型エラーを効果的に制御できることを実証した。
提案したテストは、ラベル付け機構の性質が不明な場合に、どの最終PUアルゴリズムを選択するかを決定するための前処理ステップとして推奨できる。
関連論文リスト
- Augmented prediction of a true class for Positive Unlabeled data under selection bias [0.8594140167290099]
本稿では, 観測時刻をラベル付けした正のアンラベル(PU)データに対して, 新たな観測環境を提案する。
我々は、追加情報は予測に重要であると主張し、このタスクを"Augmented PU prediction"と呼んでいる。
このようなシナリオで経験的ベイズ則のいくつかの変種を導入し、それらの性能について検討する。
論文 参考訳(メタデータ) (2024-07-14T19:58:01Z) - Joint empirical risk minimization for instance-dependent
positive-unlabeled data [4.112909937203119]
正とラベルなしのデータ(PU学習)からの学習は、機械学習のタスクとして積極的に研究されている。
目標は、ラベル付きインスタンスとラベルなしインスタンスの一部を含むデータセットに基づいて、バイナリ分類モデルをトレーニングすることだ。
ラベルなし集合は、残りの部分の正と全ての負の観察を含む。
論文 参考訳(メタデータ) (2023-12-27T12:45:12Z) - Positive Unlabeled Learning Selected Not At Random (PULSNAR): class proportion estimation when the SCAR assumption does not hold [2.76815720120527]
PU学習(Positive and Unlabeled learning)は、半教師付きバイナリ分類の一種である。
PU学習は、確認された負が利用できない、あるいは入手が難しい設定において幅広い応用がある。
2つのPU学習アルゴリズムを提案し、$alpha$を推定し、PUインスタンスの確率を計算し、分類基準を改善する。
論文 参考訳(メタデータ) (2023-03-14T23:16:22Z) - Dist-PU: Positive-Unlabeled Learning from a Label Distribution
Perspective [89.5370481649529]
本稿では,PU学習のためのラベル分布視点を提案する。
そこで本研究では,予測型と基底型のラベル分布間のラベル分布の整合性を追求する。
提案手法の有効性を3つのベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2022-12-06T07:38:29Z) - Risk bounds for PU learning under Selected At Random assumption [0.0]
正の非ラベル付き学習(PU learning)は半教師付きバイナリ分類の特殊な例として知られており、少数の正の例がラベル付けされているのみである。
我々は、上限がほぼ最適であることを示すミニマックスリスクの低い境界を提供する。
論文 参考訳(メタデータ) (2022-01-17T08:45:39Z) - Learning with Proper Partial Labels [87.65718705642819]
部分ラベル学習は、不正確なラベルを持つ弱い教師付き学習の一種である。
この適切な部分ラベル学習フレームワークには,従来の部分ラベル学習設定が数多く含まれていることを示す。
次に、分類リスクの統一的非バイアス推定器を導出する。
論文 参考訳(メタデータ) (2021-12-23T01:37:03Z) - Positive-Unlabeled Classification under Class-Prior Shift: A
Prior-invariant Approach Based on Density Ratio Estimation [85.75352990739154]
密度比推定に基づく新しいPU分類法を提案する。
提案手法の顕著な利点は、訓練段階においてクラスプライヤを必要としないことである。
論文 参考訳(メタデータ) (2021-07-11T13:36:53Z) - A Statistical Test for Probabilistic Fairness [11.95891442664266]
不正な分類を検知するための統計的仮説テストを提案する。
理論的にも実証的にも,提案された試験が正しいことを示す。
さらに,提案フレームワークは,データの最も好ましい摂動を識別することにより,解釈可能性を提供する。
論文 参考訳(メタデータ) (2020-12-09T00:20:02Z) - Semi-Supervised Speech Recognition via Graph-based Temporal
Classification [59.58318952000571]
半教師付き学習は自己学習による自動音声認識において有望な結果を示した。
このアプローチの有効性は、主に擬似ラベルの精度に依存する。
N-bestリストの別のASR仮説は、ラベルなしの発話に対してより正確なラベルを提供することができる。
論文 参考訳(メタデータ) (2020-10-29T14:56:56Z) - Learning with Out-of-Distribution Data for Audio Classification [60.48251022280506]
我々は,OODインスタンスを破棄するよりも,特定のOODインスタンスを検出・復号化することで,学習に肯定的な影響を及ぼすことを示す。
提案手法は,畳み込みニューラルネットワークの性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-02-11T21:08:06Z) - Certified Robustness to Label-Flipping Attacks via Randomized Smoothing [105.91827623768724]
機械学習アルゴリズムは、データ中毒攻撃の影響を受けやすい。
任意の関数に対するランダム化スムージングの統一的なビューを示す。
本稿では,一般的なデータ中毒攻撃に対して,ポイントワイズで確実に堅牢な分類器を構築するための新しい戦略を提案する。
論文 参考訳(メタデータ) (2020-02-07T21:28:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。