論文の概要: Improving State-of-the-Art in One-Class Classification by Leveraging
Unlabeled Data
- arxiv url: http://arxiv.org/abs/2203.07206v1
- Date: Mon, 14 Mar 2022 15:44:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-15 16:51:50.960731
- Title: Improving State-of-the-Art in One-Class Classification by Leveraging
Unlabeled Data
- Title(参考訳): ラベルなしデータの活用による一級分類における最先端化
- Authors: Farid Bagirov, Dmitry Ivanov, Aleksei Shpilman
- Abstract要約: One-Class (OC) 分類と Positive Unlabeled (PU) 学習はデータのバイナリ分類に使用される。
我々は,ラベルなしデータの信頼性に関して,最先端のOCアルゴリズムとPUアルゴリズムを多種多様なシナリオで検討した。
我々の主な推奨事項は、ラベルのないデータが信頼できる場合に最先端のPUアルゴリズムを使用することと、それ以外は最先端のOCアルゴリズムの修正を行うことである。
- 参考スコア(独自算出の注目度): 5.331436239493893
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When dealing with binary classification of data with only one labeled class
data scientists employ two main approaches, namely One-Class (OC)
classification and Positive Unlabeled (PU) learning. The former only learns
from labeled positive data, whereas the latter also utilizes unlabeled data to
improve the overall performance. Since PU learning utilizes more data, we might
be prone to think that when unlabeled data is available, the go-to algorithms
should always come from the PU group. However, we find that this is not always
the case if unlabeled data is unreliable, i.e. contains limited or biased
latent negative data. We perform an extensive experimental study of a wide list
of state-of-the-art OC and PU algorithms in various scenarios as far as
unlabeled data reliability is concerned. Furthermore, we propose PU
modifications of state-of-the-art OC algorithms that are robust to unreliable
unlabeled data, as well as a guideline to similarly modify other OC algorithms.
Our main practical recommendation is to use state-of-the-art PU algorithms when
unlabeled data is reliable and to use the proposed modifications of
state-of-the-art OC algorithms otherwise. Additionally, we outline procedures
to distinguish the cases of reliable and unreliable unlabeled data using
statistical tests.
- Abstract(参考訳): 1つのラベル付きクラスデータサイエンティストでデータのバイナリ分類を扱う場合、2つの主要なアプローチ、すなわち1クラス(OC)分類と正のアンラベル付き(PU)学習を用いる。
前者はラベル付き陽性データからのみ学習するが、後者はラベルなしデータを使って全体的なパフォーマンスを改善する。
PU学習はより多くのデータを利用するので、ラベルのないデータが利用可能であれば、go-toアルゴリズムは常にPUグループから来るべきであると考える傾向にある。
しかし、ラベルなしデータが信頼できない場合、すなわち、制限またはバイアス付き潜在負のデータを含む場合、これは必ずしもそうではない。
非ラベルデータ信頼性に関するさまざまなシナリオにおいて,最先端ocアルゴリズムとpuアルゴリズムの広範な実験を行った。
さらに,信頼できないデータに頑健な最先端ocアルゴリズムのpu修正と,他のocアルゴリズムを同じように修正するためのガイドラインを提案する。
我々の主な推奨事項は、ラベルのないデータが信頼できる場合に最先端のPUアルゴリズムを使用することと、それ以外は最先端のOCアルゴリズムの修正を行うことである。
また,信頼度および信頼性の低い非ラベルデータの場合を統計的テストで区別する手順を概説する。
関連論文リスト
- Contrastive Approach to Prior Free Positive Unlabeled Learning [15.269090018352875]
本稿では,前文不変表現学習を通じて特徴空間を学習することから始まる,新しいPU学習フレームワークを提案する。
提案手法は,いくつかの標準PUベンチマークデータセットにおいて,最先端のPU学習手法より優れている。
論文 参考訳(メタデータ) (2024-02-08T20:20:54Z) - FlatMatch: Bridging Labeled Data and Unlabeled Data with Cross-Sharpness
for Semi-Supervised Learning [73.13448439554497]
Semi-Supervised Learning (SSL) は、ラベル付きデータが極めて少ない豊富なラベル付きデータを活用する効果的な方法である。
ほとんどのSSLメソッドは、通常、異なるデータ変換間のインスタンス単位の一貫性に基づいている。
本研究では,2つのデータセット間の一貫した学習性能を確保するために,クロスシャープネス尺度を最小化するFlatMatchを提案する。
論文 参考訳(メタデータ) (2023-10-25T06:57:59Z) - Positive Unlabeled Contrastive Learning [14.975173394072053]
自己教師型事前学習パラダイムを古典的正の未ラベル(PU)設定に拡張する。
PU固有のクラスタリング手法を用いて,ラベルのないサンプルを擬似ラベル付けする手法を開発した。
提案手法は,いくつかの標準PUベンチマークデータセットに対して,最先端のPU手法を手作業で上回っている。
論文 参考訳(メタデータ) (2022-06-01T20:16:32Z) - Positive-Unlabeled Classification under Class-Prior Shift: A
Prior-invariant Approach Based on Density Ratio Estimation [85.75352990739154]
密度比推定に基づく新しいPU分類法を提案する。
提案手法の顕著な利点は、訓練段階においてクラスプライヤを必要としないことである。
論文 参考訳(メタデータ) (2021-07-11T13:36:53Z) - OpenCoS: Contrastive Semi-supervised Learning for Handling Open-set
Unlabeled Data [65.19205979542305]
ラベル付けされていないデータには、実際にはクラス外のサンプルが含まれる。
OpenCoSは、このリアルな半教師付き学習シナリオを扱う方法である。
論文 参考訳(メタデータ) (2021-06-29T06:10:05Z) - Self-Trained One-class Classification for Unsupervised Anomaly Detection [56.35424872736276]
異常検出(AD)は、製造から医療まで、さまざまな分野に応用されている。
本研究は、トレーニングデータ全体がラベル付けされておらず、正規サンプルと異常サンプルの両方を含む可能性のある、教師なしAD問題に焦点を当てる。
この問題に対処するため,データリファインメントによる堅牢な一級分類フレームワークを構築した。
本手法は6.3AUCと12.5AUCの平均精度で最先端の1クラス分類法より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-11T01:36:08Z) - Confident in the Crowd: Bayesian Inference to Improve Data Labelling in
Crowdsourcing [0.30458514384586394]
我々は,コスト削減を図りながら,ラベルの品質を向上させる新しい手法を提案する。
本稿では,ベイズ推定などのより洗練された手法を用いてラベルラの性能を計測する。
提案手法は,群集内で不一致が発生した場合に高い信頼性を維持しつつ,コストと精度の両方で標準的な投票方法より優れる。
論文 参考訳(メタデータ) (2021-05-28T17:09:45Z) - A Novel Perspective for Positive-Unlabeled Learning via Noisy Labels [49.990938653249415]
本研究では,初期疑似ラベルを雑音ラベルデータとして用いる非ラベルデータに割り当て,雑音ラベルデータを用いて深層ニューラルネットワークを訓練する手法を提案する。
実験の結果,提案手法は,いくつかのベンチマークデータセットにおいて,最先端の手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-03-08T11:46:02Z) - Classify and Generate Reciprocally: Simultaneous Positive-Unlabelled
Learning and Conditional Generation with Extra Data [77.31213472792088]
クラスラベルデータの不足は、多くの機械学習問題において、ユビキタスなボトルネックとなっている。
本稿では, 正負ラベル付き(PU)分類と, 余分なラベル付きデータによる条件生成を活用することで, この問題に対処する。
本稿では,PU分類と条件生成を併用した新たなトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-14T08:27:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。