論文の概要: Robust and Efficient Imbalanced Positive-Unlabeled Learning with
Self-supervision
- arxiv url: http://arxiv.org/abs/2209.02459v1
- Date: Tue, 6 Sep 2022 12:54:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-07 14:37:28.050074
- Title: Robust and Efficient Imbalanced Positive-Unlabeled Learning with
Self-supervision
- Title(参考訳): 自己監督型不均衡学習のロバスト化と効率性
- Authors: Emilio Dorigatti, Jonas Schweisthal, Bernd Bischl, Mina Rezaei
- Abstract要約: textitImPULSeS, underlineIm Balanced underlinePositive underlineUnlabeled underlineLearningを提案する。
我々は、ImPULSeSが過去の最先端のエラー率を半減できることを示すために、複数のデータセットで異なる実験を行った。
- 参考スコア(独自算出の注目度): 1.5675763601034223
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning from positive and unlabeled (PU) data is a setting where the learner
only has access to positive and unlabeled samples while having no information
on negative examples. Such PU setting is of great importance in various tasks
such as medical diagnosis, social network analysis, financial markets analysis,
and knowledge base completion, which also tend to be intrinsically imbalanced,
i.e., where most examples are actually negatives. Most existing approaches for
PU learning, however, only consider artificially balanced datasets and it is
unclear how well they perform in the realistic scenario of imbalanced and
long-tail data distribution. This paper proposes to tackle this challenge via
robust and efficient self-supervised pretraining. However, training
conventional self-supervised learning methods when applied with highly
imbalanced PU distribution needs better reformulation. In this paper, we
present \textit{ImPULSeS}, a unified representation learning framework for
\underline{Im}balanced \underline{P}ositive \underline{U}nlabeled
\underline{L}earning leveraging \underline{Se}lf-\underline{S}upervised debiase
pre-training. ImPULSeS uses a generic combination of large-scale unsupervised
learning with debiased contrastive loss and additional reweighted PU loss. We
performed different experiments across multiple datasets to show that ImPULSeS
is able to halve the error rate of the previous state-of-the-art, even compared
with previous methods that are given the true prior. Moreover, our method
showed increased robustness to prior misspecification and superior performance
even when pretraining was performed on an unrelated dataset. We anticipate such
robustness and efficiency will make it much easier for practitioners to obtain
excellent results on other PU datasets of interest. The source code is
available at \url{https://github.com/JSchweisthal/ImPULSeS}
- Abstract(参考訳): 正とラベルなし(PU)データからの学習は、学習者が正とラベルなしのサンプルのみにアクセスでき、負のサンプルに関する情報を持たない設定である。
このようなPU設定は、医療診断、ソーシャルネットワーク分析、金融市場分析、知識ベース補完といった様々なタスクにおいて非常に重要であり、これは本質的に不均衡である傾向がある。
しかし、PU学習における既存のほとんどのアプローチは、人工的なバランスの取れたデータセットのみを考慮しており、不均衡なデータ分布と長い尾のデータ分布の現実的なシナリオにおいて、どのように機能するかは不明である。
本稿では,この課題に対してロバストかつ効率的な自己教師付き事前学習によって取り組むことを提案する。
しかし、高度に不均衡なPU分布を適用する場合の従来の自己教師型学習手法の訓練は、改善が必要である。
本稿では, \underline{Im} balanced \underline{P}ositive \underline{U}nlabeled \underline{L}earning のための統一表現学習フレームワークである \textit{ImPULSeS} を, \underline{Se}lf-\underline{S}upervised debiase pre-training を利用して提案する。
ImPULSeSは、大規模教師なし学習とデバイアス付きコントラスト損失と追加のPU損失を組み合わせた汎用的な組み合わせを使用している。
我々は、ImPULSeSが過去の最先端技術のエラー率を半減できることを示すために、複数のデータセットで異なる実験を行った。
さらに,本手法は,非関係データセット上で事前トレーニングを行った場合においても,事前の誤特定に対するロバスト性や優れた性能を示した。
このような堅牢性と効率性は,実践者が他のPUデータセットで優れた結果を得ることができることを期待する。
ソースコードは \url{https://github.com/JSchweisthal/ImPULSeS} で入手できる。
関連論文リスト
- Probabilistic Contrastive Learning for Long-Tailed Visual Recognition [78.70453964041718]
細長い分布は、少数の少数派が限られた数のサンプルを含む実世界のデータにしばしば現れる。
近年の研究では、教師付きコントラスト学習がデータ不均衡を緩和する有望な可能性を示していることが明らかになっている。
本稿では,特徴空間の各クラスからのサンプルデータ分布を推定する確率論的コントラスト学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-11T13:44:49Z) - Ask Your Distribution Shift if Pre-Training is Right for You [74.18516460467019]
実際に、事前訓練されたモデルの微調整は、いくつかのケースではロバスト性を大幅に改善するが、他のケースではまったく改善しない。
分散シフト中のモデルの2つの障害モード – トレーニングデータの補間不足とバイアス – に注目する。
我々の研究は、親指の規則として、事前学習は、粗悪な外挿を緩和するがデータセットのバイアスを緩和する助けとなることを示唆している。
論文 参考訳(メタデータ) (2024-02-29T23:46:28Z) - Dr. FERMI: A Stochastic Distributionally Robust Fair Empirical Risk
Minimization Framework [12.734559823650887]
分散シフトが存在する場合、公正な機械学習モデルはテストデータに対して不公平に振る舞うことがある。
既存のアルゴリズムはデータへの完全なアクセスを必要とし、小さなバッチを使用する場合には使用できない。
本稿では,因果グラフの知識を必要としない収束保証付き分布安定度フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-20T23:25:28Z) - Uncertainty Voting Ensemble for Imbalanced Deep Regression [20.176217123752465]
本稿では,不均衡なデータから学習するUVOTEを紹介する。
従来の回帰損失を負の対数類似度に置き換え、サンプルワイドのアレタリックな不確実性も予測する。
UVOTEは先行技術より一貫して優れており、同時に精度のよい不確実性評価が得られている。
論文 参考訳(メタデータ) (2023-05-24T14:12:21Z) - An Embarrassingly Simple Baseline for Imbalanced Semi-Supervised
Learning [103.65758569417702]
半教師付き学習(SSL)は、ラベルのないデータを活用してモデルのパフォーマンスを向上させるという大きな約束を示している。
我々は、ラベル付きデータとラベルなしデータの両方で不均衡なクラス分散が発生する不均衡SSLという、より現実的で困難な設定について検討する。
我々は、ラベル付きデータを擬似ラベルで単純に補うことで、データの不均衡に取り組む単純なベースライン、SimiSについて研究する。
論文 参考訳(メタデータ) (2022-11-20T21:18:41Z) - Agree to Disagree: Diversity through Disagreement for Better
Transferability [54.308327969778155]
本稿では,D-BAT(Diversity-By-dis-Agreement Training)を提案する。
我々は、D-BATが一般化された相違の概念から自然に現れることを示す。
論文 参考訳(メタデータ) (2022-02-09T12:03:02Z) - Relieving Long-tailed Instance Segmentation via Pairwise Class Balance [85.53585498649252]
長い尾のインスタンスセグメンテーションは、クラス間のトレーニングサンプルの極端な不均衡のために難しいタスクである。
尾のついたものに対して、(大多数のサンプルを含む)ヘッドクラスの深刻なバイアスを引き起こす。
そこで本研究では,学習中の予測嗜好を蓄積するために,学習中に更新される混乱行列上に構築された新しいPairwise Class Balance(PCB)手法を提案する。
論文 参考訳(メタデータ) (2022-01-08T07:48:36Z) - Can Active Learning Preemptively Mitigate Fairness Issues? [66.84854430781097]
データセットバイアスは、機械学習における不公平な原因の1つです。
不確実性に基づくALで訓練されたモデルが保護クラスの決定において公平であるかどうかを検討する。
また,勾配反転(GRAD)やBALDなどのアルゴリズム的公正性手法の相互作用についても検討する。
論文 参考訳(メタデータ) (2021-04-14T14:20:22Z) - Improving Positive Unlabeled Learning: Practical AUL Estimation and New
Training Method for Extremely Imbalanced Data Sets [10.870831090350402]
我々は2つの側面から、最先端技術に関するポジティブ・アンラベル(PU)学習を改善する。
まず,未ラベルサンプルの事前知識を必要とせずに生のPUデータを利用する,非バイアスの実用的なAUL推定法を提案する。
次に,極めて不均衡なデータセットに対する新しいトレーニング手法であるProbTaggingを提案する。
論文 参考訳(メタデータ) (2020-04-21T08:32:57Z) - MixPUL: Consistency-based Augmentation for Positive and Unlabeled
Learning [8.7382177147041]
本稿では, 整合性正規化に基づく簡易かつ効果的なデータ拡張手法である coinedalgo を提案する。
アルゴインコーポレートは、拡張データを生成するために、教師付きおよび教師なしの一貫性トレーニングを行う。
我々は,CIFAR-10データセットの分類誤差を16.49から13.09まで,それぞれ異なる正のデータ量で平均的に改善したことを示す。
論文 参考訳(メタデータ) (2020-04-20T15:43:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。