論文の概要: Mixture Proportion Estimation and PU Learning: A Modern Approach
- arxiv url: http://arxiv.org/abs/2111.00980v1
- Date: Mon, 1 Nov 2021 14:42:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-02 16:14:23.994807
- Title: Mixture Proportion Estimation and PU Learning: A Modern Approach
- Title(参考訳): 混合確率推定とPU学習 : 最近のアプローチ
- Authors: Saurabh Garg, Yifan Wu, Alex Smola, Sivaraman Balakrishnan, Zachary C.
Lipton
- Abstract要約: 正の例とラベルなしの例のみを考えると、正逆負の正の正の分類器を正確に見積もることを望むかもしれない。
両方の問題の古典的な方法は、高次元の設定で分解される。
BBE(Best Bin Estimation)とCVIR(Value Ignoring Risk)の2つの簡単な手法を提案する。
- 参考スコア(独自算出の注目度): 47.34499672878859
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Given only positive examples and unlabeled examples (from both positive and
negative classes), we might hope nevertheless to estimate an accurate
positive-versus-negative classifier. Formally, this task is broken down into
two subtasks: (i) Mixture Proportion Estimation (MPE) -- determining the
fraction of positive examples in the unlabeled data; and (ii) PU-learning --
given such an estimate, learning the desired positive-versus-negative
classifier. Unfortunately, classical methods for both problems break down in
high-dimensional settings. Meanwhile, recently proposed heuristics lack
theoretical coherence and depend precariously on hyperparameter tuning. In this
paper, we propose two simple techniques: Best Bin Estimation (BBE) (for MPE);
and Conditional Value Ignoring Risk (CVIR), a simple objective for PU-learning.
Both methods dominate previous approaches empirically, and for BBE, we
establish formal guarantees that hold whenever we can train a model to cleanly
separate out a small subset of positive examples. Our final algorithm
(TED)$^n$, alternates between the two procedures, significantly improving both
our mixture proportion estimator and classifier
- Abstract(参考訳): 正の例と(正のクラスと負のクラスの両方から)ラベルされていない例のみを考えると、正確な正の逆負の分類器を推定することを期待できる。
形式的には、このタスクは2つのサブタスクに分けられる。
(i)混合比率推定(mpe) --非ラベルデータ中の正の例の比率を決定する。
(ii)pu-learning -このような推定を行い、所望の正負の分類法を学習する。
残念ながら、両方の問題の古典的な方法は高次元の設定で分解される。
一方、最近提案されたヒューリスティックスは理論的コヒーレンスを欠き、ハイパーパラメータチューニングに依存する。
本稿では,pu-learningの単純な目的であるbest bin estimation (bbe) (mpe) とconditional value ignoring risk (cvir) の2つの簡単な手法を提案する。
どちらの手法も経験的に従来の手法を支配しており、BBEでは、正の例の小さな部分集合をきれいに分離するためにモデルを訓練できるたびに保持する形式的な保証を確立する。
最終アルゴリズム(TED)$^n$は2つの手順を交互に行い、混合比推定器と分類器の両方を著しく改善する。
関連論文リスト
- Probably Approximately Precision and Recall Learning [62.912015491907994]
精度とリコールは機械学習の基本的な指標である。
一方的なフィードバック – トレーニング中にのみ肯定的な例が観察される – は,多くの実践的な問題に固有のものだ。
PAC学習フレームワークでは,各仮説をグラフで表現し,エッジは肯定的な相互作用を示す。
論文 参考訳(メタデータ) (2024-11-20T04:21:07Z) - Probabilistic Contrastive Learning for Long-Tailed Visual Recognition [78.70453964041718]
細長い分布は、少数の少数派が限られた数のサンプルを含む実世界のデータにしばしば現れる。
近年の研究では、教師付きコントラスト学習がデータ不均衡を緩和する有望な可能性を示していることが明らかになっている。
本稿では,特徴空間の各クラスからのサンプルデータ分布を推定する確率論的コントラスト学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-11T13:44:49Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Joint empirical risk minimization for instance-dependent
positive-unlabeled data [4.112909937203119]
正とラベルなしのデータ(PU学習)からの学習は、機械学習のタスクとして積極的に研究されている。
目標は、ラベル付きインスタンスとラベルなしインスタンスの一部を含むデータセットに基づいて、バイナリ分類モデルをトレーニングすることだ。
ラベルなし集合は、残りの部分の正と全ての負の観察を含む。
論文 参考訳(メタデータ) (2023-12-27T12:45:12Z) - Learning to Estimate Without Bias [57.82628598276623]
ガウスの定理は、重み付き最小二乗推定器は線形モデルにおける線形最小分散アンバイアスド推定(MVUE)であると述べている。
本稿では、バイアス制約のあるディープラーニングを用いて、この結果を非線形設定に拡張する第一歩を踏み出す。
BCEの第二の動機は、同じ未知の複数の推定値が平均化されてパフォーマンスが向上するアプリケーションにおいてである。
論文 参考訳(メタデータ) (2021-10-24T10:23:51Z) - Scalable Personalised Item Ranking through Parametric Density Estimation [53.44830012414444]
暗黙のフィードバックから学ぶことは、一流問題の難しい性質のために困難です。
ほとんどの従来の方法は、一級問題に対処するためにペアワイズランキングアプローチとネガティブサンプラーを使用します。
本論文では,ポイントワイズと同等の収束速度を実現する学習対ランクアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-11T03:38:16Z) - DEMI: Discriminative Estimator of Mutual Information [5.248805627195347]
連続確率変数間の相互情報を推定することは、高次元データにとってしばしば難解で困難である。
近年の進歩は、相互情報の変動的下界を最適化するためにニューラルネットワークを活用している。
提案手法は,データサンプルペアが結合分布から引き出される確率を提供する分類器の訓練に基づく。
論文 参考訳(メタデータ) (2020-10-05T04:19:27Z) - Improving Positive Unlabeled Learning: Practical AUL Estimation and New
Training Method for Extremely Imbalanced Data Sets [10.870831090350402]
我々は2つの側面から、最先端技術に関するポジティブ・アンラベル(PU)学習を改善する。
まず,未ラベルサンプルの事前知識を必要とせずに生のPUデータを利用する,非バイアスの実用的なAUL推定法を提案する。
次に,極めて不均衡なデータセットに対する新しいトレーニング手法であるProbTaggingを提案する。
論文 参考訳(メタデータ) (2020-04-21T08:32:57Z) - Learning from Positive and Unlabeled Data with Arbitrary Positive Shift [11.663072799764542]
本稿では,未ラベルデータに対して任意の非表現陽性データであってもPU学習が可能であることを示す。
これを統計的に一貫した2つの手法に統合し、任意の正のバイアスに対処する。
実験により,多数の実世界のデータセットにまたがる手法の有効性が示された。
論文 参考訳(メタデータ) (2020-02-24T13:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。