論文の概要: Joint empirical risk minimization for instance-dependent
positive-unlabeled data
- arxiv url: http://arxiv.org/abs/2312.16557v1
- Date: Wed, 27 Dec 2023 12:45:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 18:49:05.293709
- Title: Joint empirical risk minimization for instance-dependent
positive-unlabeled data
- Title(参考訳): 事例依存型正ラベルデータに対する共同的リスク最小化
- Authors: Wojciech Rejchel, Pawe{\l} Teisseyre, Jan Mielniczuk
- Abstract要約: 正とラベルなしのデータ(PU学習)からの学習は、機械学習のタスクとして積極的に研究されている。
目標は、ラベル付きインスタンスとラベルなしインスタンスの一部を含むデータセットに基づいて、バイナリ分類モデルをトレーニングすることだ。
ラベルなし集合は、残りの部分の正と全ての負の観察を含む。
- 参考スコア(独自算出の注目度): 4.112909937203119
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning from positive and unlabeled data (PU learning) is actively
researched machine learning task. The goal is to train a binary classification
model based on a training dataset containing part of positives which are
labeled, and unlabeled instances. Unlabeled set includes remaining part of
positives and all negative observations. An important element in PU learning is
modeling of the labeling mechanism, i.e. labels' assignment to positive
observations. Unlike in many prior works, we consider a realistic setting for
which probability of label assignment, i.e. propensity score, is
instance-dependent. In our approach we investigate minimizer of an empirical
counterpart of a joint risk which depends on both posterior probability of
inclusion in a positive class as well as on a propensity score. The non-convex
empirical risk is alternately optimised with respect to parameters of both
functions. In the theoretical analysis we establish risk consistency of the
minimisers using recently derived methods from the theory of empirical
processes. Besides, the important development here is a proposed novel
implementation of an optimisation algorithm, for which sequential approximation
of a set of positive observations among unlabeled ones is crucial. This relies
on modified technique of 'spies' as well as on a thresholding rule based on
conditional probabilities. Experiments conducted on 20 data sets for various
labeling scenarios show that the proposed method works on par or more
effectively than state-of-the-art methods based on propensity function
estimation.
- Abstract(参考訳): 正およびラベルなしデータ(PU学習)からの学習は、機械学習タスクとして積極的に研究されている。
目標は、ラベル付きインスタンスとラベル付きインスタンスの一部を含むトレーニングデータセットに基づいて、バイナリ分類モデルをトレーニングすることだ。
非ラベル集合は、正の残りの部分と全ての負の観測を含む。
pu学習の重要な要素は、ラベル付けメカニズム、すなわち、ポジティブな観察に対するラベルの割り当てのモデル化である。
多くの先行研究とは異なり、ラベル割り当ての確率、すなわち確率スコアがインスタンスに依存した現実的な設定を考える。
本研究では,ポジティブクラスにおける包含確率とプロペンサリティスコアの両方に依存する共同リスクの経験的対応者の最小化について検討する。
非凸経験的リスクは、両関数のパラメータに関して交互に最適化される。
理論解析では, 経験過程の理論から最近導出した手法を用いて, ミニミザのリスク一貫性を確立する。
さらに、ここでの重要な発展は最適化アルゴリズムの新たな実装の提案であり、ラベルのないものの間での正の観測集合の逐次近似が重要である。
これは条件付き確率に基づくしきい値規則と同様に「スパイ」の修正技術に依存する。
様々なラベリングシナリオに対する20のデータセットを用いた実験により,提案手法は,プロペンサシティ関数推定に基づく最先端手法と同等かそれ以上に有効であることが示された。
関連論文リスト
- Probably Approximately Precision and Recall Learning [62.912015491907994]
精度とリコールは機械学習の基本的な指標である。
一方的なフィードバック – トレーニング中にのみ肯定的な例が観察される – は,多くの実践的な問題に固有のものだ。
PAC学習フレームワークでは,各仮説をグラフで表現し,エッジは肯定的な相互作用を示す。
論文 参考訳(メタデータ) (2024-11-20T04:21:07Z) - An Unbiased Risk Estimator for Partial Label Learning with Augmented Classes [46.663081214928226]
PLLACを理論的に保証した非バイアスリスク推定器を提案する。
PLLACの推定誤差の理論的解析を行う。
ベンチマーク、UCI、実世界のデータセットの実験では、提案手法の有効性が示されている。
論文 参考訳(メタデータ) (2024-09-29T07:36:16Z) - Learning with Complementary Labels Revisited: The Selected-Completely-at-Random Setting Is More Practical [66.57396042747706]
補完ラベル学習は、弱教師付き学習問題である。
均一分布仮定に依存しない一貫したアプローチを提案する。
相補的なラベル学習は、負のラベル付きバイナリ分類問題の集合として表現できる。
論文 参考訳(メタデータ) (2023-11-27T02:59:17Z) - Mixture Proportion Estimation and PU Learning: A Modern Approach [47.34499672878859]
正の例とラベルなしの例のみを考えると、正逆負の正の正の分類器を正確に見積もることを望むかもしれない。
両方の問題の古典的な方法は、高次元の設定で分解される。
BBE(Best Bin Estimation)とCVIR(Value Ignoring Risk)の2つの簡単な手法を提案する。
論文 参考訳(メタデータ) (2021-11-01T14:42:23Z) - Scalable Personalised Item Ranking through Parametric Density Estimation [53.44830012414444]
暗黙のフィードバックから学ぶことは、一流問題の難しい性質のために困難です。
ほとんどの従来の方法は、一級問題に対処するためにペアワイズランキングアプローチとネガティブサンプラーを使用します。
本論文では,ポイントワイズと同等の収束速度を実現する学習対ランクアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-11T03:38:16Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z) - Learning from Positive and Unlabeled Data with Arbitrary Positive Shift [11.663072799764542]
本稿では,未ラベルデータに対して任意の非表現陽性データであってもPU学習が可能であることを示す。
これを統計的に一貫した2つの手法に統合し、任意の正のバイアスに対処する。
実験により,多数の実世界のデータセットにまたがる手法の有効性が示された。
論文 参考訳(メタデータ) (2020-02-24T13:53:22Z) - Progressive Identification of True Labels for Partial-Label Learning [112.94467491335611]
部分ラベル学習(Partial-label Learning, PLL)は、典型的な弱教師付き学習問題であり、各トレーニングインスタンスには、真のラベルである候補ラベルのセットが設けられている。
既存のほとんどの手法は、特定の方法で解決しなければならない制約付き最適化として精巧に設計されており、計算複雑性をビッグデータにスケールアップするボトルネックにしている。
本稿では,モデルと最適化アルゴリズムの柔軟性を備えた分類器の新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T08:35:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。