論文の概要: Quantifying With Only Positive Training Data
- arxiv url: http://arxiv.org/abs/2004.10356v2
- Date: Tue, 12 Oct 2021 22:40:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-10 17:21:23.346173
- Title: Quantifying With Only Positive Training Data
- Title(参考訳): ポジティブトレーニングデータのみを用いた定量化
- Authors: Denis dos Reis, Marc\'ilio de Souto, Elaine de Sousa, Gustavo Batista
- Abstract要約: 定量化 (quantification) は、ラベルなしサンプルにおいて各クラスに属するデータポイント数をカウントする方法を研究する研究分野である。
この記事では、ポジティブとアンラベルラーニング(PUL)とワンクラスの量子化(OCQ)のギャップを埋める。
提案手法であるパッシブ・アグレッシブ・スレッショルド(PAT)とPUL法を比較し,PATが一般に最も高速かつ高精度なアルゴリズムであることを示す。
- 参考スコア(独自算出の注目度): 0.5735035463793008
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantification is the research field that studies methods for counting the
number of data points that belong to each class in an unlabeled sample.
Traditionally, researchers in this field assume the availability of labelled
observations for all classes to induce a quantification model. However, we
often face situations where the number of classes is large or even unknown, or
we have reliable data for a single class. When inducing a multi-class
quantifier is infeasible, we are often concerned with estimates for a specific
class of interest. In this context, we have proposed a novel setting known as
One-class Quantification (OCQ). In contrast, Positive and Unlabeled Learning
(PUL), another branch of Machine Learning, has offered solutions to OCQ,
despite quantification not being the focal point of PUL. This article closes
the gap between PUL and OCQ and brings both areas together under a unified
view. We compare our method, Passive Aggressive Threshold (PAT), against PUL
methods and show that PAT generally is the fastest and most accurate algorithm.
PAT induces quantification models that can be reused to quantify different
samples of data. We additionally introduce Exhaustive TIcE (ExTIcE), an
improved version of the PUL algorithm Tree Induction for c Estimation (TIcE).
We show that ExTIcE quantifies more accurately than PAT and the other assessed
algorithms in scenarios where several negative observations are identical to
the positive ones.
- Abstract(参考訳): 定量化は、ラベルなしサンプルにおいて各クラスに属するデータポイント数をカウントする方法を研究する研究分野である。
伝統的に、この分野の研究者は全てのクラスにラベル付き観測が利用可能であると仮定し、定量化モデルを誘導する。
しかし、クラス数が大きすぎる、あるいは未知である場合や、1つのクラスの信頼できるデータがある場合がしばしばあります。
多クラス量子化器の導出が不可能な場合、私たちはしばしば特定の種類の興味を持つための推定に関心を持つ。
そこで我々は,一級量子化(OCQ)と呼ばれる新しい設定を提案する。
対照的に、Positive and Unlabeled Learning (PUL)は、PULの焦点ではない定量化にもかかわらず、OCQのソリューションを提供している。
この記事ではPULとOCQのギャップを埋め、両領域を統一された視点でまとめる。
提案手法であるパッシブ攻撃閾値(PAT)とPUL法を比較し,PATが一般に最も高速かつ高精度なアルゴリズムであることを示す。
PATは、異なるデータのサンプルを定量化するために再利用できる量子化モデルを誘導する。
さらに, TIcE (Exhaustive TIcE) を導入し, C推定のためのPULアルゴリズムツリーインジェクションの改良版を提案する。
我々は,いくつかの負の観測結果が正の観測値と同一であるシナリオにおいて,ExTIcEがPATおよび他の評価アルゴリズムよりも精度良く定量化することを示した。
関連論文リスト
- Prediction Error-based Classification for Class-Incremental Learning [39.91805363069707]
予測誤差に基づく分類(PEC)を導入する
PECは、そのクラスのデータに基づいて、凍結ランダムニューラルネットワークの出力を複製するために訓練されたモデルの予測誤差を測定して、クラススコアを算出する。
PECは、サンプル効率、チューニングの容易さ、データを一度に1つのクラスに提示しても有効性など、いくつかの実用的な利点を提供している。
論文 参考訳(メタデータ) (2023-05-30T07:43:35Z) - Accounting for multiplicity in machine learning benchmark performance [0.0]
最先端のパフォーマンスをSOTA(State-of-the-art)のパフォーマンスの見積として使うのはバイアスのある推定器であり、過度に楽観的な結果をもたらす。
本稿では、複数の分類器の場合の確率分布について、既知の解析手法を適用できるようにし、より優れたSOTA推定値を提供する。
論文 参考訳(メタデータ) (2023-03-10T10:32:18Z) - Multi-Label Quantification [78.83284164605473]
定量化とは、教師なしデータサンプルにおいて、興味あるクラスの相対周波数の予測子を生成する教師付き学習課題である。
本研究では,その相対頻度をより正確に予測するために,興味あるクラス間の依存関係を活用しようとするクラス有病率値の推定手法を提案する。
論文 参考訳(メタデータ) (2022-11-15T11:29:59Z) - A Semiparametric Efficient Approach To Label Shift Estimation and
Quantification [0.0]
本稿では、応答変数の分布の変化を推定するSELSEと呼ばれる新しい手順を提案する。
SELSEの正規化誤差は、その家系の他のどのアルゴリズムよりも最小の分散行列を持つことを示す。
論文 参考訳(メタデータ) (2022-11-07T07:49:29Z) - Positive-Unlabeled Classification under Class-Prior Shift: A
Prior-invariant Approach Based on Density Ratio Estimation [85.75352990739154]
密度比推定に基づく新しいPU分類法を提案する。
提案手法の顕著な利点は、訓練段階においてクラスプライヤを必要としないことである。
論文 参考訳(メタデータ) (2021-07-11T13:36:53Z) - QuaPy: A Python-Based Framework for Quantification [76.22817970624875]
QuaPyは、定量化を行うためのオープンソースのフレームワークである(例えば、教師付き精度推定)。
Pythonで書かれており、pip経由でインストールできる。
論文 参考訳(メタデータ) (2021-06-18T13:57:11Z) - An Empirical Comparison of Instance Attribution Methods for NLP [62.63504976810927]
本研究は,トレーニングサンプルの重要性に関して,異なるインスタンス属性が一致した度合いを評価する。
単純な検索メソッドは、グラデーションベースの方法によって識別されたものと異なるトレーニングインスタンスを生成する。
論文 参考訳(メタデータ) (2021-04-09T01:03:17Z) - Flexible Model Aggregation for Quantile Regression [92.63075261170302]
量子回帰は、予測の不確実性を定量化する必要性によって動機付けられた統計学習の基本的な問題である。
条件付き量子モデルの任意の数を集約する手法について検討する。
この論文で検討するモデルはすべて、現代のディープラーニングツールキットに適合します。
論文 参考訳(メタデータ) (2021-02-26T23:21:16Z) - Tweet Sentiment Quantification: An Experimental Re-Evaluation [88.60021378715636]
センチメント定量化(Sentiment Quantification)は、教師付き学習によって、感情関連クラスの相対周波数(prevalence')を推定するタスクである。
統合され、より堅牢な実験プロトコルに従って、これらの定量化手法を再評価する。
結果はガオ・ガオ・セバスティアーニ(Gao Gao Sebastiani)によって得られたものとは大きく異なり、異なる感情量化法の相対的な強さと弱さについて、よりしっかりとした理解を提供する。
論文 参考訳(メタデータ) (2020-11-04T21:41:34Z) - Improving Positive Unlabeled Learning: Practical AUL Estimation and New
Training Method for Extremely Imbalanced Data Sets [10.870831090350402]
我々は2つの側面から、最先端技術に関するポジティブ・アンラベル(PU)学習を改善する。
まず,未ラベルサンプルの事前知識を必要とせずに生のPUデータを利用する,非バイアスの実用的なAUL推定法を提案する。
次に,極めて不均衡なデータセットに対する新しいトレーニング手法であるProbTaggingを提案する。
論文 参考訳(メタデータ) (2020-04-21T08:32:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。