論文の概要: Making Binary Classification from Multiple Unlabeled Datasets Almost
Free of Supervision
- arxiv url: http://arxiv.org/abs/2306.07036v1
- Date: Mon, 12 Jun 2023 11:33:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 15:01:12.933218
- Title: Making Binary Classification from Multiple Unlabeled Datasets Almost
Free of Supervision
- Title(参考訳): 複数のラベルなしデータセットからのバイナリ分類をほぼ省略する
- Authors: Yuhao Wu, Xiaobo Xia, Jun Yu, Bo Han, Gang Niu, Masashi Sugiyama,
Tongliang Liu
- Abstract要約: 本稿では,複数ラベル付きデータセットからの2値分類という新たな問題設定を提案する。
MU-OPPOでは、ラベル付けされていないすべてのデータセットのクラスプリエントは不要です。
このフレームワークは,クラス前の推定誤差が小さくなり,バイナリ分類の性能が向上することを示す。
- 参考スコア(独自算出の注目度): 128.6645627461981
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training a classifier exploiting a huge amount of supervised data is
expensive or even prohibited in a situation, where the labeling cost is high.
The remarkable progress in working with weaker forms of supervision is binary
classification from multiple unlabeled datasets which requires the knowledge of
exact class priors for all unlabeled datasets. However, the availability of
class priors is restrictive in many real-world scenarios. To address this
issue, we propose to solve a new problem setting, i.e., binary classification
from multiple unlabeled datasets with only one pairwise numerical relationship
of class priors (MU-OPPO), which knows the relative order (which unlabeled
dataset has a higher proportion of positive examples) of two class-prior
probabilities for two datasets among multiple unlabeled datasets. In MU-OPPO,
we do not need the class priors for all unlabeled datasets, but we only require
that there exists a pair of unlabeled datasets for which we know which
unlabeled dataset has a larger class prior. Clearly, this form of supervision
is easier to be obtained, which can make labeling costs almost free. We propose
a novel framework to handle the MU-OPPO problem, which consists of four
sequential modules: (i) pseudo label assignment; (ii) confident example
collection; (iii) class prior estimation; (iv) classifier training with
estimated class priors. Theoretically, we analyze the gap between estimated
class priors and true class priors under the proposed framework. Empirically,
we confirm the superiority of our framework with comprehensive experiments.
Experimental results demonstrate that our framework brings smaller estimation
errors of class priors and better performance of binary classification.
- Abstract(参考訳): ラベル付けコストが高い状況では、大量の教師付きデータを利用する分類器の訓練が高価または禁止される。
より弱い形式の監督を扱う上での顕著な進歩は、すべてのラベルなしデータセットに対して正確なクラスプリミティブの知識を必要とする複数のラベルなしデータセットからのバイナリ分類である。
しかし、多くの実世界のシナリオでは、クラス事前の可用性は制限される。
この問題に対処するために、複数の未ラベルデータセットの2つのクラス優先確率の相対順序(ラベル付きデータセットの正の比率が高い)を知っているクラス先行(MU-OPPO)の1対の数値関係を持つ複数の未ラベルデータセットからのバイナリ分類という、新しい問題を解決することを提案する。
MU-OPPOでは、ラベルなしデータセットのクラス事前は必要ありませんが、ラベルなしデータセットのどちらがより大きいクラスを持つかを知るために、ラベルなしデータセットのペアが存在することだけが必要です。
明らかに、この形式の監視は入手が容易であり、ラベリングコストをほぼ無料にすることができる。
4つの逐次モジュールからなるMU-OPPO問題を扱うための新しいフレームワークを提案する。
(i)擬似ラベル付与
(ii)自信のある例集
(iii)クラス先行推定
(iv)推定クラス先行による分類訓練。
理論的には,提案フレームワークの下で推定されたクラス先行と真のクラス先行とのギャップを分析する。
実証実験により,本フレームワークの優位性を確認した。
実験の結果,このフレームワークはクラス優先度の推定誤差が小さくなり,バイナリ分類の性能が向上した。
関連論文リスト
- Active Generalized Category Discovery [60.69060965936214]
GCD(Generalized Category Discovery)は、新しいクラスと古いクラスの未ラベルのサンプルをクラスタ化するための取り組みである。
我々は,能動的学習の精神を取り入れて,能動的一般化カテゴリー発見(AGCD)という新たな設定を提案する。
提案手法は, 汎用および微粒なデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-07T07:12:24Z) - An Effective Approach for Multi-label Classification with Missing Labels [8.470008570115146]
分類ネットワークにさらなる複雑さをもたらすことなく、アノテーションのコストを削減するための擬似ラベルベースのアプローチを提案する。
新たな損失関数を設計することにより、各インスタンスが少なくとも1つの正のラベルを含む必要があるという要求を緩和することができる。
提案手法は,正のラベルと負のラベルの不均衡を扱える一方で,既存の欠落ラベル学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-24T23:13:57Z) - Learning from Multiple Unlabeled Datasets with Partial Risk
Regularization [80.54710259664698]
本稿では,クラスラベルを使わずに正確な分類器を学習することを目的とする。
まず、与えられたラベルのない集合から推定できる分類リスクの偏りのない推定器を導出する。
その結果、経験的リスクがトレーニング中に負になるにつれて、分類器が過度に適合する傾向があることが判明した。
実験により,本手法は,複数の未ラベル集合から学習する最先端の手法を効果的に緩和し,性能を向上することを示した。
論文 参考訳(メタデータ) (2022-07-04T16:22:44Z) - Binary Classification from Multiple Unlabeled Datasets via Surrogate Set
Classification [94.55805516167369]
我々は m 個の U 集合を $mge2$ で二進分類する新しい手法を提案する。
我々のキーとなる考え方は、サロゲート集合分類(SSC)と呼ばれる補助的分類タスクを考えることである。
論文 参考訳(メタデータ) (2021-02-01T07:36:38Z) - Multilabel Classification by Hierarchical Partitioning and
Data-dependent Grouping [33.48217977134427]
ラベルベクトルの空間性と階層構造を利用して、それらを低次元空間に埋め込む。
我々は、低ランク非負行列因子化に基づくグループ構成を用いる、新しいデータ依存型グループ化手法を提案する。
次に、大規模問題におけるラベル階層を利用して、大きなラベル空間を分割し、より小さなサブプロブレムを生成する階層的分割手法を提案する。
論文 参考訳(メタデータ) (2020-06-24T22:23:39Z) - Global Multiclass Classification and Dataset Construction via
Heterogeneous Local Experts [37.27708297562079]
得られたデータセットの信頼性を確保しながら、ラベルの数を最小化する方法を示す。
MNISTとCIFAR-10データセットを用いた実験では、アグリゲーション方式の良好な精度が示されている。
論文 参考訳(メタデータ) (2020-05-21T18:07:42Z) - Structured Prediction with Partial Labelling through the Infimum Loss [85.4940853372503]
弱い監督の目標は、収集コストの安いラベル付け形式のみを使用してモデルを学習できるようにすることである。
これは、各データポイントに対して、実際のものを含むラベルのセットとして、監督がキャストされる不完全なアノテーションの一種です。
本稿では、構造化された予測と、部分的なラベリングを扱うための無限損失の概念に基づく統一的なフレームワークを提供する。
論文 参考訳(メタデータ) (2020-03-02T13:59:41Z) - Automatically Discovering and Learning New Visual Categories with
Ranking Statistics [145.89790963544314]
我々は,他のクラスをラベル付けした画像コレクションにおいて,新しいクラスを発見する問題に対処する。
汎用クラスタリングモデルを学び、後者を用いて、非競合データ中の新しいクラスを識別する。
我々は,標準分類ベンチマークに対するアプローチと,新しいカテゴリー発見法の性能を,有意なマージンで評価した。
論文 参考訳(メタデータ) (2020-02-13T18:53:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。