論文の概要: Binary classification with ambiguous training data
- arxiv url: http://arxiv.org/abs/2011.02598v1
- Date: Thu, 5 Nov 2020 00:53:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 12:26:04.806246
- Title: Binary classification with ambiguous training data
- Title(参考訳): あいまいなトレーニングデータを用いたバイナリ分類
- Authors: Naoya Otani, Yosuke Otsubo, Tetsuya Koike, Masashi Sugiyama
- Abstract要約: 教師付き学習では、ドメインの専門家でさえラベル付けが難しい曖昧な(A)サンプルに直面します。
この問題は、ラベルなしサンプルが必ずしも難しいサンプルではないため、半教師付き学習とは大きく異なる。
- 参考スコア(独自算出の注目度): 69.50862982117127
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In supervised learning, we often face with ambiguous (A) samples that are
difficult to label even by domain experts. In this paper, we consider a binary
classification problem in the presence of such A samples. This problem is
substantially different from semi-supervised learning since unlabeled samples
are not necessarily difficult samples. Also, it is different from 3-class
classification with the positive (P), negative (N), and A classes since we do
not want to classify test samples into the A class. Our proposed method extends
binary classification with reject option, which trains a classifier and a
rejector simultaneously using P and N samples based on the 0-1-$c$ loss with
rejection cost $c$. More specifically, we propose to train a classifier and a
rejector under the 0-1-$c$-$d$ loss using P, N, and A samples, where $d$ is the
misclassification penalty for ambiguous samples. In our practical
implementation, we use a convex upper bound of the 0-1-$c$-$d$ loss for
computational tractability. Numerical experiments demonstrate that our method
can successfully utilize the additional information brought by such A training
data.
- Abstract(参考訳): 教師付き学習では、ドメインの専門家でさえラベル付けが難しい曖昧な(A)サンプルに直面します。
本稿では,このようなサンプルが存在する場合,二分分類の問題を考える。
この問題は、ラベルなしサンプルが必ずしも難しいサンプルではないため、半教師付き学習とは大きく異なる。
また、テストサンプルをaクラスに分類したくないので、正(p)、負(n)、a(a)の3クラス分類とは異なる。
提案手法は,0-1-$c$の損失とリジェクションコスト$c$に基づくpとnのサンプルを用いて,分類器とリジェクタを同時にトレーニングするrejectオプションでバイナリ分類を拡張する。
より具体的には、p, n を使って 0-1-$c$-$d$ の損失の下で分類器と拒絶器を訓練し、ここで $d$ は曖昧なサンプルに対する誤分類のペナルティである。
本実装では,0-1-$c$-$d$損失の凸上界を計算的トラクタビリティに使用する。
数値実験により,このようなトレーニングデータから得られた付加情報を有効活用できることが実証された。
関連論文リスト
- Kernel-Based Tests for Likelihood-Free Hypothesis Testing [21.143798051525646]
2つのバランスの取れたクラスから$n$の観測が与えられたとき、追加の$m$入力をラベル付けするタスクを考える。
この問題の特別なケースはよく知られており、$m=1$はバイナリ分類に対応し、$mapprox n$は2サンプルテストに相当する。
最近の研究で、$m$と$n$の間に根本的なトレードオフがあることが判明した。
論文 参考訳(メタデータ) (2023-08-17T15:24:03Z) - Shrinking Class Space for Enhanced Certainty in Semi-Supervised Learning [59.44422468242455]
そこで我々はShrinkMatchと呼ばれる新しい手法を提案し、不確実なサンプルを学習する。
それぞれの不確実なサンプルに対して、元の Top-1 クラスを単に含むスランク類空間を適応的に求める。
次に、スランク空間における強と弱に強化された2つのサンプル間の整合正則化を課し、識別的表現を試みます。
論文 参考訳(メタデータ) (2023-08-13T14:05:24Z) - ADT-SSL: Adaptive Dual-Threshold for Semi-Supervised Learning [68.53717108812297]
Semi-Supervised Learning (SSL)は、ラベル付きデータとラベルなしデータを併用してモデルをトレーニングすることで、高度な分類タスクを実現している。
本稿では,半教師付き学習(ADT-SSL)のための適応的デュアル閾値法を提案する。
実験の結果,提案したADT-SSLは最先端の分類精度を実現することがわかった。
論文 参考訳(メタデータ) (2022-05-21T11:52:08Z) - Does Adversarial Oversampling Help us? [10.210871872870737]
本稿では,データセットのクラス不均衡を処理するために,3人のプレイヤーによるゲームベースのエンドツーエンド手法を提案する。
本稿では,敵対的マイノリティ・オーバーサンプリングではなく,敵対的オーバーサンプリング (AO) とデータ空間・オーバーサンプリング (DO) のアプローチを提案する。
提案手法の有効性を高次元・高不均衡・大規模マルチクラスデータセットを用いて検証した。
論文 参考訳(メタデータ) (2021-08-20T05:43:17Z) - Contrastive Learning with Hard Negative Samples [80.12117639845678]
我々は, 厳密な陰性サンプルを選択するために, 教師なしサンプリング手法を新たに開発する。
このサンプリングの制限ケースは、各クラスをしっかりとクラスタ化し、可能な限り異なるクラスを遠くにプッシュする表現をもたらす。
提案手法は、複数のモードをまたいだダウンストリーム性能を改善し、実装するコード行数が少なく、計算オーバーヘッドを伴わない。
論文 参考訳(メタデータ) (2020-10-09T14:18:53Z) - A Boundary Based Out-of-Distribution Classifier for Generalized
Zero-Shot Learning [83.1490247844899]
Generalized Zero-Shot Learning (GZSL)は多くの現実的なシナリオにおいて有望な見通しを持つ挑戦的なトピックである。
本研究では,見知らぬ領域を学習用サンプルのみを用いて分類する境界に基づくアウト・オブ・ディストリビューション(OOD)分類器を提案する。
我々は、AWA1、AWA2、CUB、FLO、SUNを含む5つの人気のあるベンチマークデータセットに対して、我々のアプローチを広範囲に検証する。
論文 参考訳(メタデータ) (2020-08-09T11:27:19Z) - Multi-label Contrastive Predictive Coding [125.03510235962095]
差分相互情報(MI)推定器は、コントラスト予測符号化(CPC)のような教師なし表現学習法で広く利用されている。
本稿では,複数の正のサンプルを同時に同定する必要がある多ラベル分類問題に基づく新しい推定器を提案する。
同一量の負のサンプルを用いて複数ラベルのCPCが$log m$boundを超えることができる一方で、相互情報の有意な下限であることを示す。
論文 参考訳(メタデータ) (2020-07-20T02:46:21Z) - Improving Positive Unlabeled Learning: Practical AUL Estimation and New
Training Method for Extremely Imbalanced Data Sets [10.870831090350402]
我々は2つの側面から、最先端技術に関するポジティブ・アンラベル(PU)学習を改善する。
まず,未ラベルサンプルの事前知識を必要とせずに生のPUデータを利用する,非バイアスの実用的なAUL推定法を提案する。
次に,極めて不均衡なデータセットに対する新しいトレーニング手法であるProbTaggingを提案する。
論文 参考訳(メタデータ) (2020-04-21T08:32:57Z) - Semi-supervised learning method based on predefined evenly-distributed
class centroids [7.499563097360385]
少数のラベル付きサンプルを使用し、ラベルなしサンプルにデータ拡張を行い、画像分類を実現する。
CIFAR10は4000,SVHNは1000,SVHNは95.10%,精度は97.58%であった。
論文 参考訳(メタデータ) (2020-01-13T08:03:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。