論文の概要: Unbiased Loss Functions for Multilabel Classification with Missing
Labels
- arxiv url: http://arxiv.org/abs/2109.11282v1
- Date: Thu, 23 Sep 2021 10:39:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-24 15:14:07.621716
- Title: Unbiased Loss Functions for Multilabel Classification with Missing
Labels
- Title(参考訳): 欠落ラベルを用いた多ラベル分類における不偏損失関数
- Authors: Erik Schultheis and Rohit Babbar
- Abstract要約: 欠落ラベルは、極端なマルチラベル分類(XMC)タスクにおいてユビキタスな現象である。
本稿では,異なるマルチラベルリダクションに対する特異な非バイアス推定器を導出する。
- 参考スコア(独自算出の注目度): 2.1549398927094874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper considers binary and multilabel classification problems in a
setting where labels are missing independently and with a known rate. Missing
labels are a ubiquitous phenomenon in extreme multi-label classification (XMC)
tasks, such as matching Wikipedia articles to a small subset out of the
hundreds of thousands of possible tags, where no human annotator can possibly
check the validity of all the negative samples. For this reason,
propensity-scored precision -- an unbiased estimate for precision-at-k under a
known noise model -- has become one of the standard metrics in XMC. Few methods
take this problem into account already during the training phase, and all are
limited to loss functions that can be decomposed into a sum of contributions
from each individual label. A typical approach to training is to reduce the
multilabel problem into a series of binary or multiclass problems, and it has
been shown that if the surrogate task should be consistent for optimizing
recall, the resulting loss function is not decomposable over labels. Therefore,
this paper derives the unique unbiased estimators for the different multilabel
reductions, including the non-decomposable ones. These estimators suffer from
increased variance and may lead to ill-posed optimization problems, which we
address by switching to convex upper-bounds. The theoretical considerations are
further supplemented by an experimental study showing that the switch to
unbiased estimators significantly alters the bias-variance trade-off and may
thus require stronger regularization, which in some cases can negate the
benefits of unbiased estimation.
- Abstract(参考訳): 本稿では,ラベルが独立に欠落し,既知のレートで,バイナリとマルチラベルの分類問題を考察する。
欠落ラベルは、ウィキペディアの記事と数十万の可能なタグの小さなサブセットをマッチングするなど、極端なマルチラベル分類(XMC)タスクにおいてユビキタスな現象である。
このことから、既知のノイズモデルの下での精度-at-kの偏りのない推定値である確率-scored precisionが、XMCの標準指標の1つとなっている。
トレーニング期間中にこの問題を考慮に入れているメソッドはほとんどなく、各ラベルからのコントリビューションの合計に分解可能な損失関数に制限されている。
トレーニングの典型的なアプローチは、マルチラベル問題を一連のバイナリやマルチクラスの問題に還元することであり、サロゲートタスクがリコールの最適化に一貫性があるならば、結果として生じる損失関数はラベルよりも分解できないことが示されている。
そこで本論文は,非可逆性を含む異なるマルチラベル還元に対する一意な偏りのない推定器を導出する。
これらの推定器はばらつきの増大に苦しめられ、不適切な最適化問題を引き起こす可能性がある。
理論的な考察はさらに、偏りのない推定器への切り替えがバイアス分散のトレードオフを著しく変化させ、より強固な正則化が必要となり、偏りのない推定の利点を無効にする可能性があることを示す実験的研究によって補足される。
関連論文リスト
- Generating Unbiased Pseudo-labels via a Theoretically Guaranteed
Chebyshev Constraint to Unify Semi-supervised Classification and Regression [57.17120203327993]
分類におけるしきい値と擬似ラベルプロセス(T2L)は、ラベルの品質を決定するために信頼性を使用する。
本質的には、レグレッションは高品質なラベルを生成するためにバイアスのない方法も必要である。
チェビシェフの不等式に基づく不偏ラベルを生成するための理論的に保証された制約を提案する。
論文 参考訳(メタデータ) (2023-11-03T08:39:35Z) - Multi-Label Noise Transition Matrix Estimation with Label Correlations:
Theory and Algorithm [73.94839250910977]
ノイズの多いマルチラベル学習は、大規模な正確なラベルの収集によって生じる課題により、注目を集めている。
遷移行列の導入は、マルチラベルノイズをモデル化し、統計的に一貫したアルゴリズムの開発に役立つ。
そこで本稿では, アンカーポイントを必要とせずに, ラベル相関を利用した新しい推定器を提案する。
論文 参考訳(メタデータ) (2023-09-22T08:35:38Z) - Class-Distribution-Aware Pseudo Labeling for Semi-Supervised Multi-Label
Learning [97.88458953075205]
Pseudo-labelingは、ラベルなしデータを利用するための人気で効果的なアプローチとして登場した。
本稿では,クラスアウェアの擬似ラベル処理を行うCAP(Class-Aware Pseudo-Labeling)という新しい手法を提案する。
論文 参考訳(メタデータ) (2023-05-04T12:52:18Z) - Multi-Label Quantification [78.83284164605473]
定量化とは、教師なしデータサンプルにおいて、興味あるクラスの相対周波数の予測子を生成する教師付き学習課題である。
本研究では,その相対頻度をより正確に予測するために,興味あるクラス間の依存関係を活用しようとするクラス有病率値の推定手法を提案する。
論文 参考訳(メタデータ) (2022-11-15T11:29:59Z) - Learning from Multiple Unlabeled Datasets with Partial Risk
Regularization [80.54710259664698]
本稿では,クラスラベルを使わずに正確な分類器を学習することを目的とする。
まず、与えられたラベルのない集合から推定できる分類リスクの偏りのない推定器を導出する。
その結果、経験的リスクがトレーニング中に負になるにつれて、分類器が過度に適合する傾向があることが判明した。
実験により,本手法は,複数の未ラベル集合から学習する最先端の手法を効果的に緩和し,性能を向上することを示した。
論文 参考訳(メタデータ) (2022-07-04T16:22:44Z) - Multi-class Probabilistic Bounds for Self-learning [13.875239300089861]
Pseudo-labelingはエラーを起こしやすいため、ラベルなしのトレーニングデータにノイズのあるラベルを追加するリスクがある。
本稿では,多クラス分類シナリオにおける自己学習を部分的にラベル付きデータで分析する確率的枠組みを提案する。
論文 参考訳(メタデータ) (2021-09-29T13:57:37Z) - sigmoidF1: A Smooth F1 Score Surrogate Loss for Multilabel
Classification [42.37189502220329]
マルチラベル分類評価の複雑さを考慮した損失関数 sigmoidF1 を提案する。
SigmoidF1は4つのデータセットといくつかのメトリクスで他の損失関数よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-24T08:11:33Z) - Disentangling Sampling and Labeling Bias for Learning in Large-Output
Spaces [64.23172847182109]
異なる負のサンプリングスキームが支配的ラベルと稀なラベルで暗黙的にトレードオフパフォーマンスを示す。
すべてのラベルのサブセットで作業することで生じるサンプリングバイアスと、ラベルの不均衡に起因するデータ固有のラベルバイアスの両方に明示的に対処する統一された手段を提供する。
論文 参考訳(メタデータ) (2021-05-12T15:40:13Z) - Comparing the Value of Labeled and Unlabeled Data in Method-of-Moments
Latent Variable Estimation [17.212805760360954]
我々は,メソッド・オブ・モーメント・潜在変数推定におけるモデル誤特定に着目したフレームワークを用いている。
そして、ある場合においてこのバイアスを確実に排除する補正を導入する。
理論上, 合成実験により, 特定されたモデルではラベル付点がラベル付点以上の定数に値することを示した。
論文 参考訳(メタデータ) (2021-03-03T23:52:38Z) - A Flexible Class of Dependence-aware Multi-Label Loss Functions [4.265467042008983]
本稿では,多ラベル分類のための新しいクラス損失関数を提案する。
これは、ハミングやサブセット0/1のような一般的に使用される損失のデメリットを克服する。
これらの損失の観点からのマルチラベルの評価は、実証的研究で示される。
論文 参考訳(メタデータ) (2020-11-02T07:42:15Z) - Unbiased Loss Functions for Extreme Classification With Missing Labels [1.6011907050002954]
極端なマルチラベル分類(XMC)の目標は、非常に大きなラベルのセットから、関連するラベルの小さなサブセットでインスタンスをタグ付けすることである。
本研究では,ラベルを分解する損失関数の一般定式化のための非バイアス推定器を導出する。
抽出された非バイアス推定器は、極端分類のための最先端アルゴリズムに容易に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-07-01T04:42:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。