論文の概要: Unbiased Loss Functions for Extreme Classification With Missing Labels
- arxiv url: http://arxiv.org/abs/2007.00237v1
- Date: Wed, 1 Jul 2020 04:42:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 21:59:27.185684
- Title: Unbiased Loss Functions for Extreme Classification With Missing Labels
- Title(参考訳): 失語ラベルを用いた極端分類のための失語機能
- Authors: Erik Schultheis, Mohammadreza Qaraei, Priyanshu Gupta, and Rohit
Babbar
- Abstract要約: 極端なマルチラベル分類(XMC)の目標は、非常に大きなラベルのセットから、関連するラベルの小さなサブセットでインスタンスをタグ付けすることである。
本研究では,ラベルを分解する損失関数の一般定式化のための非バイアス推定器を導出する。
抽出された非バイアス推定器は、極端分類のための最先端アルゴリズムに容易に組み込むことができることを示す。
- 参考スコア(独自算出の注目度): 1.6011907050002954
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal in extreme multi-label classification (XMC) is to tag an instance
with a small subset of relevant labels from an extremely large set of possible
labels. In addition to the computational burden arising from large number of
training instances, features and labels, problems in XMC are faced with two
statistical challenges, (i) large number of 'tail-labels' -- those which occur
very infrequently, and (ii) missing labels as it is virtually impossible to
manually assign every relevant label to an instance. In this work, we derive an
unbiased estimator for general formulation of loss functions which decompose
over labels, and then infer the forms for commonly used loss functions such as
hinge- and squared-hinge-loss and binary cross-entropy loss. We show that the
derived unbiased estimators, in the form of appropriate weighting factors, can
be easily incorporated in state-of-the-art algorithms for extreme
classification, thereby scaling to datasets with hundreds of thousand labels.
However, empirically, we find a slightly altered version that gives more
relative weight to tail labels to perform even better. We suspect is due to the
label imbalance in the dataset, which is not explicitly addressed by our
theoretically derived estimator. Minimizing the proposed loss functions leads
to significant improvement over existing methods (up to 20% in some cases) on
benchmark datasets in XMC.
- Abstract(参考訳): 極端なマルチラベル分類(XMC)の目標は、非常に大きなラベルのセットから、関連するラベルの小さなサブセットでインスタンスをタグ付けすることである。
多くのトレーニングインスタンス、特徴、ラベルから生じる計算負担に加えて、XMCの問題は2つの統計的課題に直面している。
(i)多数の「尾ラベル」 --非常に稀に発生するもの、及び
(ii)すべての関連するラベルをインスタンスに手動で割り当てることは事実上不可能である。
本研究では,ラベルを分解した損失関数の一般定式化のための非バイアス推定器を導出し,ヒンジ・ヒンジ・ロスや二乗クロスエントロピー損失などの一般的な損失関数の形式を推定する。
そこで本研究では,適切な重み付け係数の形で導出非偏り推定器を極端に分類するための最先端アルゴリズムに容易に組み込むことができ,数十万ラベルのデータセットにスケールできることを示す。
しかし、実験的に見れば、テールラベルに対する相対的な重み付けをより良くする、わずかに変更されたバージョンが見つかる。
我々は、データセットのラベルの不均衡が原因であり、理論的に導出された推定器によって明示的に対処されていないと推測する。
提案された損失関数の最小化は、XMCのベンチマークデータセット上の既存のメソッド(場合によっては20%)よりも大幅に改善される。
関連論文リスト
- Generating Unbiased Pseudo-labels via a Theoretically Guaranteed
Chebyshev Constraint to Unify Semi-supervised Classification and Regression [57.17120203327993]
分類におけるしきい値と擬似ラベルプロセス(T2L)は、ラベルの品質を決定するために信頼性を使用する。
本質的には、レグレッションは高品質なラベルを生成するためにバイアスのない方法も必要である。
チェビシェフの不等式に基づく不偏ラベルを生成するための理論的に保証された制約を提案する。
論文 参考訳(メタデータ) (2023-11-03T08:39:35Z) - Towards Imbalanced Large Scale Multi-label Classification with Partially
Annotated Labels [8.977819892091]
マルチラベル分類は、複数のクラスにインスタンスを関連付けることができる日常生活において、広く発生する問題である。
本研究では,ラベルの不均衡の問題に対処し,部分ラベルを用いたニューラルネットワークのトレーニング方法について検討する。
論文 参考訳(メタデータ) (2023-07-31T21:50:48Z) - Bridging the Gap between Model Explanations in Partially Annotated
Multi-label Classification [85.76130799062379]
偽陰性ラベルがモデルの説明にどのように影響するかを考察する。
本稿では,部分ラベルで学習したモデルの属性スコアを向上し,その説明をフルラベルで学習したモデルと類似させる。
論文 参考訳(メタデータ) (2023-04-04T14:00:59Z) - Complementary to Multiple Labels: A Correlation-Aware Correction
Approach [65.59584909436259]
理論上, マルチクラスCLLにおける遷移行列が, 複数ラベルの場合どのように歪むかを示す。
候補ラベルから遷移行列を推定する2段階の手法を提案する。
論文 参考訳(メタデータ) (2023-02-25T04:48:48Z) - An Effective Approach for Multi-label Classification with Missing Labels [8.470008570115146]
分類ネットワークにさらなる複雑さをもたらすことなく、アノテーションのコストを削減するための擬似ラベルベースのアプローチを提案する。
新たな損失関数を設計することにより、各インスタンスが少なくとも1つの正のラベルを含む必要があるという要求を緩和することができる。
提案手法は,正のラベルと負のラベルの不均衡を扱える一方で,既存の欠落ラベル学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-24T23:13:57Z) - Acknowledging the Unknown for Multi-label Learning with Single Positive
Labels [65.5889334964149]
伝統的に、全ての無注釈ラベルは、単一正のマルチラベル学習(SPML)において負のラベルとして仮定される。
本研究では, 予測確率のエントロピーを最大化するエントロピー最大化(EM)損失を提案する。
非通知ラベルの正負ラベル不均衡を考慮し、非対称耐性戦略とより精密な監視を行うセルフペースト手順を備えた非対称擬似ラベル(APL)を提案する。
論文 参考訳(メタデータ) (2022-03-30T11:43:59Z) - Unbiased Loss Functions for Multilabel Classification with Missing
Labels [2.1549398927094874]
欠落ラベルは、極端なマルチラベル分類(XMC)タスクにおいてユビキタスな現象である。
本稿では,異なるマルチラベルリダクションに対する特異な非バイアス推定器を導出する。
論文 参考訳(メタデータ) (2021-09-23T10:39:02Z) - Disentangling Sampling and Labeling Bias for Learning in Large-Output
Spaces [64.23172847182109]
異なる負のサンプリングスキームが支配的ラベルと稀なラベルで暗黙的にトレードオフパフォーマンスを示す。
すべてのラベルのサブセットで作業することで生じるサンプリングバイアスと、ラベルの不均衡に起因するデータ固有のラベルバイアスの両方に明示的に対処する統一された手段を提供する。
論文 参考訳(メタデータ) (2021-05-12T15:40:13Z) - Comparing the Value of Labeled and Unlabeled Data in Method-of-Moments
Latent Variable Estimation [17.212805760360954]
我々は,メソッド・オブ・モーメント・潜在変数推定におけるモデル誤特定に着目したフレームワークを用いている。
そして、ある場合においてこのバイアスを確実に排除する補正を導入する。
理論上, 合成実験により, 特定されたモデルではラベル付点がラベル付点以上の定数に値することを示した。
論文 参考訳(メタデータ) (2021-03-03T23:52:38Z) - Label Confusion Learning to Enhance Text Classification Models [3.0251266104313643]
ラベル混乱モデル(lcm)はラベル間の意味的重複を捉えるためにラベル混乱を学習する。
lcmは、元のホットラベルベクトルを置き換えるより優れたラベル分布を生成することができる。
5つのテキスト分類ベンチマークデータセットの実験により、広く使われているディープラーニング分類モデルに対するLCMの有効性が明らかにされた。
論文 参考訳(メタデータ) (2020-12-09T11:34:35Z) - A Study on the Autoregressive and non-Autoregressive Multi-label
Learning [77.11075863067131]
本稿では,ラベルとラベルの依存関係を共同で抽出する自己アテンションに基づく変分エンコーダモデルを提案する。
したがって、ラベルラベルとラベル機能の両方の依存関係を保ちながら、すべてのラベルを並列に予測することができる。
論文 参考訳(メタデータ) (2020-12-03T05:41:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。