論文の概要: Balancing Methods for Multi-label Text Classification with Long-Tailed
Class Distribution
- arxiv url: http://arxiv.org/abs/2109.04712v1
- Date: Fri, 10 Sep 2021 07:39:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-13 13:33:15.306368
- Title: Balancing Methods for Multi-label Text Classification with Long-Tailed
Class Distribution
- Title(参考訳): 複数ラベルテキスト分類のための長編クラス分布を用いたバランシング手法
- Authors: Yi Huang, Buse Giledereli, Abdullatif K\"oksal, Arzucan \"Ozg\"ur,
Elif Ozkirimli
- Abstract要約: マルチラベルテキスト分類における分散損失関数の適用について紹介する。
クラス不均衡問題とラベル連鎖問題の両方に本質的に対処する分布均衡損失関数は、一般的に使用される損失関数より優れている。
- 参考スコア(独自算出の注目度): 2.3064145892791132
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multi-label text classification is a challenging task because it requires
capturing label dependencies. It becomes even more challenging when class
distribution is long-tailed. Resampling and re-weighting are common approaches
used for addressing the class imbalance problem, however, they are not
effective when there is label dependency besides class imbalance because they
result in oversampling of common labels. Here, we introduce the application of
balancing loss functions for multi-label text classification. We perform
experiments on a general domain dataset with 90 labels (Reuters-21578) and a
domain-specific dataset from PubMed with 18211 labels. We find that a
distribution-balanced loss function, which inherently addresses both the class
imbalance and label linkage problems, outperforms commonly used loss functions.
Distribution balancing methods have been successfully used in the image
recognition field. Here, we show their effectiveness in natural language
processing. Source code is available at
https://github.com/blessu/BalancedLossNLP.
- Abstract(参考訳): ラベル依存をキャプチャする必要があるため、マルチラベルテキスト分類は難しい作業である。
クラス分布が長いとさらに難しくなります。
再サンプリングと再重み付けはクラス不均衡問題に対処する一般的なアプローチであるが、クラス不均衡以外にラベル依存がある場合、共通ラベルのオーバーサンプリングが発生するため有効ではない。
本稿では,多ラベルテキスト分類における分散損失関数の適用について紹介する。
我々は,90ラベルの一般ドメインデータセット(Reuters-21578)と18211ラベルのPubMedのドメイン固有データセットを用いて実験を行った。
クラス不均衡問題とラベル連鎖問題の両方に本質的に対処する分布均衡損失関数は、一般的に使用される損失関数より優れている。
画像認識の分野では分布バランス法が有効である。
ここでは,自然言語処理におけるその効果を示す。
ソースコードはhttps://github.com/blessu/BalancedLossNLPで入手できる。
関連論文リスト
- Generating Unbiased Pseudo-labels via a Theoretically Guaranteed
Chebyshev Constraint to Unify Semi-supervised Classification and Regression [57.17120203327993]
分類におけるしきい値と擬似ラベルプロセス(T2L)は、ラベルの品質を決定するために信頼性を使用する。
本質的には、レグレッションは高品質なラベルを生成するためにバイアスのない方法も必要である。
チェビシェフの不等式に基づく不偏ラベルを生成するための理論的に保証された制約を提案する。
論文 参考訳(メタデータ) (2023-11-03T08:39:35Z) - Towards Imbalanced Large Scale Multi-label Classification with Partially
Annotated Labels [8.977819892091]
マルチラベル分類は、複数のクラスにインスタンスを関連付けることができる日常生活において、広く発生する問題である。
本研究では,ラベルの不均衡の問題に対処し,部分ラベルを用いたニューラルネットワークのトレーニング方法について検討する。
論文 参考訳(メタデータ) (2023-07-31T21:50:48Z) - Dist-PU: Positive-Unlabeled Learning from a Label Distribution
Perspective [89.5370481649529]
本稿では,PU学習のためのラベル分布視点を提案する。
そこで本研究では,予測型と基底型のラベル分布間のラベル分布の整合性を追求する。
提案手法の有効性を3つのベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2022-12-06T07:38:29Z) - TagRec++: Hierarchical Label Aware Attention Network for Question
Categorization [0.3683202928838613]
オンライン学習システムは、階層的な性質の明確に定義された分類に従ってコンテンツを整理する。
階層ラベルへの入力を分類するタスクは通常、フラットな多クラス分類問題として扱われる。
各コンテンツに対して適切な階層ラベルを検索するために,タスクを高密度検索問題として定式化する。
論文 参考訳(メタデータ) (2022-08-10T05:08:37Z) - Distribution-Aware Semantics-Oriented Pseudo-label for Imbalanced
Semi-Supervised Learning [80.05441565830726]
本稿では,疑似ラベルの重み付けがモデル性能に悪影響を及ぼすような,不均衡な半教師付き学習に対処する。
本稿では,この観測の動機となるバイアスに対処する,一般的な擬似ラベルフレームワークを提案する。
不均衡SSLのための新しい擬似ラベルフレームワークを、DASO(Distributed-Aware Semantics-Oriented Pseudo-label)と呼ぶ。
論文 参考訳(メタデータ) (2021-06-10T11:58:25Z) - PLM: Partial Label Masking for Imbalanced Multi-label Classification [59.68444804243782]
長いラベルの分布を持つ実世界のデータセットで訓練されたニューラルネットワークは、頻繁なクラスに偏りがあり、頻繁なクラスでは不十分である。
本稿では,この比率を利用したPLM(Partial Label Masking)を提案する。
本手法は,マルチラベル (MultiMNIST と MSCOCO) とシングルラベル (CIFAR-10 と CIFAR-100) の2つの画像分類データセットにおいて,既存の手法と比較して高い性能を実現する。
論文 参考訳(メタデータ) (2021-05-22T18:07:56Z) - Disentangling Sampling and Labeling Bias for Learning in Large-Output
Spaces [64.23172847182109]
異なる負のサンプリングスキームが支配的ラベルと稀なラベルで暗黙的にトレードオフパフォーマンスを示す。
すべてのラベルのサブセットで作業することで生じるサンプリングバイアスと、ラベルの不均衡に起因するデータ固有のラベルバイアスの両方に明示的に対処する統一された手段を提供する。
論文 参考訳(メタデータ) (2021-05-12T15:40:13Z) - All Labels Are Not Created Equal: Enhancing Semi-supervision via Label
Grouping and Co-training [32.45488147013166]
Pseudo-labelingは、半教師付き学習(SSL)の鍵となるコンポーネントである
本論文では,ラベルセマンティクスとコトレーニングを活用した問題解決手法であるSemCoを提案する。
提案手法は,1000個のラベル付きサンプルを持つミニイメージネットデータセットにおける5.6%の精度向上を含む,様々なsslタスクにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-04-12T07:33:16Z) - Distribution-Balanced Loss for Multi-Label Classification in Long-Tailed
Datasets [98.74153364118898]
本稿では,長距離クラス分布を示す多ラベル認識問題に対して,分散ベース損失と呼ばれる新たな損失関数を提案する。
Distribution-Balanced Lossは、標準的なバイナリのクロスエントロピー損失に対する2つの重要な修正を通じて、これらの問題に取り組む。
パスカルVOCとCOCOの両方の実験により、この新しい損失関数で訓練されたモデルは、大幅な性能向上を達成できた。
論文 参考訳(メタデータ) (2020-07-19T11:50:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。