論文の概要: Open-world Multi-label Text Classification with Extremely Weak Supervision
- arxiv url: http://arxiv.org/abs/2407.05609v1
- Date: Mon, 8 Jul 2024 04:52:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 17:00:01.964645
- Title: Open-world Multi-label Text Classification with Extremely Weak Supervision
- Title(参考訳): 極弱スーパービジョンを用いたオープンワールドマルチラベルテキスト分類
- Authors: Xintong Li, Jinya Jiang, Ria Dharmani, Jayanth Srinivasa, Gaowen Liu, Jingbo Shang,
- Abstract要約: 極弱監督(XWS)下でのオープンワールドマルチラベルテキスト分類について検討する。
まず、ユーザ記述を利用して、原文書のサブセットのキーフレーズに対して大きな言語モデル(LLM)をプロンプトし、クラスタリングによりラベル空間を構築する。
次に、ゼロショットのマルチラベル分類器を適用して、予測スコアが小さい文書を見つけることで、より長いテールラベルに対する主要なキーフレーズを再検討する。
X-MLClassは、様々なデータセットにおいて、地平線ラベルの空間カバレッジが顕著に増加している。
- 参考スコア(独自算出の注目度): 30.85235057480158
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study open-world multi-label text classification under extremely weak supervision (XWS), where the user only provides a brief description for classification objectives without any labels or ground-truth label space. Similar single-label XWS settings have been explored recently, however, these methods cannot be easily adapted for multi-label. We observe that (1) most documents have a dominant class covering the majority of content and (2) long-tail labels would appear in some documents as a dominant class. Therefore, we first utilize the user description to prompt a large language model (LLM) for dominant keyphrases of a subset of raw documents, and then construct a (initial) label space via clustering. We further apply a zero-shot multi-label classifier to locate the documents with small top predicted scores, so we can revisit their dominant keyphrases for more long-tail labels. We iterate this process to discover a comprehensive label space and construct a multi-label classifier as a novel method, X-MLClass. X-MLClass exhibits a remarkable increase in ground-truth label space coverage on various datasets, for example, a 40% improvement on the AAPD dataset over topic modeling and keyword extraction methods. Moreover, X-MLClass achieves the best end-to-end multi-label classification accuracy.
- Abstract(参考訳): 我々は,極端に弱い監督 (XWS) の下で,オープンワールドのマルチラベルテキスト分類について検討する。
同様のシングルラベルのXWS設定が近年検討されているが、これらの手法は容易にマルチラベルに適用できない。
我々は,(1)ほとんどの文書が,コンテンツの大部分をカバーする支配的なクラスを持ち,(2)長い尾のラベルが支配的なクラスとして現れることを観察した。
そこで、まずユーザ記述を用いて、原文書のサブセットのキーフレーズに対する大言語モデル(LLM)をプロンプトし、クラスタリングにより(初期)ラベル空間を構築する。
さらに、ゼロショットのマルチラベル分類器を用いて、予測スコアが小さい文書を見つけることで、より長いテールラベルに対する主要なキーフレーズを再検討する。
このプロセスを繰り返し、包括的ラベル空間を発見し、新しい方法であるX-MLClassとしてマルチラベル分類器を構築する。
例えば、トピックモデリングやキーワード抽出メソッドよりもAAPDデータセットの方が40%改善されている。
さらに、X-MLClassは最高のエンドツーエンドのマルチラベル分類精度を実現する。
関連論文リスト
- Substituting Data Annotation with Balanced Updates and Collective Loss
in Multi-label Text Classification [19.592985329023733]
MLTC(Multi-label text classification)は、あるテキストに複数のラベルを割り当てるタスクである。
本報告では,MLTCの問題点を,ラベル数に比例して,利用可能な監視信号の大きさが線形であるアノテーションフリーおよび希少アノテーション設定で検討する。
提案手法は,(1)事前学習した言語モデルを用いて,入力テキストを事前ラベル候補の集合にマッピングし,(2)ラベル記述による署名付きラベル依存グラフの計算,(3)ラベル依存グラフに沿ったメッセージパスによる事前ラベル候補の更新を行う。
論文 参考訳(メタデータ) (2023-09-24T04:12:52Z) - Disambiguated Attention Embedding for Multi-Instance Partial-Label
Learning [68.56193228008466]
多くの実世界のタスクでは、関連するオブジェクトは、候補ラベルセットに関連付けられたマルチインスタンスバッグとして表現することができる。
既存のMIPLアプローチは、各インスタンスに拡張候補ラベルセットを割り当て、インスタンスレベルのラベルからバッグレベルのラベルを集約することで、インスタンス空間のパラダイムに従っている。
本稿では,DEMIPLという直感的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-26T13:25:17Z) - Adopting the Multi-answer Questioning Task with an Auxiliary Metric for
Extreme Multi-label Text Classification Utilizing the Label Hierarchy [10.87653109398961]
本稿では,過度なマルチラベル分類のための複数問合せタスクを採用する。
本研究では,提案手法と評価基準を法域に適用する。
論文 参考訳(メタデータ) (2023-03-02T08:40:31Z) - Large Loss Matters in Weakly Supervised Multi-Label Classification [50.262533546999045]
まず、観測されていないラベルを負のラベルとみなし、Wタスクをノイズの多いマルチラベル分類にキャストする。
ノイズラベルを記憶しないために,大規模な損失サンプルを拒絶または補正する新しいW法を提案する。
提案手法は, 弱教師付きマルチラベル分類において, 大きな損失を適切に処理することが重要であることを検証した。
論文 参考訳(メタデータ) (2022-06-08T08:30:24Z) - Open Vocabulary Extreme Classification Using Generative Models [24.17018785195843]
極端なマルチラベル分類(XMC)タスクは、非常に大きなラベルセットからラベルのサブセットでコンテンツをタグ付けすることを目的としている。
本稿では, ラベルの集合をフラットシーケンスとして生成し, 予測されたラベル順序に依存しない新たな損失を用いて訓練する GROOV を提案する。
提案手法の有効性を実証し,GROOVが与えられた語彙の外で有意なラベルを予測できるようなXMCデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2022-05-12T00:33:49Z) - Label Disentanglement in Partition-based Extreme Multilabel
Classification [111.25321342479491]
分割型XMCにおけるラベル割り当て問題を最適化問題として定式化できることを示す。
提案手法はマルチモーダルラベルのアンタングル化に成功し、4つのXMCベンチマークでSOTA(State-of-the-art)結果が得られた。
論文 参考訳(メタデータ) (2021-06-24T03:24:18Z) - Evaluating Multi-label Classifiers with Noisy Labels [0.7868449549351487]
実世界では、クリーンなデータセットよりもノイズの多いデータセットを扱う方が一般的です。
雑音ラベルを効果的に処理するコンテキストベースマルチラベル分類器(CbMLC)を提案する。
CbMLCは、ほとんどの場合、以前の方法よりも大幅に改善されています。
論文 参考訳(メタデータ) (2021-02-16T19:50:52Z) - MATCH: Metadata-Aware Text Classification in A Large Hierarchy [60.59183151617578]
MATCHはメタデータと階層情報の両方を利用するエンドツーエンドのフレームワークである。
親による各子ラベルのパラメータと出力確率を正規化するさまざまな方法を提案します。
大規模なラベル階層を持つ2つの大規模なテキストデータセットの実験は、MATCHの有効性を示しています。
論文 参考訳(メタデータ) (2021-02-15T05:23:08Z) - Unsupervised Label Refinement Improves Dataless Text Classification [48.031421660674745]
データレステキスト分類は、ラベル記述と組み合わせた文書にスコアを割り当てることで、文書を未確認のラベルに分類することができる。
有望ながら、それは重要なダウンストリームタスクごとにラベルセットの正確な説明に依存します。
この依存により、データレス分類器はラベル記述の選択に非常に敏感になり、実際にはデータレス分類の幅広い適用を妨げる。
論文 参考訳(メタデータ) (2020-12-08T03:37:50Z) - An Empirical Study on Large-Scale Multi-Label Text Classification
Including Few and Zero-Shot Labels [49.036212158261215]
大規模なMulti-label Text Classification (LMTC) は、幅広い自然言語処理 (NLP) アプリケーションを持つ。
Label-Wise Attention Networks (LWANs) を用いた最新のLMTCモデル
確率的ラベル木(PLT)に基づく階層的手法がLWANより優れていることを示す。
BERTとLWANを組み合わせた最先端手法を提案する。
論文 参考訳(メタデータ) (2020-10-04T18:55:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。