論文の概要: Metadata-Induced Contrastive Learning for Zero-Shot Multi-Label Text
Classification
- arxiv url: http://arxiv.org/abs/2202.05932v1
- Date: Fri, 11 Feb 2022 23:22:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-15 15:58:30.978268
- Title: Metadata-Induced Contrastive Learning for Zero-Shot Multi-Label Text
Classification
- Title(参考訳): ゼロショットマルチラベルテキスト分類のためのメタデータによるコントラスト学習
- Authors: Yu Zhang, Zhihong Shen, Chieh-Han Wu, Boya Xie, Junheng Hao, Ye-Yi
Wang, Kuansan Wang, Jiawei Han
- Abstract要約: 大規模多ラベルテキスト分類のための新しいメタデータ誘導コントラスト学習法(MICoL)を提案する。
MICoLは、Web上で広く利用可能なドキュメントメタデータを利用して、同様のドキュメントとドキュメントのペアを導き出す。
我々は,MICoLが強いゼロショットテキスト分類と対照的な学習ベースラインを著しく上回ることを示す。
- 参考スコア(独自算出の注目度): 27.33039900612395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale multi-label text classification (LMTC) aims to associate a
document with its relevant labels from a large candidate set. Most existing
LMTC approaches rely on massive human-annotated training data, which are often
costly to obtain and suffer from a long-tailed label distribution (i.e., many
labels occur only a few times in the training set). In this paper, we study
LMTC under the zero-shot setting, which does not require any annotated
documents with labels and only relies on label surface names and descriptions.
To train a classifier that calculates the similarity score between a document
and a label, we propose a novel metadata-induced contrastive learning (MICoL)
method. Different from previous text-based contrastive learning techniques,
MICoL exploits document metadata (e.g., authors, venues, and references of
research papers), which are widely available on the Web, to derive similar
document-document pairs. Experimental results on two large-scale datasets show
that: (1) MICoL significantly outperforms strong zero-shot text classification
and contrastive learning baselines; (2) MICoL is on par with the
state-of-the-art supervised metadata-aware LMTC method trained on 10K-200K
labeled documents; and (3) MICoL tends to predict more infrequent labels than
supervised methods, thus alleviates the deteriorated performance on long-tailed
labels.
- Abstract(参考訳): 大規模マルチラベルテキスト分類(LMTC)は、文書と関連するラベルを関連付けることを目的としている。
既存のLMTCのアプローチのほとんどは、大量の人手によるトレーニングデータに依存しており、長い尾のラベルの分布を入手し、苦しむのにしばしばコストがかかる。
本稿では,ラベル付きアノテート文書を一切必要とせず,ラベル表面の名前や記述のみに依存するゼロショット設定下でのLMTCについて検討する。
文書とラベルの類似度スコアを計算する分類器を訓練するために,新しいメタデータによるコントラスト学習(micol)法を提案する。
従来のテキストベースのコントラスト学習技術とは異なり、MICoLは文書メタデータ(著者、会場、研究論文の参照など)を利用して、ウェブ上で広く利用でき、類似の文書と文書のペアを導き出す。
2つの大規模データセットによる実験結果から,(1)MICoLは強いゼロショットテキスト分類とコントラスト学習ベースラインを著しく上回り,(2)MICoLは10K-200Kラベル付き文書で訓練された最先端の教師付きメタデータ認識LMTC法と同等であり,(3)MICoLは教師付き手法よりも頻度の低いラベルを予測し,長鎖ラベルの劣化を軽減していることがわかった。
関連論文リスト
- Open-world Multi-label Text Classification with Extremely Weak Supervision [30.85235057480158]
極弱監督(XWS)下でのオープンワールドマルチラベルテキスト分類について検討する。
まず、ユーザ記述を利用して、原文書のサブセットのキーフレーズに対して大きな言語モデル(LLM)をプロンプトし、クラスタリングによりラベル空間を構築する。
次に、ゼロショットのマルチラベル分類器を適用して、予測スコアが小さい文書を見つけることで、より長いテールラベルに対する主要なキーフレーズを再検討する。
X-MLClassは、様々なデータセットにおいて、地平線ラベルの空間カバレッジが顕著に増加している。
論文 参考訳(メタデータ) (2024-07-08T04:52:49Z) - Zero-Shot Learning Over Large Output Spaces : Utilizing Indirect Knowledge Extraction from Large Language Models [3.908992369351976]
Extreme Zero-shot XMC (EZ-XMC) はXMCの特別な設定であり、監督は提供されない。
従来の最先端の手法は、文書のタイトルやセグメントから擬似ラベルを抽出する。
大規模言語モデル(LLM)からのフィードバックにより,小さなバイエンコーダモデルをトレーニングするためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-13T16:26:37Z) - Multi-Instance Partial-Label Learning: Towards Exploiting Dual Inexact
Supervision [53.530957567507365]
実世界のタスクでは、各トレーニングサンプルは、1つの基底真実ラベルといくつかの偽陽性ラベルを含む候補ラベルセットに関連付けられている。
本稿では,Multi-instance partial-label learning (MIPL) などの問題を定式化する。
既存のマルチインスタンス学習アルゴリズムと部分ラベル学習アルゴリズムはMIPL問題の解法に最適である。
論文 参考訳(メタデータ) (2022-12-18T03:28:51Z) - Pseudo-Labeling Based Practical Semi-Supervised Meta-Training for Few-Shot Learning [93.63638405586354]
擬似ラベルベースメタラーニング(PLML)という,シンプルで効果的なメタトレーニングフレームワークを提案する。
まず、一般的な半教師付き学習(SSL)を用いて分類器を訓練し、ラベルなしデータの擬似ラベルを得る。
ラベル付きおよび擬似ラベル付きデータから数ショットのタスクを構築し、特徴の平滑化と雑音抑圧を伴う新しい微調整法を設計する。
論文 参考訳(メタデータ) (2022-07-14T10:53:53Z) - Many-Class Text Classification with Matching [65.74328417321738]
textbfText textbfClassification をテキストとラベル間のtextbfMatching 問題として定式化し,TCM というシンプルなフレームワークを提案する。
従来のテキスト分類手法と比較して、TCMは分類ラベルのきめ細かい意味情報を活用している。
論文 参考訳(メタデータ) (2022-05-23T15:51:19Z) - Trustable Co-label Learning from Multiple Noisy Annotators [68.59187658490804]
監督されたディープラーニングは、大量の注釈付き例に依存している。
典型的な方法は、複数のノイズアノテータから学習することである。
本稿では,emphTrustable Co-label Learning (TCL)と呼ばれるデータ効率のよい手法を提案する。
論文 参考訳(メタデータ) (2022-03-08T16:57:00Z) - MATCH: Metadata-Aware Text Classification in A Large Hierarchy [60.59183151617578]
MATCHはメタデータと階層情報の両方を利用するエンドツーエンドのフレームワークである。
親による各子ラベルのパラメータと出力確率を正規化するさまざまな方法を提案します。
大規模なラベル階層を持つ2つの大規模なテキストデータセットの実験は、MATCHの有効性を示しています。
論文 参考訳(メタデータ) (2021-02-15T05:23:08Z) - Multi-label Few/Zero-shot Learning with Knowledge Aggregated from
Multiple Label Graphs [8.44680447457879]
本稿では,異なる意味的ラベル関係をコードする複数のラベルグラフから知識を融合する,シンプルな多グラフ集約モデルを提案する。
本研究は,多グラフ知識集約を用いた手法が,少数・ゼロショットラベルのほとんどすべてにおいて,大幅な性能向上を実現していることを示す。
論文 参考訳(メタデータ) (2020-10-15T01:15:43Z) - An Empirical Study on Large-Scale Multi-Label Text Classification
Including Few and Zero-Shot Labels [49.036212158261215]
大規模なMulti-label Text Classification (LMTC) は、幅広い自然言語処理 (NLP) アプリケーションを持つ。
Label-Wise Attention Networks (LWANs) を用いた最新のLMTCモデル
確率的ラベル木(PLT)に基づく階層的手法がLWANより優れていることを示す。
BERTとLWANを組み合わせた最先端手法を提案する。
論文 参考訳(メタデータ) (2020-10-04T18:55:47Z) - Minimally Supervised Categorization of Text with Metadata [40.13841133991089]
メタデータでテキストを分類する最小限のフレームワークであるMetaCatを提案する。
我々は,単語,文書,ラベル,メタデータ間の関係を記述した生成プロセスを開発する。
同じ生成過程に基づいて,ラベル不足のボトルネックに対処するため,トレーニングサンプルを合成する。
論文 参考訳(メタデータ) (2020-05-01T21:42:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。