論文の概要: Exploiting Dynamic and Fine-grained Semantic Scope for Extreme
Multi-label Text Classification
- arxiv url: http://arxiv.org/abs/2205.11973v1
- Date: Tue, 24 May 2022 11:15:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-25 14:32:27.317324
- Title: Exploiting Dynamic and Fine-grained Semantic Scope for Extreme
Multi-label Text Classification
- Title(参考訳): 極多ラベルテキスト分類のための動的および微粒なセマンティックスコープの発散
- Authors: Yuan Wang and Huiling Song and Peng Huo and Tao Xu and Jucheng Yang
and Yarui Chen and Tingting Zhao
- Abstract要約: XMTC (Extreme Multi-label text classification) とは、あるテキストをラベル集合から最も関連性の高いサブセットにタグ付けする問題を指す。
既存のXMTC法の多くは、初期から得られた固定ラベルクラスタを利用して、テールラベルとヘッドラベルのパフォーマンスのバランスをとる。
我々は,教師の知識から動的かつきめ細かなセマンティックスコープを取り入れた,XMTCのための新しいフレームワークTReaderXMLを提案する。
- 参考スコア(独自算出の注目度): 12.508006325140949
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Extreme multi-label text classification (XMTC) refers to the problem of
tagging a given text with the most relevant subset of labels from a large label
set. A majority of labels only have a few training instances due to large label
dimensionality in XMTC. To solve this data sparsity issue, most existing XMTC
methods take advantage of fixed label clusters obtained in early stage to
balance performance on tail labels and head labels. However, such label
clusters provide static and coarse-grained semantic scope for every text, which
ignores distinct characteristics of different texts and has difficulties
modelling accurate semantics scope for texts with tail labels. In this paper,
we propose a novel framework TReaderXML for XMTC, which adopts dynamic and
fine-grained semantic scope from teacher knowledge for individual text to
optimize text conditional prior category semantic ranges. TReaderXML
dynamically obtains teacher knowledge for each text by similar texts and
hierarchical label information in training sets to release the ability of
distinctly fine-grained label-oriented semantic scope. Then, TReaderXML
benefits from a novel dual cooperative network that firstly learns features of
a text and its corresponding label-oriented semantic scope by parallel Encoding
Module and Reading Module, secondly embeds two parts by Interaction Module to
regularize the text's representation by dynamic and fine-grained label-oriented
semantic scope, and finally find target labels by Prediction Module.
Experimental results on three XMTC benchmark datasets show that our method
achieves new state-of-the-art results and especially performs well for severely
imbalanced and sparse datasets.
- Abstract(参考訳): XMTC (Extreme Multi-label text classification) とは、あるテキストをラベル集合から最も関連性の高いサブセットにタグ付けする問題を指す。
ほとんどのラベルは、xmtcのラベル次元が大きいため、いくつかのトレーニングインスタンスしか持たない。
このデータ分散問題を解決するために、既存のXMTC法は、初期から得られた固定ラベルクラスタを利用して、テールラベルとヘッドラベルのパフォーマンスのバランスをとる。
しかし、このようなラベルクラスタは、各テキストに対して静的かつ粗いセマンティックスコープを提供し、異なるテキストの特徴を無視し、テールラベル付きテキストの正確なセマンティックスコープをモデル化するのは難しい。
本稿では,XMTCのための新しいフレームワークTReaderXMLを提案する。このフレームワークは,教師の個々のテキストに対する知識から動的かつきめ細かなセマンティックスコープを採用し,テキスト条件付き事前カテゴリセマンティックレンジを最適化する。
TReaderXMLは、トレーニングセットにおける類似のテキストと階層的なラベル情報により、各テキストに対する教師の知識を動的に取得し、ラベル指向のセマンティックスコープを明確化することができる。
次に、treaderxmlは、まずテキストの特徴と対応するラベル指向意味スコープを並列符号化モジュールと読み取りモジュールで学習し、次に相互作用モジュールによって2つの部分を埋め込み、動的かつきめ細かいラベル指向意味スコープでテキストの表現を規則化し、最終的に予測モジュールによってターゲットラベルを見つける、新しいデュアルコラボレーティブネットワークの恩恵を受ける。
3つのXMTCベンチマークデータセットによる実験結果から,本手法は新たな最先端結果を実現し,特に不均衡でスパースなデータセットに対して良好に動作することが示された。
関連論文リスト
- Leveraging Label Semantics and Meta-Label Refinement for Multi-Label Question Classification [11.19022605804112]
本稿では,新手法RR2QCを多ラベル質問分類に適用する。
ラベルセマンティクスとメタラベルの改良を使用して、パーソナライズされた学習とリソースレコメンデーションを強化する。
実験の結果,RR2QCはPrecision@kとF1スコアの既存の分類方法よりも優れていた。
論文 参考訳(メタデータ) (2024-11-04T06:27:14Z) - HiGen: Hierarchy-Aware Sequence Generation for Hierarchical Text
Classification [19.12354692458442]
階層的テキスト分類 (HTC) は、マルチラベルテキスト分類における複雑なサブタスクである。
動的テキスト表現を符号化する言語モデルを利用したテキスト生成フレームワークHiGenを提案する。
論文 参考訳(メタデータ) (2024-01-24T04:44:42Z) - Substituting Data Annotation with Balanced Updates and Collective Loss
in Multi-label Text Classification [19.592985329023733]
MLTC(Multi-label text classification)は、あるテキストに複数のラベルを割り当てるタスクである。
本報告では,MLTCの問題点を,ラベル数に比例して,利用可能な監視信号の大きさが線形であるアノテーションフリーおよび希少アノテーション設定で検討する。
提案手法は,(1)事前学習した言語モデルを用いて,入力テキストを事前ラベル候補の集合にマッピングし,(2)ラベル記述による署名付きラベル依存グラフの計算,(3)ラベル依存グラフに沿ったメッセージパスによる事前ラベル候補の更新を行う。
論文 参考訳(メタデータ) (2023-09-24T04:12:52Z) - MatchXML: An Efficient Text-label Matching Framework for Extreme
Multi-label Text Classification [13.799733640048672]
eXtreme Multi-label text Classification (XMC) は、大規模なラベルセットから関連するラベルにテキストサンプルを割り当てる分類器の訓練を指す。
XMCのための効率的なテキストラベルマッチングフレームワークであるMatchXMLを提案する。
実験の結果、MatchXMLは6つのデータセットのうち5つで最先端の精度を実現している。
論文 参考訳(メタデータ) (2023-08-25T02:32:36Z) - Description-Enhanced Label Embedding Contrastive Learning for Text
Classification [65.01077813330559]
モデル学習プロセスにおける自己監督型学習(SSL)と新しい自己監督型関係関係(R2)分類タスクの設計
テキスト分類とR2分類を最適化対象として扱うテキスト分類のための関係学習ネットワーク(R2-Net)の関係について検討する。
ラベルセマンティックラーニングのためのマルチアスペクト記述を得るためのWordNetからの外部知識。
論文 参考訳(メタデータ) (2023-06-15T02:19:34Z) - Exploring Structured Semantic Prior for Multi Label Recognition with
Incomplete Labels [60.675714333081466]
不完全なラベルを持つマルチラベル認識(MLR)は非常に難しい。
最近の研究は、視覚言語モデルであるCLIPにおける画像とラベルの対応を探り、不十分なアノテーションを補うことを目指している。
我々は,MLRにおけるラベル管理の欠如を,構造化されたセマンティクスを導出することにより,不完全なラベルで修復することを提唱する。
論文 参考訳(メタデータ) (2023-03-23T12:39:20Z) - Label Semantic Aware Pre-training for Few-shot Text Classification [53.80908620663974]
テキスト分類システムの一般化とデータ効率を向上させるために,ラベルセマンティック・アウェア事前学習(LSAP)を提案する。
LSAPは、ラベル付き文の2次事前学習を行うことにより、ラベルセマンティクスを事前学習された生成モデル(T5)に組み込む。
論文 参考訳(メタデータ) (2022-04-14T17:33:34Z) - HTCInfoMax: A Global Model for Hierarchical Text Classification via
Information Maximization [75.45291796263103]
階層的テキスト分類のための現在の最新モデルHiAGMには2つの制限がある。
関連しない情報を含むデータセット内のすべてのラベルと、各テキストサンプルを関連付ける。
2つのモジュールを含む情報を導入することで、これらの問題に対処するHTCInfoMaxを提案します。
論文 参考訳(メタデータ) (2021-04-12T06:04:20Z) - Minimally-Supervised Structure-Rich Text Categorization via Learning on
Text-Rich Networks [61.23408995934415]
テキストリッチネットワークから学習することで,最小限に教師付き分類を行う新しいフレームワークを提案する。
具体的には、テキスト理解のためのテキスト解析モジュールと、クラス差別的でスケーラブルなネットワーク学習のためのネットワーク学習モジュールの2つのモジュールを共同でトレーニングします。
実験の結果,1つのカテゴリに3つのシード文書しか与えられず,その精度は約92%であった。
論文 参考訳(メタデータ) (2021-02-23T04:14:34Z) - MATCH: Metadata-Aware Text Classification in A Large Hierarchy [60.59183151617578]
MATCHはメタデータと階層情報の両方を利用するエンドツーエンドのフレームワークである。
親による各子ラベルのパラメータと出力確率を正規化するさまざまな方法を提案します。
大規模なラベル階層を持つ2つの大規模なテキストデータセットの実験は、MATCHの有効性を示しています。
論文 参考訳(メタデータ) (2021-02-15T05:23:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。