論文の概要: MatchXML: An Efficient Text-label Matching Framework for Extreme
Multi-label Text Classification
- arxiv url: http://arxiv.org/abs/2308.13139v1
- Date: Fri, 25 Aug 2023 02:32:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-28 15:21:23.455276
- Title: MatchXML: An Efficient Text-label Matching Framework for Extreme
Multi-label Text Classification
- Title(参考訳): MatchXML: 極端なマルチラベルテキスト分類のための効率的なテキストラベルマッチングフレームワーク
- Authors: Hui Ye, Rajshekhar Sunderraman, Shihao Ji
- Abstract要約: eXtreme Multi-label text Classification (XMC) は、大規模なラベルセットから関連するラベルにテキストサンプルを割り当てる分類器の訓練を指す。
XMCのための効率的なテキストラベルマッチングフレームワークであるMatchXMLを提案する。
実験の結果、MatchXMLは6つのデータセットのうち5つで最先端の精度を実現している。
- 参考スコア(独自算出の注目度): 13.799733640048672
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The eXtreme Multi-label text Classification(XMC) refers to training a
classifier that assigns a text sample with relevant labels from an extremely
large-scale label set (e.g., millions of labels). We propose MatchXML, an
efficient text-label matching framework for XMC. We observe that the label
embeddings generated from the sparse Term Frequency-Inverse Document
Frequency(TF-IDF) features have several limitations. We thus propose label2vec
to effectively train the semantic dense label embeddings by the Skip-gram
model. The dense label embeddings are then used to build a Hierarchical Label
Tree by clustering. In fine-tuning the pre-trained encoder Transformer, we
formulate the multi-label text classification as a text-label matching problem
in a bipartite graph. We then extract the dense text representations from the
fine-tuned Transformer. Besides the fine-tuned dense text embeddings, we also
extract the static dense sentence embeddings from a pre-trained Sentence
Transformer. Finally, a linear ranker is trained by utilizing the sparse TF-IDF
features, the fine-tuned dense text representations and static dense sentence
features. Experimental results demonstrate that MatchXML achieves
state-of-the-art accuracy on five out of six datasets. As for the speed,
MatchXML outperforms the competing methods on all the six datasets. Our source
code is publicly available at https://github.com/huiyegit/MatchXML.
- Abstract(参考訳): eXtreme Multi-label text Classification (XMC) は、非常に大規模なラベルセット(数百万のラベルなど)から関連するラベルにテキストサンプルを割り当てる分類器の訓練を指す。
XMCのための効率的なテキストラベルマッチングフレームワークであるMatchXMLを提案する。
スパース周波数-逆文書周波数(TF-IDF)の特徴から生じるラベル埋め込みにはいくつかの制限がある。
そこで我々は,Skip-gramモデルによる意味密度ラベル埋め込みを効果的に訓練するための label2vec を提案する。
密ラベル埋め込みは、クラスタリングによって階層的なラベルツリーを構築するために使用される。
事前学習したエンコーダ変換器を微調整する際、二部グラフにおけるテキストラベルマッチング問題としてマルチラベルテキスト分類を定式化する。
次に、微調整変換器から高密度テキスト表現を抽出する。
微調整された高密度テキスト埋め込みに加えて、事前訓練された文変換器から静的高密度テキスト埋め込みも抽出する。
最後に、疎いTF-IDF特徴、微調整された高次テキスト表現、静的高次文特徴を利用して線形ランク付けを訓練する。
実験の結果、MatchXMLは6つのデータセットのうち5つで最先端の精度を実現している。
スピードに関しては、MatchXMLは6つのデータセットで競合するメソッドよりも優れています。
ソースコードはhttps://github.com/huiyegit/matchxmlで公開しています。
関連論文リスト
- Modeling Text-Label Alignment for Hierarchical Text Classification [12.579592946863762]
階層的テキスト分類(HTC)は、構造化されたラベル階層に基づいてテキストデータを分類することを目的としており、その結果、予測されたラベルがサブ階層木を形成する。
サンプルごとにサブ階層が変化すると、テキストラベルアライメントの動的な性質が既存のメソッドに課題をもたらします。
テキストとラベルのアライメントをモデル化するためのテキストラベルアライメント(TLA)ロスを提案する。
論文 参考訳(メタデータ) (2024-09-01T17:48:29Z) - Learning label-label correlations in Extreme Multi-label Classification via Label Features [44.00852282861121]
Extreme Multi-label Text Classification (XMC)は、数百万のラベル選択から最も関連性の高いラベルのサブセットで入力を割り当てることができる分類器を学習する。
ラベル機能付き短文XMCは、検索広告におけるクエリ・ツー・アド・フレーズマッチング、タイトルベースの製品推薦、関連する検索の予測など、多くの分野に応用されている。
本稿では,ラベル共起グラフを用いてラベル特徴を付加データポイントとして活用し,トレーニング分布を補完する新しい手法であるガンダルフを提案する。
論文 参考訳(メタデータ) (2024-05-03T21:18:43Z) - Exploiting Dynamic and Fine-grained Semantic Scope for Extreme
Multi-label Text Classification [12.508006325140949]
XMTC (Extreme Multi-label text classification) とは、あるテキストをラベル集合から最も関連性の高いサブセットにタグ付けする問題を指す。
既存のXMTC法の多くは、初期から得られた固定ラベルクラスタを利用して、テールラベルとヘッドラベルのパフォーマンスのバランスをとる。
我々は,教師の知識から動的かつきめ細かなセマンティックスコープを取り入れた,XMTCのための新しいフレームワークTReaderXMLを提案する。
論文 参考訳(メタデータ) (2022-05-24T11:15:35Z) - Many-Class Text Classification with Matching [65.74328417321738]
textbfText textbfClassification をテキストとラベル間のtextbfMatching 問題として定式化し,TCM というシンプルなフレームワークを提案する。
従来のテキスト分類手法と比較して、TCMは分類ラベルのきめ細かい意味情報を活用している。
論文 参考訳(メタデータ) (2022-05-23T15:51:19Z) - Label Disentanglement in Partition-based Extreme Multilabel
Classification [111.25321342479491]
分割型XMCにおけるラベル割り当て問題を最適化問題として定式化できることを示す。
提案手法はマルチモーダルラベルのアンタングル化に成功し、4つのXMCベンチマークでSOTA(State-of-the-art)結果が得られた。
論文 参考訳(メタデータ) (2021-06-24T03:24:18Z) - HTCInfoMax: A Global Model for Hierarchical Text Classification via
Information Maximization [75.45291796263103]
階層的テキスト分類のための現在の最新モデルHiAGMには2つの制限がある。
関連しない情報を含むデータセット内のすべてのラベルと、各テキストサンプルを関連付ける。
2つのモジュールを含む情報を導入することで、これらの問題に対処するHTCInfoMaxを提案します。
論文 参考訳(メタデータ) (2021-04-12T06:04:20Z) - MATCH: Metadata-Aware Text Classification in A Large Hierarchy [60.59183151617578]
MATCHはメタデータと階層情報の両方を利用するエンドツーエンドのフレームワークである。
親による各子ラベルのパラメータと出力確率を正規化するさまざまな方法を提案します。
大規模なラベル階層を持つ2つの大規模なテキストデータセットの実験は、MATCHの有効性を示しています。
論文 参考訳(メタデータ) (2021-02-15T05:23:08Z) - LightXML: Transformer with Dynamic Negative Sampling for
High-Performance Extreme Multi-label Text Classification [27.80266694835677]
Extreme Multi-label text Classification (XMC) は、大きなラベルセットから最も関連性の高いラベルを見つけるタスクである。
エンドツーエンドのトレーニングと動的負ラベルサンプリングを採用したLightXMLを提案する。
実験では、LightXMLは5つの極端なマルチラベルデータセットで最先端のメソッドより優れています。
論文 参考訳(メタデータ) (2021-01-09T07:04:18Z) - Unsupervised Label Refinement Improves Dataless Text Classification [48.031421660674745]
データレステキスト分類は、ラベル記述と組み合わせた文書にスコアを割り当てることで、文書を未確認のラベルに分類することができる。
有望ながら、それは重要なダウンストリームタスクごとにラベルセットの正確な説明に依存します。
この依存により、データレス分類器はラベル記述の選択に非常に敏感になり、実際にはデータレス分類の幅広い適用を妨げる。
論文 参考訳(メタデータ) (2020-12-08T03:37:50Z) - MixText: Linguistically-Informed Interpolation of Hidden Space for
Semi-Supervised Text Classification [68.15015032551214]
MixTextはテキスト分類のための半教師付き学習手法である。
TMixは、隠れた空間でテキストを補間することで、大量の拡張トレーニングサンプルを生成する。
我々は、ラベルなしデータの低エントロピーラベルを推測するために、最近のデータ拡張の進歩を活用している。
論文 参考訳(メタデータ) (2020-04-25T21:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。