論文の概要: Hierarchical Text Classification (HTC) vs. eXtreme Multilabel Classification (XML): Two Sides of the Same Medal
- arxiv url: http://arxiv.org/abs/2411.13687v1
- Date: Wed, 20 Nov 2024 20:07:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 15:19:40.287129
- Title: Hierarchical Text Classification (HTC) vs. eXtreme Multilabel Classification (XML): Two Sides of the Same Medal
- Title(参考訳): Hierarchical Text Classification (HTC) vs. eXtreme Multilabel Classification (XML): Two Sides of the Same Medal
- Authors: Nerijus Bertalis, Paul Granse, Ferhat Gül, Florian Hauss, Leon Menkel, David Schüler, Tom Speier, Lukas Galke, Ansgar Scherp,
- Abstract要約: 階層的テキスト分類(HTC)は、セマンティックなラベル階層を伴う数百のエントリからなる小さなラベルプールを持つデータセットに焦点を当てている。
eXtreme Multi-Label Text Classification (XML)は、最大数百万のエントリを持つ非常に大きなラベルプールを、ラベルが特定の方法で配列されていないとみなしている。
ここでは、あるドメインの最先端モデルが、他のドメインのデータセット上でトレーニングおよびテストを行う際に、どのように機能するかを検討する。
- 参考スコア(独自算出の注目度): 4.750005231187266
- License:
- Abstract: Assigning a subset of labels from a fixed pool of labels to a given input text is a text classification problem with many real-world applications, such as in recommender systems. Two separate research streams address this issue. Hierarchical Text Classification (HTC) focuses on datasets with smaller label pools of hundreds of entries, accompanied by a semantic label hierarchy. In contrast, eXtreme Multi-Label Text Classification (XML) considers very large label pools with up to millions of entries, in which the labels are not arranged in any particular manner. However, in XML, a common approach is to construct an artificial hierarchy without any semantic information before or during the training process. Here, we investigate how state-of-the-art models from one domain perform when trained and tested on datasets from the other domain. The HBGL and HGLCR models from the HTC domain are trained and tested on the datasets Wiki10-31K, AmazonCat-13K, and Amazon-670K from the XML domain. On the other side, the XML models CascadeXML and XR-Transformer are trained and tested on the datasets Web of Science, The New York Times Annotated Corpus, and RCV1-V2 from the HTC domain. HTC models, on the other hand, are not equipped to handle the size of XML datasets and achieve poor transfer results. The code and numerous files that are needed to reproduce our results can be obtained from https://github.com/FloHauss/XMC_HTC
- Abstract(参考訳): 固定されたラベルプールから与えられた入力テキストにラベルのサブセットを割り当てることは、レコメンダシステムのような現実世界の多くのアプリケーションにおいて、テキスト分類の問題である。
2つの異なる研究の流れがこの問題に対処している。
階層的テキスト分類(HTC)は、セマンティックなラベル階層を伴う数百のエントリからなる小さなラベルプールを持つデータセットに焦点を当てている。
対照的に、eXtreme Multi-Label Text Classification (XML) は、最大数百万のエントリを持つ非常に大きなラベルプールを考察している。
しかし、XMLでは、トレーニングプロセスの前後で意味情報を含まない人工的な階層を構築するのが一般的なアプローチである。
ここでは、あるドメインの最先端モデルが、他のドメインのデータセット上でトレーニングおよびテストを行う際に、どのように機能するかを検討する。
HTCドメインのHBGLとHGLCRモデルは、XMLドメインのWiki10-31K、AmazonCat-13K、Amazon-670Kのデータセットでトレーニングされ、テストされる。
一方、CascadeXML と XR-Transformer の XML モデルは、Web of Science、The New York Times Annotated Corpus、HTC ドメインの RCV1-V2 のデータセットでトレーニングされ、テストされている。
一方HTCモデルは、XMLデータセットのサイズを処理し、転送結果の低さを達成できない。
結果の再現に必要なコードと多数のファイルはhttps://github.com/FloHauss/XMC_HTCから取得できます。
関連論文リスト
- Utilizing Local Hierarchy with Adversarial Training for Hierarchical Text Classification [30.353876890557984]
階層的テキスト分類(HTC)は、その複雑な分類学的構造のために難しいサブタスクである。
我々は,ほぼすべてのHTCモデルに適合するHiAdvフレームワークを提案し,それを補助情報としてローカル階層で最適化する。
論文 参考訳(メタデータ) (2024-02-29T03:20:45Z) - LABELMAKER: Automatic Semantic Label Generation from RGB-D Trajectories [59.14011485494713]
この研究は、完全に自動化された2D/3Dラベリングフレームワークを導入し、RGB-Dスキャンのラベルを同等(あるいはそれ以上)の精度で生成できる。
我々は、ScanNetデータセットのラベルを大幅に改善し、これまでラベル付けされていなかったARKitScenesデータセットを自動的にラベル付けすることで、LabelMakerパイプラインの有効性を実証する。
論文 参考訳(メタデータ) (2023-11-20T20:40:24Z) - MatchXML: An Efficient Text-label Matching Framework for Extreme
Multi-label Text Classification [13.799733640048672]
eXtreme Multi-label text Classification (XMC) は、大規模なラベルセットから関連するラベルにテキストサンプルを割り当てる分類器の訓練を指す。
XMCのための効率的なテキストラベルマッチングフレームワークであるMatchXMLを提案する。
実験の結果、MatchXMLは6つのデータセットのうち5つで最先端の精度を実現している。
論文 参考訳(メタデータ) (2023-08-25T02:32:36Z) - A Survey on Extreme Multi-label Learning [72.8751573611815]
マルチラベル学習は、近年、学術分野と産業分野の両方から大きな注目を集めている。
計算とメモリのオーバーヘッドのため、それらを非常に大きなラベル空間に直接適応することは不可能である。
eXtreme Multi-label Learning (XML)は重要なタスクとなり、多くの効果的なアプローチが提案されている。
論文 参考訳(メタデータ) (2022-10-08T08:31:34Z) - Extreme Zero-Shot Learning for Extreme Text Classification [80.95271050744624]
極端ゼロショットXMC (EZ-XMC) とフーショットXMC (FS-XMC) について検討した。
自己教師付きコントラスト損失のあるトランスフォーマーベースのエンコーダの事前訓練を提案する。
我々は,多スケール適応クラスタリング,ラベル正規化,擬陽性ペアによる自己学習などの手法を用いて,生テキストを徹底的に活用する事前学習手法MACLRを開発した。
論文 参考訳(メタデータ) (2021-12-16T06:06:42Z) - DeepXML: A Deep Extreme Multi-Label Learning Framework Applied to Short
Text Documents [10.573976360424473]
本稿では,DeepXMLフレームワークを開発し,深部マルチラベルタスクを4つのシンプルなサブタスクに分解し,それらを正確かつ効率的に訓練する。
DeepXMLはAstecアルゴリズムの精度を2~12%向上し、トレーニングが5~30倍高速になる可能性がある。
またAstecは、最大6200万のラベルを含むBingの短いテキストデータセットを効率的にトレーニングし、コモディティハードウェア上で毎日数十億のユーザとデータポイントを予測できる。
論文 参考訳(メタデータ) (2021-11-12T12:25:23Z) - HTCInfoMax: A Global Model for Hierarchical Text Classification via
Information Maximization [75.45291796263103]
階層的テキスト分類のための現在の最新モデルHiAGMには2つの制限がある。
関連しない情報を含むデータセット内のすべてのラベルと、各テキストサンプルを関連付ける。
2つのモジュールを含む情報を導入することで、これらの問題に対処するHTCInfoMaxを提案します。
論文 参考訳(メタデータ) (2021-04-12T06:04:20Z) - Minimally-Supervised Structure-Rich Text Categorization via Learning on
Text-Rich Networks [61.23408995934415]
テキストリッチネットワークから学習することで,最小限に教師付き分類を行う新しいフレームワークを提案する。
具体的には、テキスト理解のためのテキスト解析モジュールと、クラス差別的でスケーラブルなネットワーク学習のためのネットワーク学習モジュールの2つのモジュールを共同でトレーニングします。
実験の結果,1つのカテゴリに3つのシード文書しか与えられず,その精度は約92%であった。
論文 参考訳(メタデータ) (2021-02-23T04:14:34Z) - MATCH: Metadata-Aware Text Classification in A Large Hierarchy [60.59183151617578]
MATCHはメタデータと階層情報の両方を利用するエンドツーエンドのフレームワークである。
親による各子ラベルのパラメータと出力確率を正規化するさまざまな方法を提案します。
大規模なラベル階層を持つ2つの大規模なテキストデータセットの実験は、MATCHの有効性を示しています。
論文 参考訳(メタデータ) (2021-02-15T05:23:08Z) - LightXML: Transformer with Dynamic Negative Sampling for
High-Performance Extreme Multi-label Text Classification [27.80266694835677]
Extreme Multi-label text Classification (XMC) は、大きなラベルセットから最も関連性の高いラベルを見つけるタスクである。
エンドツーエンドのトレーニングと動的負ラベルサンプリングを採用したLightXMLを提案する。
実験では、LightXMLは5つの極端なマルチラベルデータセットで最先端のメソッドより優れています。
論文 参考訳(メタデータ) (2021-01-09T07:04:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。