論文の概要: Modeling Text-Label Alignment for Hierarchical Text Classification
- arxiv url: http://arxiv.org/abs/2409.00788v1
- Date: Sun, 1 Sep 2024 17:48:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 09:01:41.280506
- Title: Modeling Text-Label Alignment for Hierarchical Text Classification
- Title(参考訳): 階層型テキスト分類のためのテキストラベルアライメントのモデル化
- Authors: Ashish Kumar, Durga Toshniwal,
- Abstract要約: 階層的テキスト分類(HTC)は、構造化されたラベル階層に基づいてテキストデータを分類することを目的としており、その結果、予測されたラベルがサブ階層木を形成する。
サンプルごとにサブ階層が変化すると、テキストラベルアライメントの動的な性質が既存のメソッドに課題をもたらします。
テキストとラベルのアライメントをモデル化するためのテキストラベルアライメント(TLA)ロスを提案する。
- 参考スコア(独自算出の注目度): 12.579592946863762
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hierarchical Text Classification (HTC) aims to categorize text data based on a structured label hierarchy, resulting in predicted labels forming a sub-hierarchy tree. The semantics of the text should align with the semantics of the labels in this sub-hierarchy. With the sub-hierarchy changing for each sample, the dynamic nature of text-label alignment poses challenges for existing methods, which typically process text and labels independently. To overcome this limitation, we propose a Text-Label Alignment (TLA) loss specifically designed to model the alignment between text and labels. We obtain a set of negative labels for a given text and its positive label set. By leveraging contrastive learning, the TLA loss pulls the text closer to its positive label and pushes it away from its negative label in the embedding space. This process aligns text representations with related labels while distancing them from unrelated ones. Building upon this framework, we introduce the Hierarchical Text-Label Alignment (HTLA) model, which leverages BERT as the text encoder and GPTrans as the graph encoder and integrates text-label embeddings to generate hierarchy-aware representations. Experimental results on benchmark datasets and comparison with existing baselines demonstrate the effectiveness of HTLA for HTC.
- Abstract(参考訳): 階層的テキスト分類(HTC)は、構造化されたラベル階層に基づいてテキストデータを分類することを目的としており、その結果、予測されたラベルがサブ階層木を形成する。
テキストの意味論は、このサブ階層におけるラベルの意味論と一致すべきである。
サンプルごとにサブ階層が変化すると、テキストラベルアライメントの動的な性質は既存のメソッドに課題をもたらし、通常はテキストとラベルを独立して処理する。
この制限を克服するため,テキストとラベルのアライメントをモデル化するためのテキストラベルアライメント(TLA)ロスを提案する。
与えられたテキストとその正のラベルセットに対する負のラベルセットを得る。
対照的な学習を活用することで、TLAの損失はテキストを正のラベルに近づけ、埋め込み空間の負のラベルから引き離す。
このプロセスは、テキスト表現と関連するラベルを一致させ、無関係なラベルと区別する。
本稿では,階層型テキストラベルアライメント(HTLA)モデルを導入し,BERTをテキストエンコーダとし,GPTransをグラフエンコーダとし,テキストラベルの埋め込みを統合して階層型認識表現を生成する。
ベンチマークデータセットの実験結果と既存のベースラインとの比較により,HTCのHTLAの有効性が示された。
関連論文リスト
- HiGen: Hierarchy-Aware Sequence Generation for Hierarchical Text
Classification [19.12354692458442]
階層的テキスト分類 (HTC) は、マルチラベルテキスト分類における複雑なサブタスクである。
動的テキスト表現を符号化する言語モデルを利用したテキスト生成フレームワークHiGenを提案する。
論文 参考訳(メタデータ) (2024-01-24T04:44:42Z) - MatchXML: An Efficient Text-label Matching Framework for Extreme
Multi-label Text Classification [13.799733640048672]
eXtreme Multi-label text Classification (XMC) は、大規模なラベルセットから関連するラベルにテキストサンプルを割り当てる分類器の訓練を指す。
XMCのための効率的なテキストラベルマッチングフレームワークであるMatchXMLを提案する。
実験の結果、MatchXMLは6つのデータセットのうち5つで最先端の精度を実現している。
論文 参考訳(メタデータ) (2023-08-25T02:32:36Z) - Exploiting Dynamic and Fine-grained Semantic Scope for Extreme
Multi-label Text Classification [12.508006325140949]
XMTC (Extreme Multi-label text classification) とは、あるテキストをラベル集合から最も関連性の高いサブセットにタグ付けする問題を指す。
既存のXMTC法の多くは、初期から得られた固定ラベルクラスタを利用して、テールラベルとヘッドラベルのパフォーマンスのバランスをとる。
我々は,教師の知識から動的かつきめ細かなセマンティックスコープを取り入れた,XMTCのための新しいフレームワークTReaderXMLを提案する。
論文 参考訳(メタデータ) (2022-05-24T11:15:35Z) - Label Semantic Aware Pre-training for Few-shot Text Classification [53.80908620663974]
テキスト分類システムの一般化とデータ効率を向上させるために,ラベルセマンティック・アウェア事前学習(LSAP)を提案する。
LSAPは、ラベル付き文の2次事前学習を行うことにより、ラベルセマンティクスを事前学習された生成モデル(T5)に組み込む。
論文 参考訳(メタデータ) (2022-04-14T17:33:34Z) - Incorporating Hierarchy into Text Encoder: a Contrastive Learning
Approach for Hierarchical Text Classification [23.719121637849806]
テキストエンコーダにラベル階層を埋め込むための階層型コントラスト学習(HGCLR)を提案する。
トレーニング中、HGCLRはラベル階層のガイダンスの下で入力テキストの正のサンプルを構築する。
トレーニング後、HGCLR拡張テキストエンコーダは冗長な階層を不要にすることができる。
論文 参考訳(メタデータ) (2022-03-08T03:21:45Z) - Structured Semantic Transfer for Multi-Label Recognition with Partial
Labels [85.6967666661044]
部分ラベル付きマルチラベル認識モデルのトレーニングを可能にする構造化意味伝達(SST)フレームワークを提案する。
このフレームワークは2つの相補的なトランスファーモジュールから構成され、インテリアイメージとクロスイメージセマンティック相関を探索する。
Microsoft COCO、Visual Genome、Pascal VOCデータセットの実験は、提案されたSSTフレームワークが現在の最先端アルゴリズムよりも優れたパフォーマンスが得られることを示している。
論文 参考訳(メタデータ) (2021-12-21T02:15:01Z) - HTCInfoMax: A Global Model for Hierarchical Text Classification via
Information Maximization [75.45291796263103]
階層的テキスト分類のための現在の最新モデルHiAGMには2つの制限がある。
関連しない情報を含むデータセット内のすべてのラベルと、各テキストサンプルを関連付ける。
2つのモジュールを含む情報を導入することで、これらの問題に対処するHTCInfoMaxを提案します。
論文 参考訳(メタデータ) (2021-04-12T06:04:20Z) - MATCH: Metadata-Aware Text Classification in A Large Hierarchy [60.59183151617578]
MATCHはメタデータと階層情報の両方を利用するエンドツーエンドのフレームワークである。
親による各子ラベルのパラメータと出力確率を正規化するさまざまな方法を提案します。
大規模なラベル階層を持つ2つの大規模なテキストデータセットの実験は、MATCHの有効性を示しています。
論文 参考訳(メタデータ) (2021-02-15T05:23:08Z) - A Study on the Autoregressive and non-Autoregressive Multi-label
Learning [77.11075863067131]
本稿では,ラベルとラベルの依存関係を共同で抽出する自己アテンションに基づく変分エンコーダモデルを提案する。
したがって、ラベルラベルとラベル機能の両方の依存関係を保ちながら、すべてのラベルを並列に予測することができる。
論文 参考訳(メタデータ) (2020-12-03T05:41:44Z) - Label-Wise Document Pre-Training for Multi-Label Text Classification [14.439051753832032]
本稿では,ラベル認識情報を用いた文書表現を実現するLW-PT法を提案する。
基本的な考え方は、複数ラベルの文書は、複数のラベルの表現の組み合わせとして表すことができ、相関ラベルは、常に同じまたは類似の文書で共起するということである。
論文 参考訳(メタデータ) (2020-08-15T10:34:27Z) - Few-shot Slot Tagging with Collapsed Dependency Transfer and
Label-enhanced Task-adaptive Projection Network [61.94394163309688]
本稿では,現在最先端の少数ショット分類モデルであるTapNetに基づくラベル強化タスク適応プロジェクションネットワーク(L-TapNet)を提案する。
実験結果から,本モデルは1ショット設定で14.64点のF1スコアで最強の少ショット学習ベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2020-06-10T07:50:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。