論文の概要: TELEClass: Taxonomy Enrichment and LLM-Enhanced Hierarchical Text Classification with Minimal Supervision
- arxiv url: http://arxiv.org/abs/2403.00165v3
- Date: Wed, 05 Feb 2025 06:45:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 14:25:34.394808
- Title: TELEClass: Taxonomy Enrichment and LLM-Enhanced Hierarchical Text Classification with Minimal Supervision
- Title(参考訳): TELEClass:最小限のスーパービジョンによる分類学の充実とLLMによる階層的テキスト分類
- Authors: Yunyi Zhang, Ruozhen Yang, Xueqiang Xu, Rui Li, Jinfeng Xiao, Jiaming Shen, Jiawei Han,
- Abstract要約: 階層的なテキスト分類は、Webコンテンツ分析やセマンティックインデクシングといった幅広いアプリケーションを用いた基本的なWebテキストマイニングタスクである。
初期の研究は、大量の人間の注釈付きデータを必要とする完全あるいは半教師付き手法に重点を置いていた。
人間の努力を軽減するため、我々は最小限の監督力で階層的なテキスト分類に取り組む:各ノードのクラス名のみを唯一の監督力として利用する。
- 参考スコア(独自算出の注目度): 41.05874642535256
- License:
- Abstract: Hierarchical text classification aims to categorize each document into a set of classes in a label taxonomy, which is a fundamental web text mining task with broad applications such as web content analysis and semantic indexing. Most earlier works focus on fully or semi-supervised methods that require a large amount of human annotated data which is costly and time-consuming to acquire. To alleviate human efforts, in this paper, we work on hierarchical text classification with a minimal amount of supervision: using the sole class name of each node as the only supervision. Recently, large language models (LLM) have shown competitive performance on various tasks through zero-shot prompting, but this method performs poorly in the hierarchical setting because it is ineffective to include the large and structured label space in a prompt. On the other hand, previous weakly-supervised hierarchical text classification methods only utilize the raw taxonomy skeleton and ignore the rich information hidden in the text corpus that can serve as additional class-indicative features. To tackle the above challenges, we propose TELEClass, Taxonomy Enrichment and LLM-Enhanced weakly-supervised hierarchical text Classification, which combines the general knowledge of LLMs and task-specific features mined from an unlabeled corpus. TELEClass automatically enriches the raw taxonomy with class-indicative features for better label space understanding and utilizes novel LLM-based data annotation and generation methods specifically tailored for the hierarchical setting. Experiments show that TELEClass can significantly outperform previous baselines while achieving comparable performance to zero-shot prompting of LLMs with drastically less inference cost.
- Abstract(参考訳): 階層的なテキスト分類は、各文書をラベル分類の一連のクラスに分類することを目的としており、これはWebコンテンツ分析やセマンティックインデックスなどの幅広いアプリケーションを用いた基本的なWebテキストマイニングタスクである。
初期の研究は、大量の人間の注釈付きデータを必要とする完全あるいは半教師付き手法に重点を置いていた。
人間の努力を軽減するため,本論文では,最小限の監督力で階層的なテキスト分類を行う。
近年,大規模言語モデル (LLM) はゼロショットプロンプトによって様々なタスクの競合性能を示したが,大規模かつ構造化されたラベル空間をプロンプトに含めないため,階層的にはあまり機能しない。
一方、従来の弱教師付き階層型テキスト分類法では、生の分類学の骨格のみを使用し、追加のクラス表示機能として機能するテキストコーパスに隠された豊富な情報を無視する。
これらの課題に対処するため, TELEClass, Taxonomy Enrichment および LLM の弱教師付き階層型テキスト分類を提案し, LLM の一般知識と未ラベルコーパスから抽出したタスク固有機能を組み合わせた。
TELEClassは、ラベル空間の理解を改善するために、クラス表示機能を備えた生の分類を自動で強化し、新しいLCMベースのデータアノテーションと階層的な設定に適した生成方法を利用する。
実験の結果,TELEClassは従来のベースラインをはるかに上回り,推定コストを大幅に削減したLDMのゼロショットプロンプトに匹敵する性能を達成できることがわかった。
関連論文リスト
- Open-world Multi-label Text Classification with Extremely Weak Supervision [30.85235057480158]
極弱監督(XWS)下でのオープンワールドマルチラベルテキスト分類について検討する。
まず、ユーザ記述を利用して、原文書のサブセットのキーフレーズに対して大きな言語モデル(LLM)をプロンプトし、クラスタリングによりラベル空間を構築する。
次に、ゼロショットのマルチラベル分類器を適用して、予測スコアが小さい文書を見つけることで、より長いテールラベルに対する主要なキーフレーズを再検討する。
X-MLClassは、様々なデータセットにおいて、地平線ラベルの空間カバレッジが顕著に増加している。
論文 参考訳(メタデータ) (2024-07-08T04:52:49Z) - RulePrompt: Weakly Supervised Text Classification with Prompting PLMs and Self-Iterative Logical Rules [30.239044569301534]
弱教師付きテキスト分類(WSTC)は、大量のテキストを分類できるため、注目を集めている。
本稿では,ルールマイニングモジュールとルール強化擬似ラベル生成モジュールからなるWSTCタスクに対して,ルールプロンプトというPLMベースのアプローチを提案する。
提案手法は解釈可能なカテゴリー規則を導出し,難解なカテゴリを曖昧にすることの利点を証明した。
論文 参考訳(メタデータ) (2024-03-05T12:50:36Z) - HiGen: Hierarchy-Aware Sequence Generation for Hierarchical Text
Classification [19.12354692458442]
階層的テキスト分類 (HTC) は、マルチラベルテキスト分類における複雑なサブタスクである。
動的テキスト表現を符号化する言語モデルを利用したテキスト生成フレームワークHiGenを提案する。
論文 参考訳(メタデータ) (2024-01-24T04:44:42Z) - XAI-CLASS: Explanation-Enhanced Text Classification with Extremely Weak
Supervision [6.406111099707549]
XAI-CLASSは、説明強化弱教師付きテキスト分類法である。
単語の正当性予測を補助タスクとして組み込む。
XAI-CLASSは、他の弱い教師付きテキスト分類法よりも大幅に優れている。
論文 参考訳(メタデータ) (2023-10-31T23:24:22Z) - Many-Class Text Classification with Matching [65.74328417321738]
textbfText textbfClassification をテキストとラベル間のtextbfMatching 問題として定式化し,TCM というシンプルなフレームワークを提案する。
従来のテキスト分類手法と比較して、TCMは分類ラベルのきめ細かい意味情報を活用している。
論文 参考訳(メタデータ) (2022-05-23T15:51:19Z) - Label Semantic Aware Pre-training for Few-shot Text Classification [53.80908620663974]
テキスト分類システムの一般化とデータ効率を向上させるために,ラベルセマンティック・アウェア事前学習(LSAP)を提案する。
LSAPは、ラベル付き文の2次事前学習を行うことにより、ラベルセマンティクスを事前学習された生成モデル(T5)に組み込む。
論文 参考訳(メタデータ) (2022-04-14T17:33:34Z) - MotifClass: Weakly Supervised Text Classification with Higher-order
Metadata Information [47.44278057062421]
そこで本研究では,テキスト文書をカテゴリ表面名のみを持つ事前定義されたカテゴリの集合に分類することを目的とした,弱教師付きテキスト分類の問題について検討する。
具体的には、異種情報ネットワークを介して文書とメタデータの関係をモデル化する。
そこで我々は,カテゴリ名と指示モチーフインスタンスに基づいて,カテゴリ適応モチーフインスタンスを選択し,擬似ラベル付きトレーニングサンプルを検索し,生成する,MotifClassという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-07T07:39:10Z) - MATCH: Metadata-Aware Text Classification in A Large Hierarchy [60.59183151617578]
MATCHはメタデータと階層情報の両方を利用するエンドツーエンドのフレームワークである。
親による各子ラベルのパラメータと出力確率を正規化するさまざまな方法を提案します。
大規模なラベル階層を持つ2つの大規模なテキストデータセットの実験は、MATCHの有効性を示しています。
論文 参考訳(メタデータ) (2021-02-15T05:23:08Z) - Exploring the Hierarchy in Relation Labels for Scene Graph Generation [75.88758055269948]
提案手法は,Recall@50において,複数の最先端ベースラインを大きなマージン(最大33%の相対利得)で改善することができる。
実験により,提案手法により,最先端のベースラインを大きなマージンで改善できることが示された。
論文 参考訳(メタデータ) (2020-09-12T17:36:53Z) - Description Based Text Classification with Reinforcement Learning [34.18824470728299]
本稿では,各カテゴリのラベルをカテゴリ記述に関連付ける,テキスト分類のための新しいフレームワークを提案する。
我々は、幅広いテキスト分類タスクにおいて、強いベースラインよりも顕著なパフォーマンス向上を観察する。
論文 参考訳(メタデータ) (2020-02-08T02:14:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。