論文の概要: TELEClass: Taxonomy Enrichment and LLM-Enhanced Hierarchical Text
Classification with Minimal Supervision
- arxiv url: http://arxiv.org/abs/2403.00165v1
- Date: Thu, 29 Feb 2024 22:26:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 18:56:35.697929
- Title: TELEClass: Taxonomy Enrichment and LLM-Enhanced Hierarchical Text
Classification with Minimal Supervision
- Title(参考訳): TELEClass:最小限のスーパービジョンによる分類とLLM強化階層型テキスト分類
- Authors: Yunyi Zhang, Ruozhen Yang, Xueqiang Xu, Jinfeng Xiao, Jiaming Shen,
Jiawei Han
- Abstract要約: 階層的なテキスト分類は、ラベル分類における各文書を一連のクラスに分類することを目的としている。
初期の研究は、大量の人間の注釈付きデータを必要とする完全または半教師付き手法に重点を置いていた。
我々は、最小限の監督量で階層的なテキスト分類に取り組んでおり、各ノードのクラス名のみを唯一の監督として使用しています。
- 参考スコア(独自算出の注目度): 44.159462506313915
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hierarchical text classification aims to categorize each document into a set
of classes in a label taxonomy. Most earlier works focus on fully or
semi-supervised methods that require a large amount of human annotated data
which is costly and time-consuming to acquire. To alleviate human efforts, in
this paper, we work on hierarchical text classification with the minimal amount
of supervision: using the sole class name of each node as the only supervision.
Recently, large language models (LLM) show competitive performance on various
tasks through zero-shot prompting, but this method performs poorly in the
hierarchical setting, because it is ineffective to include the large and
structured label space in a prompt. On the other hand, previous
weakly-supervised hierarchical text classification methods only utilize the raw
taxonomy skeleton and ignore the rich information hidden in the text corpus
that can serve as additional class-indicative features. To tackle the above
challenges, we propose TELEClass, Taxonomy Enrichment and LLM-Enhanced
weakly-supervised hierarchical text classification, which (1) automatically
enriches the label taxonomy with class-indicative topical terms mined from the
corpus to facilitate classifier training and (2) utilizes LLMs for both data
annotation and creation tailored for the hierarchical label space. Experiments
show that TELEClass can outperform previous weakly-supervised hierarchical text
classification methods and LLM-based zero-shot prompting methods on two public
datasets.
- Abstract(参考訳): 階層的テキスト分類は、各文書をラベル分類のクラスに分類することを目的としている。
初期の研究は、大量の人間の注釈付きデータを必要とする完全あるいは半教師付き手法に重点を置いていた。
人間の努力を緩和するため,本稿では,最小限の監督で階層的なテキスト分類に取り組んでいる。
近年,大規模言語モデル (LLM) はゼロショットプロンプトによって様々なタスクの競合性能を示すが,大規模かつ構造化されたラベル空間をプロンプトに含めないため,階層的にはあまり機能しない。
一方,従来の弱教師付き階層的テキスト分類法では,生の分類骨格のみを使用し,追加の類型的特徴として機能するテキストコーパスに隠された豊富な情報を無視している。
そこで本研究では,(1)コーパスから抽出した分類的話題語でラベル分類を自動的に豊かにし,分類訓練を容易にすること,(2)階層的ラベル空間に適したデータアノテーションと作成にllmを利用することを提案する。
TELEClassは2つの公開データセット上で,従来の弱教師付き階層型テキスト分類法とLLMベースのゼロショットプロンプト法より優れていることを示す実験結果を得た。
関連論文リスト
- Open-world Multi-label Text Classification with Extremely Weak Supervision [30.85235057480158]
極弱監督(XWS)下でのオープンワールドマルチラベルテキスト分類について検討する。
まず、ユーザ記述を利用して、原文書のサブセットのキーフレーズに対して大きな言語モデル(LLM)をプロンプトし、クラスタリングによりラベル空間を構築する。
次に、ゼロショットのマルチラベル分類器を適用して、予測スコアが小さい文書を見つけることで、より長いテールラベルに対する主要なキーフレーズを再検討する。
X-MLClassは、様々なデータセットにおいて、地平線ラベルの空間カバレッジが顕著に増加している。
論文 参考訳(メタデータ) (2024-07-08T04:52:49Z) - RulePrompt: Weakly Supervised Text Classification with Prompting PLMs and Self-Iterative Logical Rules [30.239044569301534]
弱教師付きテキスト分類(WSTC)は、大量のテキストを分類できるため、注目を集めている。
本稿では,ルールマイニングモジュールとルール強化擬似ラベル生成モジュールからなるWSTCタスクに対して,ルールプロンプトというPLMベースのアプローチを提案する。
提案手法は解釈可能なカテゴリー規則を導出し,難解なカテゴリを曖昧にすることの利点を証明した。
論文 参考訳(メタデータ) (2024-03-05T12:50:36Z) - HiGen: Hierarchy-Aware Sequence Generation for Hierarchical Text
Classification [19.12354692458442]
階層的テキスト分類 (HTC) は、マルチラベルテキスト分類における複雑なサブタスクである。
動的テキスト表現を符号化する言語モデルを利用したテキスト生成フレームワークHiGenを提案する。
論文 参考訳(メタデータ) (2024-01-24T04:44:42Z) - XAI-CLASS: Explanation-Enhanced Text Classification with Extremely Weak
Supervision [6.406111099707549]
XAI-CLASSは、説明強化弱教師付きテキスト分類法である。
単語の正当性予測を補助タスクとして組み込む。
XAI-CLASSは、他の弱い教師付きテキスト分類法よりも大幅に優れている。
論文 参考訳(メタデータ) (2023-10-31T23:24:22Z) - Many-Class Text Classification with Matching [65.74328417321738]
textbfText textbfClassification をテキストとラベル間のtextbfMatching 問題として定式化し,TCM というシンプルなフレームワークを提案する。
従来のテキスト分類手法と比較して、TCMは分類ラベルのきめ細かい意味情報を活用している。
論文 参考訳(メタデータ) (2022-05-23T15:51:19Z) - Label Semantic Aware Pre-training for Few-shot Text Classification [53.80908620663974]
テキスト分類システムの一般化とデータ効率を向上させるために,ラベルセマンティック・アウェア事前学習(LSAP)を提案する。
LSAPは、ラベル付き文の2次事前学習を行うことにより、ラベルセマンティクスを事前学習された生成モデル(T5)に組み込む。
論文 参考訳(メタデータ) (2022-04-14T17:33:34Z) - MotifClass: Weakly Supervised Text Classification with Higher-order
Metadata Information [47.44278057062421]
そこで本研究では,テキスト文書をカテゴリ表面名のみを持つ事前定義されたカテゴリの集合に分類することを目的とした,弱教師付きテキスト分類の問題について検討する。
具体的には、異種情報ネットワークを介して文書とメタデータの関係をモデル化する。
そこで我々は,カテゴリ名と指示モチーフインスタンスに基づいて,カテゴリ適応モチーフインスタンスを選択し,擬似ラベル付きトレーニングサンプルを検索し,生成する,MotifClassという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-07T07:39:10Z) - MATCH: Metadata-Aware Text Classification in A Large Hierarchy [60.59183151617578]
MATCHはメタデータと階層情報の両方を利用するエンドツーエンドのフレームワークである。
親による各子ラベルのパラメータと出力確率を正規化するさまざまな方法を提案します。
大規模なラベル階層を持つ2つの大規模なテキストデータセットの実験は、MATCHの有効性を示しています。
論文 参考訳(メタデータ) (2021-02-15T05:23:08Z) - Exploring the Hierarchy in Relation Labels for Scene Graph Generation [75.88758055269948]
提案手法は,Recall@50において,複数の最先端ベースラインを大きなマージン(最大33%の相対利得)で改善することができる。
実験により,提案手法により,最先端のベースラインを大きなマージンで改善できることが示された。
論文 参考訳(メタデータ) (2020-09-12T17:36:53Z) - Description Based Text Classification with Reinforcement Learning [34.18824470728299]
本稿では,各カテゴリのラベルをカテゴリ記述に関連付ける,テキスト分類のための新しいフレームワークを提案する。
我々は、幅広いテキスト分類タスクにおいて、強いベースラインよりも顕著なパフォーマンス向上を観察する。
論文 参考訳(メタデータ) (2020-02-08T02:14:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。