論文の概要: HiGen: Hierarchy-Aware Sequence Generation for Hierarchical Text
Classification
- arxiv url: http://arxiv.org/abs/2402.01696v1
- Date: Wed, 24 Jan 2024 04:44:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-11 16:39:25.826053
- Title: HiGen: Hierarchy-Aware Sequence Generation for Hierarchical Text
Classification
- Title(参考訳): higen:階層的テキスト分類のための階層認識シーケンス生成
- Authors: Vidit Jain, Mukund Rungta, Yuchen Zhuang, Yue Yu, Zeyu Wang, Mu Gao,
Jeffrey Skolnick, Chao Zhang
- Abstract要約: 階層的テキスト分類 (HTC) は、マルチラベルテキスト分類における複雑なサブタスクである。
動的テキスト表現を符号化する言語モデルを利用したテキスト生成フレームワークHiGenを提案する。
- 参考スコア(独自算出の注目度): 19.12354692458442
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hierarchical text classification (HTC) is a complex subtask under multi-label
text classification, characterized by a hierarchical label taxonomy and data
imbalance. The best-performing models aim to learn a static representation by
combining document and hierarchical label information. However, the relevance
of document sections can vary based on the hierarchy level, necessitating a
dynamic document representation. To address this, we propose HiGen, a
text-generation-based framework utilizing language models to encode dynamic
text representations. We introduce a level-guided loss function to capture the
relationship between text and label name semantics. Our approach incorporates a
task-specific pretraining strategy, adapting the language model to in-domain
knowledge and significantly enhancing performance for classes with limited
examples. Furthermore, we present a new and valuable dataset called ENZYME,
designed for HTC, which comprises articles from PubMed with the goal of
predicting Enzyme Commission (EC) numbers. Through extensive experiments on the
ENZYME dataset and the widely recognized WOS and NYT datasets, our methodology
demonstrates superior performance, surpassing existing approaches while
efficiently handling data and mitigating class imbalance. The data and code
will be released publicly.
- Abstract(参考訳): 階層的テキスト分類(階層的テキスト分類、hierarchical text classification)は、階層的ラベル分類とデータ不均衡を特徴とする多ラベルテキスト分類の複雑なサブタスクである。
最高のパフォーマンスモデルは、文書と階層的なラベル情報を組み合わせて静的表現を学習することを目的としている。
しかし、文書セクションの関連性は、動的文書表現を必要とする階層レベルによって異なる可能性がある。
そこで本稿では,動的テキスト表現を符号化する言語モデルを用いたテキスト生成フレームワークHiGenを提案する。
テキストとラベル名の意味関係を捉えるために,レベル誘導損失関数を導入する。
提案手法は,タスク固有の事前学習戦略を取り入れ,言語モデルをドメイン内知識に適用し,限られた例でクラスの性能を大幅に向上させる。
さらに, 酵素委員会数予測(ec)を目標としたpubmedの記事を含む, htc 向けに設計された enzyme という新たな貴重なデータセットを提案する。
酵素データセットと広く認識されているwosおよびnytデータセットに関する広範囲な実験を通じて,既存の手法よりも優れた性能を示し,効率的なデータ処理とクラス不均衡の軽減を両立させる。
データとコードは公開される予定だ。
関連論文リスト
- Hypergraph based Understanding for Document Semantic Entity Recognition [65.84258776834524]
我々は,ハイパグラフアテンションを利用したハイパグラフアテンション文書セマンティックエンティティ認識フレームワークHGAを構築し,エンティティ境界とエンティティカテゴリを同時に重視する。
FUNSD, CORD, XFUNDIE で得られた結果は,本手法が意味的エンティティ認識タスクの性能を効果的に向上できることを示す。
論文 参考訳(メタデータ) (2024-07-09T14:35:49Z) - TELEClass: Taxonomy Enrichment and LLM-Enhanced Hierarchical Text Classification with Minimal Supervision [41.05874642535256]
階層的なテキスト分類は、ラベル分類における各文書を一連のクラスに分類することを目的としている。
初期の研究は、大量の人間の注釈付きデータを必要とする完全または半教師付き手法に重点を置いていた。
我々は、最小限の監督量で階層的なテキスト分類に取り組んでおり、各ノードのクラス名のみを唯一の監督として使用しています。
論文 参考訳(メタデータ) (2024-02-29T22:26:07Z) - Hierarchical Verbalizer for Few-Shot Hierarchical Text Classification [10.578682558356473]
階層的テキスト分類(HTC)は、低リソースまたは少数ショットの設定を考慮すると、パフォーマンスが低下する。
本稿では,HTC を単一あるいは複数ラベルの分類問題として扱う多言語フレームワークである階層型動詞化器 (HierVerb) を提案する。
このように、HierVerbはラベル階層の知識を動詞化子に融合させ、グラフエンコーダを通じて階層を注入する者よりも著しく優れています。
論文 参考訳(メタデータ) (2023-05-26T12:41:49Z) - Label Semantic Aware Pre-training for Few-shot Text Classification [53.80908620663974]
テキスト分類システムの一般化とデータ効率を向上させるために,ラベルセマンティック・アウェア事前学習(LSAP)を提案する。
LSAPは、ラベル付き文の2次事前学習を行うことにより、ラベルセマンティクスを事前学習された生成モデル(T5)に組み込む。
論文 参考訳(メタデータ) (2022-04-14T17:33:34Z) - Constrained Sequence-to-Tree Generation for Hierarchical Text
Classification [10.143177923523407]
階層的テキスト分類(HTC)は、分類学内で複数の階層的に構造化されたカテゴリに文書を割り当てる難易度の高いタスクである。
本稿では,HTCをシーケンス生成タスクとして定式化し,階層的なラベル構造をモデル化するためのシーケンス・ツー・ツリー・フレームワーク(Seq2Tree)を導入する。
論文 参考訳(メタデータ) (2022-04-02T08:35:39Z) - HTCInfoMax: A Global Model for Hierarchical Text Classification via
Information Maximization [75.45291796263103]
階層的テキスト分類のための現在の最新モデルHiAGMには2つの制限がある。
関連しない情報を含むデータセット内のすべてのラベルと、各テキストサンプルを関連付ける。
2つのモジュールを含む情報を導入することで、これらの問題に対処するHTCInfoMaxを提案します。
論文 参考訳(メタデータ) (2021-04-12T06:04:20Z) - Minimally-Supervised Structure-Rich Text Categorization via Learning on
Text-Rich Networks [61.23408995934415]
テキストリッチネットワークから学習することで,最小限に教師付き分類を行う新しいフレームワークを提案する。
具体的には、テキスト理解のためのテキスト解析モジュールと、クラス差別的でスケーラブルなネットワーク学習のためのネットワーク学習モジュールの2つのモジュールを共同でトレーニングします。
実験の結果,1つのカテゴリに3つのシード文書しか与えられず,その精度は約92%であった。
論文 参考訳(メタデータ) (2021-02-23T04:14:34Z) - MATCH: Metadata-Aware Text Classification in A Large Hierarchy [60.59183151617578]
MATCHはメタデータと階層情報の両方を利用するエンドツーエンドのフレームワークである。
親による各子ラベルのパラメータと出力確率を正規化するさまざまな方法を提案します。
大規模なラベル階層を持つ2つの大規模なテキストデータセットの実験は、MATCHの有効性を示しています。
論文 参考訳(メタデータ) (2021-02-15T05:23:08Z) - Hierarchical Metadata-Aware Document Categorization under Weak
Supervision [32.80303008934164]
タスクのための埋め込みベースの生成フレームワークであるHiMeCatを開発した。
本稿では,カテゴリ依存の同時モデリングが可能な新しい共同表現学習モジュールを提案する。
トレーニング文書を階層的に合成して,当初の小規模トレーニングセットを補完するデータ拡張モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-26T13:07:56Z) - Exploring the Hierarchy in Relation Labels for Scene Graph Generation [75.88758055269948]
提案手法は,Recall@50において,複数の最先端ベースラインを大きなマージン(最大33%の相対利得)で改善することができる。
実験により,提案手法により,最先端のベースラインを大きなマージンで改善できることが示された。
論文 参考訳(メタデータ) (2020-09-12T17:36:53Z) - Joint Embedding of Words and Category Labels for Hierarchical
Multi-label Text Classification [4.2750700546937335]
階層的テキスト分類(HTC)は広く注目されており、幅広い応用の見通しがある。
本稿では,HTC の階層的微調整順序ニューロン LSTM (HFT-ONLSTM) に基づくテキストと親カテゴリの結合埋め込みを提案する。
論文 参考訳(メタデータ) (2020-04-06T11:06:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。