論文の概要: HTCInfoMax: A Global Model for Hierarchical Text Classification via
Information Maximization
- arxiv url: http://arxiv.org/abs/2104.05220v1
- Date: Mon, 12 Apr 2021 06:04:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-13 14:36:44.236340
- Title: HTCInfoMax: A Global Model for Hierarchical Text Classification via
Information Maximization
- Title(参考訳): HTCInfoMax:情報最大化による階層的テキスト分類のグローバルモデル
- Authors: Zhongfen Deng, Hao Peng, Dongxiao He, Jianxin Li, Philip S. Yu
- Abstract要約: 階層的テキスト分類のための現在の最新モデルHiAGMには2つの制限がある。
関連しない情報を含むデータセット内のすべてのラベルと、各テキストサンプルを関連付ける。
2つのモジュールを含む情報を導入することで、これらの問題に対処するHTCInfoMaxを提案します。
- 参考スコア(独自算出の注目度): 75.45291796263103
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The current state-of-the-art model HiAGM for hierarchical text classification
has two limitations. First, it correlates each text sample with all labels in
the dataset which contains irrelevant information. Second, it does not consider
any statistical constraint on the label representations learned by the
structure encoder, while constraints for representation learning are proved to
be helpful in previous work. In this paper, we propose HTCInfoMax to address
these issues by introducing information maximization which includes two
modules: text-label mutual information maximization and label prior matching.
The first module can model the interaction between each text sample and its
ground truth labels explicitly which filters out irrelevant information. The
second one encourages the structure encoder to learn better representations
with desired characteristics for all labels which can better handle label
imbalance in hierarchical text classification. Experimental results on two
benchmark datasets demonstrate the effectiveness of the proposed HTCInfoMax.
- Abstract(参考訳): 現在の階層的テキスト分類のための最先端モデルHiAGMには2つの制限がある。
まず、関係のない情報を含むデータセット内のすべてのラベルと、各テキストサンプルを関連付ける。
第二に、構造エンコーダが学習したラベル表現に対する統計的制約は考慮していないが、表現学習の制約は以前の研究で有用であることが証明されている。
本稿では,テキストラベル相互情報最大化とラベル先行マッチングという2つのモジュールを含む情報最大化を導入することで,この問題に対処するhtcinfomaxを提案する。
最初のモジュールは、各テキストサンプルとその接地真理ラベル間の相互作用をモデル化し、無関係な情報をフィルタする。
第2の方法は、階層的なテキスト分類におけるラベルの不均衡をよりうまく処理できる、すべてのラベルに対して望ましい特性を持つ表現を学ぶようにストラクチャーエンコーダに促す。
2つのベンチマークデータセットの実験結果から,提案したHTCInfoMaxの有効性が示された。
関連論文リスト
- Scribbles for All: Benchmarking Scribble Supervised Segmentation Across Datasets [51.74296438621836]
Scribbles for Allは、スクリブルラベルに基づいて訓練されたセマンティックセグメンテーションのためのラベルおよびトレーニングデータ生成アルゴリズムである。
弱い監督の源泉としてのスクリブルの主な制限は、スクリブルセグメンテーションのための挑戦的なデータセットの欠如である。
Scribbles for Allは、いくつかの人気のあるセグメンテーションデータセットのスクリブルラベルを提供し、密集したアノテーションを持つデータセットのスクリブルラベルを自動的に生成するアルゴリズムを提供する。
論文 参考訳(メタデータ) (2024-08-22T15:29:08Z) - HiGen: Hierarchy-Aware Sequence Generation for Hierarchical Text
Classification [19.12354692458442]
階層的テキスト分類 (HTC) は、マルチラベルテキスト分類における複雑なサブタスクである。
動的テキスト表現を符号化する言語モデルを利用したテキスト生成フレームワークHiGenを提案する。
論文 参考訳(メタデータ) (2024-01-24T04:44:42Z) - JPAVE: A Generation and Classification-based Model for Joint Product
Attribute Prediction and Value Extraction [59.94977231327573]
JPAVEと呼ばれる値生成/分類と属性予測を備えたマルチタスク学習モデルを提案する。
我々のモデルの2つの変種は、オープンワールドとクローズドワールドのシナリオのために設計されている。
公開データセットにおける実験結果は,強いベースラインと比較して,我々のモデルが優れていることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:36:16Z) - Substituting Data Annotation with Balanced Updates and Collective Loss
in Multi-label Text Classification [19.592985329023733]
MLTC(Multi-label text classification)は、あるテキストに複数のラベルを割り当てるタスクである。
本報告では,MLTCの問題点を,ラベル数に比例して,利用可能な監視信号の大きさが線形であるアノテーションフリーおよび希少アノテーション設定で検討する。
提案手法は,(1)事前学習した言語モデルを用いて,入力テキストを事前ラベル候補の集合にマッピングし,(2)ラベル記述による署名付きラベル依存グラフの計算,(3)ラベル依存グラフに沿ったメッセージパスによる事前ラベル候補の更新を行う。
論文 参考訳(メタデータ) (2023-09-24T04:12:52Z) - Exploiting Dynamic and Fine-grained Semantic Scope for Extreme
Multi-label Text Classification [12.508006325140949]
XMTC (Extreme Multi-label text classification) とは、あるテキストをラベル集合から最も関連性の高いサブセットにタグ付けする問題を指す。
既存のXMTC法の多くは、初期から得られた固定ラベルクラスタを利用して、テールラベルとヘッドラベルのパフォーマンスのバランスをとる。
我々は,教師の知識から動的かつきめ細かなセマンティックスコープを取り入れた,XMTCのための新しいフレームワークTReaderXMLを提案する。
論文 参考訳(メタデータ) (2022-05-24T11:15:35Z) - Label Semantic Aware Pre-training for Few-shot Text Classification [53.80908620663974]
テキスト分類システムの一般化とデータ効率を向上させるために,ラベルセマンティック・アウェア事前学習(LSAP)を提案する。
LSAPは、ラベル付き文の2次事前学習を行うことにより、ラベルセマンティクスを事前学習された生成モデル(T5)に組み込む。
論文 参考訳(メタデータ) (2022-04-14T17:33:34Z) - MATCH: Metadata-Aware Text Classification in A Large Hierarchy [60.59183151617578]
MATCHはメタデータと階層情報の両方を利用するエンドツーエンドのフレームワークである。
親による各子ラベルのパラメータと出力確率を正規化するさまざまな方法を提案します。
大規模なラベル階層を持つ2つの大規模なテキストデータセットの実験は、MATCHの有効性を示しています。
論文 参考訳(メタデータ) (2021-02-15T05:23:08Z) - Unsupervised Label Refinement Improves Dataless Text Classification [48.031421660674745]
データレステキスト分類は、ラベル記述と組み合わせた文書にスコアを割り当てることで、文書を未確認のラベルに分類することができる。
有望ながら、それは重要なダウンストリームタスクごとにラベルセットの正確な説明に依存します。
この依存により、データレス分類器はラベル記述の選択に非常に敏感になり、実際にはデータレス分類の幅広い適用を妨げる。
論文 参考訳(メタデータ) (2020-12-08T03:37:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。