論文の概要: MATCH: Metadata-Aware Text Classification in A Large Hierarchy
- arxiv url: http://arxiv.org/abs/2102.07349v1
- Date: Mon, 15 Feb 2021 05:23:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-16 15:51:07.466436
- Title: MATCH: Metadata-Aware Text Classification in A Large Hierarchy
- Title(参考訳): MATCH: 大規模階層におけるメタデータ対応テキスト分類
- Authors: Yu Zhang, Zhihong Shen, Yuxiao Dong, Kuansan Wang, Jiawei Han
- Abstract要約: MATCHはメタデータと階層情報の両方を利用するエンドツーエンドのフレームワークである。
親による各子ラベルのパラメータと出力確率を正規化するさまざまな方法を提案します。
大規模なラベル階層を持つ2つの大規模なテキストデータセットの実験は、MATCHの有効性を示しています。
- 参考スコア(独自算出の注目度): 60.59183151617578
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-label text classification refers to the problem of assigning each given
document its most relevant labels from the label set. Commonly, the metadata of
the given documents and the hierarchy of the labels are available in real-world
applications. However, most existing studies focus on only modeling the text
information, with a few attempts to utilize either metadata or hierarchy
signals, but not both of them. In this paper, we bridge the gap by formalizing
the problem of metadata-aware text classification in a large label hierarchy
(e.g., with tens of thousands of labels). To address this problem, we present
the MATCH solution -- an end-to-end framework that leverages both metadata and
hierarchy information. To incorporate metadata, we pre-train the embeddings of
text and metadata in the same space and also leverage the fully-connected
attentions to capture the interrelations between them. To leverage the label
hierarchy, we propose different ways to regularize the parameters and output
probability of each child label by its parents. Extensive experiments on two
massive text datasets with large-scale label hierarchies demonstrate the
effectiveness of MATCH over state-of-the-art deep learning baselines.
- Abstract(参考訳): マルチラベルテキスト分類は、各文書をラベルセットから最も関連性の高いラベルに割り当てる問題を指す。
一般的に、与えられた文書のメタデータとラベルの階層は現実世界のアプリケーションで利用可能である。
しかし、既存の研究のほとんどはテキスト情報のモデリングのみに焦点を当てており、メタデータや階層信号を利用する試みもいくつかあるが、どちらもそうではない。
本稿では,大規模なラベル階層(例えば,数万のラベルを持つ)におけるメタデータ対応テキスト分類の問題を形式化し,そのギャップを埋める。
この問題に対処するために、メタデータと階層情報の両方を活用するエンドツーエンドフレームワークであるMATCHソリューションを提案する。
メタデータを組み込むために、同じ空間にテキストとメタデータの埋め込みを事前学習し、また、完全に接続された注意を活用してそれらの相互関係を捉える。
ラベル階層を活用するために,親による各チャイルドラベルのパラメータと出力確率を正規化するさまざまな方法を提案する。
大規模ラベル階層を持つ2つの大規模テキストデータセットに対する大規模な実験は、最先端のディープラーニングベースラインに対するMATCHの有効性を示す。
関連論文リスト
- Open-world Multi-label Text Classification with Extremely Weak Supervision [30.85235057480158]
極弱監督(XWS)下でのオープンワールドマルチラベルテキスト分類について検討する。
まず、ユーザ記述を利用して、原文書のサブセットのキーフレーズに対して大きな言語モデル(LLM)をプロンプトし、クラスタリングによりラベル空間を構築する。
次に、ゼロショットのマルチラベル分類器を適用して、予測スコアが小さい文書を見つけることで、より長いテールラベルに対する主要なキーフレーズを再検討する。
X-MLClassは、様々なデータセットにおいて、地平線ラベルの空間カバレッジが顕著に増加している。
論文 参考訳(メタデータ) (2024-07-08T04:52:49Z) - Semi-Supervised Hierarchical Multi-Label Classifier Based on Local Information [1.6574413179773761]
局所情報に基づく半教師付き階層型多言語分類器(SSHMC-BLI)
SSHMC-BLIは、ラベル付き隣人のラベルのパスからラベルなしのインスタンスごとに擬似ラベルを構築する。
機能ゲノミクスによる12の挑戦的なデータセットの実験では、ラベル付きデータとラベル付きデータを使用することで、ラベル付きデータのみに基づいてトレーニングされた教師付き階層型分類器のパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2024-04-30T20:16:40Z) - SEAL: Simultaneous Label Hierarchy Exploration And Learning [9.701914280306118]
本稿では,従来の階層構造に従う潜在ラベルでラベルを増大させることにより,ラベル階層を探索する新しいフレームワークを提案する。
本手法では,木間距離空間上の1-ワッサーシュタイン計量を客観的関数として用いて,データ駆動型ラベル階層を同時に学習し,半教師付き学習を行う。
論文 参考訳(メタデータ) (2023-04-26T08:31:59Z) - Exploiting Dynamic and Fine-grained Semantic Scope for Extreme
Multi-label Text Classification [12.508006325140949]
XMTC (Extreme Multi-label text classification) とは、あるテキストをラベル集合から最も関連性の高いサブセットにタグ付けする問題を指す。
既存のXMTC法の多くは、初期から得られた固定ラベルクラスタを利用して、テールラベルとヘッドラベルのパフォーマンスのバランスをとる。
我々は,教師の知識から動的かつきめ細かなセマンティックスコープを取り入れた,XMTCのための新しいフレームワークTReaderXMLを提案する。
論文 参考訳(メタデータ) (2022-05-24T11:15:35Z) - Use All The Labels: A Hierarchical Multi-Label Contrastive Learning
Framework [75.79736930414715]
本稿では,すべての利用可能なラベルを活用でき,クラス間の階層的関係を維持できる階層型多言語表現学習フレームワークを提案する。
比較損失に階層的ペナルティを併用し,その階層的制約を強制する。
論文 参考訳(メタデータ) (2022-04-27T21:41:44Z) - MotifClass: Weakly Supervised Text Classification with Higher-order
Metadata Information [47.44278057062421]
そこで本研究では,テキスト文書をカテゴリ表面名のみを持つ事前定義されたカテゴリの集合に分類することを目的とした,弱教師付きテキスト分類の問題について検討する。
具体的には、異種情報ネットワークを介して文書とメタデータの関係をモデル化する。
そこで我々は,カテゴリ名と指示モチーフインスタンスに基づいて,カテゴリ適応モチーフインスタンスを選択し,擬似ラベル付きトレーニングサンプルを検索し,生成する,MotifClassという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-07T07:39:10Z) - HTCInfoMax: A Global Model for Hierarchical Text Classification via
Information Maximization [75.45291796263103]
階層的テキスト分類のための現在の最新モデルHiAGMには2つの制限がある。
関連しない情報を含むデータセット内のすべてのラベルと、各テキストサンプルを関連付ける。
2つのモジュールを含む情報を導入することで、これらの問題に対処するHTCInfoMaxを提案します。
論文 参考訳(メタデータ) (2021-04-12T06:04:20Z) - Unsupervised Label Refinement Improves Dataless Text Classification [48.031421660674745]
データレステキスト分類は、ラベル記述と組み合わせた文書にスコアを割り当てることで、文書を未確認のラベルに分類することができる。
有望ながら、それは重要なダウンストリームタスクごとにラベルセットの正確な説明に依存します。
この依存により、データレス分類器はラベル記述の選択に非常に敏感になり、実際にはデータレス分類の幅広い適用を妨げる。
論文 参考訳(メタデータ) (2020-12-08T03:37:50Z) - Exploring the Hierarchy in Relation Labels for Scene Graph Generation [75.88758055269948]
提案手法は,Recall@50において,複数の最先端ベースラインを大きなマージン(最大33%の相対利得)で改善することができる。
実験により,提案手法により,最先端のベースラインを大きなマージンで改善できることが示された。
論文 参考訳(メタデータ) (2020-09-12T17:36:53Z) - Minimally Supervised Categorization of Text with Metadata [40.13841133991089]
メタデータでテキストを分類する最小限のフレームワークであるMetaCatを提案する。
我々は,単語,文書,ラベル,メタデータ間の関係を記述した生成プロセスを開発する。
同じ生成過程に基づいて,ラベル不足のボトルネックに対処するため,トレーニングサンプルを合成する。
論文 参考訳(メタデータ) (2020-05-01T21:42:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。