論文の概要: Hierarchical Metadata-Aware Document Categorization under Weak
Supervision
- arxiv url: http://arxiv.org/abs/2010.13556v2
- Date: Sun, 20 Dec 2020 02:02:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 19:33:37.148714
- Title: Hierarchical Metadata-Aware Document Categorization under Weak
Supervision
- Title(参考訳): 弱い監督下での階層的メタデータ・アウェアドキュメント分類
- Authors: Yu Zhang, Xiusi Chen, Yu Meng, Jiawei Han
- Abstract要約: タスクのための埋め込みベースの生成フレームワークであるHiMeCatを開発した。
本稿では,カテゴリ依存の同時モデリングが可能な新しい共同表現学習モジュールを提案する。
トレーニング文書を階層的に合成して,当初の小規模トレーニングセットを補完するデータ拡張モジュールを提案する。
- 参考スコア(独自算出の注目度): 32.80303008934164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Categorizing documents into a given label hierarchy is intuitively appealing
due to the ubiquity of hierarchical topic structures in massive text corpora.
Although related studies have achieved satisfying performance in fully
supervised hierarchical document classification, they usually require massive
human-annotated training data and only utilize text information. However, in
many domains, (1) annotations are quite expensive where very few training
samples can be acquired; (2) documents are accompanied by metadata information.
Hence, this paper studies how to integrate the label hierarchy, metadata, and
text signals for document categorization under weak supervision. We develop
HiMeCat, an embedding-based generative framework for our task. Specifically, we
propose a novel joint representation learning module that allows simultaneous
modeling of category dependencies, metadata information and textual semantics,
and we introduce a data augmentation module that hierarchically synthesizes
training documents to complement the original, small-scale training set. Our
experiments demonstrate a consistent improvement of HiMeCat over competitive
baselines and validate the contribution of our representation learning and data
augmentation modules.
- Abstract(参考訳): ドキュメントをラベル階層に分類することは、大量のテキストコーパスにおける階層的トピック構造が普及しているため、直感的に魅力的である。
関連する研究は、完全な教師付き階層的文書分類のパフォーマンスを満足させるが、通常、大量の人間の注釈付きトレーニングデータを必要とし、テキスト情報のみを利用する。
しかし、多くのドメインでは、(1) アノテーションは非常に高価で、非常に少ないトレーニングサンプルが取得でき、(2) ドキュメントにはメタデータ情報が含まれている。
そこで本稿では, 文書分類におけるラベル階層, メタデータ, テキスト信号の統合手法について検討する。
タスクのための埋め込みベースの生成フレームワークであるHiMeCatを開発した。
具体的には,カテゴリー依存,メタデータ情報,テキスト意味の同時モデリングを可能にする新しい統合表現学習モジュールを提案し,学習文書を階層的に合成し,元の小規模学習セットを補完するデータ拡張モジュールを提案する。
本実験は,競合ベースラインに対するhimecatの一貫した改善を示し,表現学習とデータ拡張モジュールの寄与を検証する。
関連論文リスト
- Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - HiGen: Hierarchy-Aware Sequence Generation for Hierarchical Text
Classification [19.12354692458442]
階層的テキスト分類 (HTC) は、マルチラベルテキスト分類における複雑なサブタスクである。
動的テキスト表現を符号化する言語モデルを利用したテキスト生成フレームワークHiGenを提案する。
論文 参考訳(メタデータ) (2024-01-24T04:44:42Z) - Weakly Supervised Multi-Label Classification of Full-Text Scientific
Papers [29.295941972777978]
我々は,クロスペーパーネットワーク構造と紙内階層構造を用いて,弱い監督下で全文科学論文を分類するフレームワークEXを提案する。
ネットワーク対応のコントラスト調整モジュールと階層対応のアグリゲーションモジュールは、2種類の構造信号を利用するように設計されている。
論文 参考訳(メタデータ) (2023-06-24T15:27:55Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - MotifClass: Weakly Supervised Text Classification with Higher-order
Metadata Information [47.44278057062421]
そこで本研究では,テキスト文書をカテゴリ表面名のみを持つ事前定義されたカテゴリの集合に分類することを目的とした,弱教師付きテキスト分類の問題について検討する。
具体的には、異種情報ネットワークを介して文書とメタデータの関係をモデル化する。
そこで我々は,カテゴリ名と指示モチーフインスタンスに基づいて,カテゴリ適応モチーフインスタンスを選択し,擬似ラベル付きトレーニングサンプルを検索し,生成する,MotifClassという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-07T07:39:10Z) - Minimally-Supervised Structure-Rich Text Categorization via Learning on
Text-Rich Networks [61.23408995934415]
テキストリッチネットワークから学習することで,最小限に教師付き分類を行う新しいフレームワークを提案する。
具体的には、テキスト理解のためのテキスト解析モジュールと、クラス差別的でスケーラブルなネットワーク学習のためのネットワーク学習モジュールの2つのモジュールを共同でトレーニングします。
実験の結果,1つのカテゴリに3つのシード文書しか与えられず,その精度は約92%であった。
論文 参考訳(メタデータ) (2021-02-23T04:14:34Z) - MATCH: Metadata-Aware Text Classification in A Large Hierarchy [60.59183151617578]
MATCHはメタデータと階層情報の両方を利用するエンドツーエンドのフレームワークである。
親による各子ラベルのパラメータと出力確率を正規化するさまざまな方法を提案します。
大規模なラベル階層を持つ2つの大規模なテキストデータセットの実験は、MATCHの有効性を示しています。
論文 参考訳(メタデータ) (2021-02-15T05:23:08Z) - Minimally Supervised Categorization of Text with Metadata [40.13841133991089]
メタデータでテキストを分類する最小限のフレームワークであるMetaCatを提案する。
我々は,単語,文書,ラベル,メタデータ間の関係を記述した生成プロセスを開発する。
同じ生成過程に基づいて,ラベル不足のボトルネックに対処するため,トレーニングサンプルを合成する。
論文 参考訳(メタデータ) (2020-05-01T21:42:32Z) - SPECTER: Document-level Representation Learning using Citation-informed
Transformers [51.048515757909215]
SPECTERは、Transformer言語モデルの事前学習に基づいて、科学文書の文書レベルの埋め込みを生成する。
SciDocsは、引用予測から文書分類、レコメンデーションまでの7つの文書レベルのタスクからなる新しい評価ベンチマークである。
論文 参考訳(メタデータ) (2020-04-15T16:05:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。