論文の概要: Minimally Supervised Categorization of Text with Metadata
- arxiv url: http://arxiv.org/abs/2005.00624v3
- Date: Sat, 13 Nov 2021 05:48:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 00:22:43.062463
- Title: Minimally Supervised Categorization of Text with Metadata
- Title(参考訳): メタデータ付きテキストの最小教師付き分類
- Authors: Yu Zhang, Yu Meng, Jiaxin Huang, Frank F. Xu, Xuan Wang, Jiawei Han
- Abstract要約: メタデータでテキストを分類する最小限のフレームワークであるMetaCatを提案する。
我々は,単語,文書,ラベル,メタデータ間の関係を記述した生成プロセスを開発する。
同じ生成過程に基づいて,ラベル不足のボトルネックに対処するため,トレーニングサンプルを合成する。
- 参考スコア(独自算出の注目度): 40.13841133991089
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Document categorization, which aims to assign a topic label to each document,
plays a fundamental role in a wide variety of applications. Despite the success
of existing studies in conventional supervised document classification, they
are less concerned with two real problems: (1) the presence of metadata: in
many domains, text is accompanied by various additional information such as
authors and tags. Such metadata serve as compelling topic indicators and should
be leveraged into the categorization framework; (2) label scarcity: labeled
training samples are expensive to obtain in some cases, where categorization
needs to be performed using only a small set of annotated data. In recognition
of these two challenges, we propose MetaCat, a minimally supervised framework
to categorize text with metadata. Specifically, we develop a generative process
describing the relationships between words, documents, labels, and metadata.
Guided by the generative model, we embed text and metadata into the same
semantic space to encode heterogeneous signals. Then, based on the same
generative process, we synthesize training samples to address the bottleneck of
label scarcity. We conduct a thorough evaluation on a wide range of datasets.
Experimental results prove the effectiveness of MetaCat over many competitive
baselines.
- Abstract(参考訳): 各ドキュメントにトピックラベルを割り当てることを目的としているdocument categorizationは、さまざまなアプリケーションにおいて基本的な役割を果たす。
従来の文書分類における既存の研究の成功にもかかわらず、(1)メタデータの存在:多くのドメインにおいて、テキストには著者やタグなどの様々な追加情報が含まれている。
このようなメタデータは魅力的なトピック指標として機能し,分類フレームワークに活用されるべきである。(2)ラベル不足:ラベル付きトレーニングサンプルは,いくつかのケースでは,注釈付きデータのみを使用して分類を行う必要がある。
この2つの課題を認識し,メタデータ付きテキスト分類のための最小教師付きフレームワークであるmetacatを提案する。
具体的には,単語,文書,ラベル,メタデータ間の関係を記述する生成プロセスを開発する。
生成モデルに導かれ、テキストとメタデータを同じ意味空間に埋め込み、異種信号の符号化を行う。
そして、同じ生成過程に基づいて、ラベル不足のボトルネックに対処するため、トレーニングサンプルを合成する。
我々は、幅広いデータセットについて徹底的な評価を行う。
実験の結果,多くの競合ベースラインに対するmetacatの有効性が実証された。
関連論文リスト
- Metadata-Induced Contrastive Learning for Zero-Shot Multi-Label Text
Classification [27.33039900612395]
大規模多ラベルテキスト分類のための新しいメタデータ誘導コントラスト学習法(MICoL)を提案する。
MICoLは、Web上で広く利用可能なドキュメントメタデータを利用して、同様のドキュメントとドキュメントのペアを導き出す。
我々は,MICoLが強いゼロショットテキスト分類と対照的な学習ベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2022-02-11T23:22:17Z) - Out-of-Category Document Identification Using Target-Category Names as
Weak Supervision [64.671654559798]
Out-of-category Detection は、文書が不適格(またはターゲット)カテゴリと意味的関連性に応じて区別することを目的としている。
対象のカテゴリの1つに属する文書の信頼性を効果的に測定する,カテゴリ外検出フレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-24T21:01:25Z) - MotifClass: Weakly Supervised Text Classification with Higher-order
Metadata Information [47.44278057062421]
そこで本研究では,テキスト文書をカテゴリ表面名のみを持つ事前定義されたカテゴリの集合に分類することを目的とした,弱教師付きテキスト分類の問題について検討する。
具体的には、異種情報ネットワークを介して文書とメタデータの関係をモデル化する。
そこで我々は,カテゴリ名と指示モチーフインスタンスに基づいて,カテゴリ適応モチーフインスタンスを選択し,擬似ラベル付きトレーニングサンプルを検索し,生成する,MotifClassという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-07T07:39:10Z) - Minimally-Supervised Structure-Rich Text Categorization via Learning on
Text-Rich Networks [61.23408995934415]
テキストリッチネットワークから学習することで,最小限に教師付き分類を行う新しいフレームワークを提案する。
具体的には、テキスト理解のためのテキスト解析モジュールと、クラス差別的でスケーラブルなネットワーク学習のためのネットワーク学習モジュールの2つのモジュールを共同でトレーニングします。
実験の結果,1つのカテゴリに3つのシード文書しか与えられず,その精度は約92%であった。
論文 参考訳(メタデータ) (2021-02-23T04:14:34Z) - MATCH: Metadata-Aware Text Classification in A Large Hierarchy [60.59183151617578]
MATCHはメタデータと階層情報の両方を利用するエンドツーエンドのフレームワークである。
親による各子ラベルのパラメータと出力確率を正規化するさまざまな方法を提案します。
大規模なラベル階層を持つ2つの大規模なテキストデータセットの実験は、MATCHの有効性を示しています。
論文 参考訳(メタデータ) (2021-02-15T05:23:08Z) - Unsupervised Label Refinement Improves Dataless Text Classification [48.031421660674745]
データレステキスト分類は、ラベル記述と組み合わせた文書にスコアを割り当てることで、文書を未確認のラベルに分類することができる。
有望ながら、それは重要なダウンストリームタスクごとにラベルセットの正確な説明に依存します。
この依存により、データレス分類器はラベル記述の選択に非常に敏感になり、実際にはデータレス分類の幅広い適用を妨げる。
論文 参考訳(メタデータ) (2020-12-08T03:37:50Z) - Hierarchical Metadata-Aware Document Categorization under Weak
Supervision [32.80303008934164]
タスクのための埋め込みベースの生成フレームワークであるHiMeCatを開発した。
本稿では,カテゴリ依存の同時モデリングが可能な新しい共同表現学習モジュールを提案する。
トレーニング文書を階層的に合成して,当初の小規模トレーニングセットを補完するデータ拡張モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-26T13:07:56Z) - Robust Document Representations using Latent Topics and Metadata [17.306088038339336]
本稿では,文書分類問題に対する事前学習型ニューラルネットワークモデルの微調整手法を提案する。
テキストとメタデータの両方をタスク形式でキャプチャする文書表現を生成します。
私たちのソリューションでは、メタデータを単にテキストで拡張するのではなく、明示的に組み込んでいます。
論文 参考訳(メタデータ) (2020-10-23T21:52:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。