論文の概要: Minimally-Supervised Structure-Rich Text Categorization via Learning on
Text-Rich Networks
- arxiv url: http://arxiv.org/abs/2102.11479v1
- Date: Tue, 23 Feb 2021 04:14:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-24 14:02:25.624167
- Title: Minimally-Supervised Structure-Rich Text Categorization via Learning on
Text-Rich Networks
- Title(参考訳): テキストリッチネットワーク上での学習による最小教師構造リッチテキスト分類
- Authors: Xinyang Zhang, Chenwei Zhang, Luna Xin Dong, Jingbo Shang, Jiawei Han
- Abstract要約: テキストリッチネットワークから学習することで,最小限に教師付き分類を行う新しいフレームワークを提案する。
具体的には、テキスト理解のためのテキスト解析モジュールと、クラス差別的でスケーラブルなネットワーク学習のためのネットワーク学習モジュールの2つのモジュールを共同でトレーニングします。
実験の結果,1つのカテゴリに3つのシード文書しか与えられず,その精度は約92%であった。
- 参考スコア(独自算出の注目度): 61.23408995934415
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Text categorization is an essential task in Web content analysis. Considering
the ever-evolving Web data and new emerging categories, instead of the
laborious supervised setting, in this paper, we focus on the
minimally-supervised setting that aims to categorize documents effectively,
with a couple of seed documents annotated per category. We recognize that texts
collected from the Web are often structure-rich, i.e., accompanied by various
metadata. One can easily organize the corpus into a text-rich network, joining
raw text documents with document attributes, high-quality phrases, label
surface names as nodes, and their associations as edges. Such a network
provides a holistic view of the corpus' heterogeneous data sources and enables
a joint optimization for network-based analysis and deep textual model
training. We therefore propose a novel framework for minimally supervised
categorization by learning from the text-rich network. Specifically, we jointly
train two modules with different inductive biases -- a text analysis module for
text understanding and a network learning module for class-discriminative,
scalable network learning. Each module generates pseudo training labels from
the unlabeled document set, and both modules mutually enhance each other by
co-training using pooled pseudo labels. We test our model on two real-world
datasets. On the challenging e-commerce product categorization dataset with 683
categories, our experiments show that given only three seed documents per
category, our framework can achieve an accuracy of about 92%, significantly
outperforming all compared methods; our accuracy is only less than 2% away from
the supervised BERT model trained on about 50K labeled documents.
- Abstract(参考訳): テキスト分類は、Webコンテンツ分析において不可欠なタスクです。
本稿では,Webデータと新たなカテゴリの進化を考えると,ドキュメントを効果的に分類することを目的とした最小限の教師付き設定に焦点をあて,各カテゴリに注釈を付けた2つのシード文書を配置する。
私たちは、Webから収集されたテキストはしばしば構造が豊富であることを認識します。
コーパスをテキストリッチネットワークに簡単に整理でき、文書属性、高品質なフレーズ、ノードとしてのラベル表面名、エッジとしての関連付けなど、生のテキスト文書を結合することができる。
このようなネットワークはコーパスの異種データソースの全体像を提供し、ネットワークベースの分析と深いテキストモデルトレーニングのための共同最適化を可能にします。
そこで本研究では,テキストリッチネットワークから学習し,最小限の教師付き分類のための新しいフレームワークを提案する。
具体的には、テキスト理解のためのテキスト解析モジュールと、クラス差別的でスケーラブルなネットワーク学習のためのネットワーク学習モジュールの2つのモジュールを共同でトレーニングします。
各モジュールは、未ラベルの文書集合から擬似訓練ラベルを生成し、両方のモジュールは、プールされた擬似ラベルを用いて相互に強化する。
2つの実世界のデータセットでモデルをテストします。
683のカテゴリを持つ難易度の高いeコマース製品分類データセットでは,1つのカテゴリに3つのシードドキュメントしか与えられず,その精度は92%程度で,比較したすべての手法を上回っており,約50kのラベル付きドキュメントでトレーニングされた教師付きbertモデルから2%弱の精度しか得られていない。
関連論文リスト
- Weakly Supervised Multi-Label Classification of Full-Text Scientific
Papers [29.295941972777978]
我々は,クロスペーパーネットワーク構造と紙内階層構造を用いて,弱い監督下で全文科学論文を分類するフレームワークEXを提案する。
ネットワーク対応のコントラスト調整モジュールと階層対応のアグリゲーションモジュールは、2種類の構造信号を利用するように設計されている。
論文 参考訳(メタデータ) (2023-06-24T15:27:55Z) - Patton: Language Model Pretraining on Text-Rich Networks [33.914163727649466]
我々はテキストリッチネットワークのためのTexT-Rich NetwOrkフレームワークPattonのPretrAiningを提案する。
Pattonには2つの事前トレーニング戦略が含まれている。
学術分野と電子商取引分野の5つのデータセットで、下流4つのタスクを実験する。
論文 参考訳(メタデータ) (2023-05-20T19:17:10Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - TeKo: Text-Rich Graph Neural Networks with External Knowledge [75.91477450060808]
外部知識を用いた新しいテキストリッチグラフニューラルネットワーク(TeKo)を提案する。
まず、高品質なエンティティを組み込んだフレキシブルな異種セマンティックネットワークを提案する。
次に、構造化三重項と非構造化実体記述という2種類の外部知識を導入する。
論文 参考訳(メタデータ) (2022-06-15T02:33:10Z) - MotifClass: Weakly Supervised Text Classification with Higher-order
Metadata Information [47.44278057062421]
そこで本研究では,テキスト文書をカテゴリ表面名のみを持つ事前定義されたカテゴリの集合に分類することを目的とした,弱教師付きテキスト分類の問題について検討する。
具体的には、異種情報ネットワークを介して文書とメタデータの関係をモデル化する。
そこで我々は,カテゴリ名と指示モチーフインスタンスに基づいて,カテゴリ適応モチーフインスタンスを選択し,擬似ラベル付きトレーニングサンプルを検索し,生成する,MotifClassという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-07T07:39:10Z) - Pre-training Language Model Incorporating Domain-specific Heterogeneous Knowledge into A Unified Representation [49.89831914386982]
本研究では, 構造化されていないテキスト, 半構造化されたテキスト, 十分に構造化されたテキストを含む, あらゆる形式のテキストに対して, 統一された事前学習言語モデル (PLM) を提案する。
提案手法は,データの1/4のみを用いて,プレーンテキストの事前学習に優れる。
論文 参考訳(メタデータ) (2021-09-02T16:05:24Z) - Hierarchical Metadata-Aware Document Categorization under Weak
Supervision [32.80303008934164]
タスクのための埋め込みベースの生成フレームワークであるHiMeCatを開発した。
本稿では,カテゴリ依存の同時モデリングが可能な新しい共同表現学習モジュールを提案する。
トレーニング文書を階層的に合成して,当初の小規模トレーニングセットを補完するデータ拡張モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-26T13:07:56Z) - Minimally Supervised Categorization of Text with Metadata [40.13841133991089]
メタデータでテキストを分類する最小限のフレームワークであるMetaCatを提案する。
我々は,単語,文書,ラベル,メタデータ間の関係を記述した生成プロセスを開発する。
同じ生成過程に基づいて,ラベル不足のボトルネックに対処するため,トレーニングサンプルを合成する。
論文 参考訳(メタデータ) (2020-05-01T21:42:32Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。