論文の概要: Text Classification Using Label Names Only: A Language Model
Self-Training Approach
- arxiv url: http://arxiv.org/abs/2010.07245v1
- Date: Wed, 14 Oct 2020 17:06:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 12:34:56.098608
- Title: Text Classification Using Label Names Only: A Language Model
Self-Training Approach
- Title(参考訳): ラベル名のみを用いたテキスト分類:言語モデル自己学習アプローチ
- Authors: Yu Meng, Yunyi Zhang, Jiaxin Huang, Chenyan Xiong, Heng Ji, Chao
Zhang, Jiawei Han
- Abstract要約: 現在のテキスト分類法は、訓練データとして多くの人ラベルの文書を必要とするのが一般的である。
本モデルでは,トピック分類や感情分類を含む4つのベンチマークデータセットにおいて,約90%の精度が得られた。
- 参考スコア(独自算出の注目度): 80.63885282358204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current text classification methods typically require a good number of
human-labeled documents as training data, which can be costly and difficult to
obtain in real applications. Humans can perform classification without seeing
any labeled examples but only based on a small set of words describing the
categories to be classified. In this paper, we explore the potential of only
using the label name of each class to train classification models on unlabeled
data, without using any labeled documents. We use pre-trained neural language
models both as general linguistic knowledge sources for category understanding
and as representation learning models for document classification. Our method
(1) associates semantically related words with the label names, (2) finds
category-indicative words and trains the model to predict their implied
categories, and (3) generalizes the model via self-training. We show that our
model achieves around 90% accuracy on four benchmark datasets including topic
and sentiment classification without using any labeled documents but learning
from unlabeled data supervised by at most 3 words (1 in most cases) per class
as the label name.
- Abstract(参考訳): 現在のテキスト分類法は、訓練データとして多くの人ラベルの文書を必要とするが、実際のアプリケーションではコストがかかり難い。
人間はラベル付きの例を見ることなく分類することができるが、分類対象のカテゴリを記述する小さな単語セットのみに基づいている。
本稿では,ラベル付き文書を使わずに,各クラスのラベル名のみを用いてラベル付きデータの分類モデルを訓練する可能性について検討する。
カテゴリー理解のための一般的な言語知識源として,文書分類のための表現学習モデルとして,事前学習されたニューラルネットワークモデルを用いる。
本手法は,(1) 意味的関連語とラベル名とを関連づけ,(2) カテゴリー指示語を検索し,そのカテゴリを予測できるようにモデルを訓練し,(3) 自己学習によりモデルを一般化する。
本モデルでは,ラベル付き文書を使わずにトピック分類や感情分類を含む4つのベンチマークデータセットで約90%の精度を実現するが,ラベル名としてクラス毎に最大3ワード(1つ)の教師付きデータから学習する。
関連論文リスト
- Towards Open-Domain Topic Classification [69.21234350688098]
ユーザが定義した分類をリアルタイムで受け入れるオープンドメイントピック分類システムを導入する。
ユーザは、任意の候補ラベルに対してテキストスニペットを分類し、Webインターフェースから即座にレスポンスを受け取ることができます。
論文 参考訳(メタデータ) (2023-06-29T20:25:28Z) - Description-Enhanced Label Embedding Contrastive Learning for Text
Classification [65.01077813330559]
モデル学習プロセスにおける自己監督型学習(SSL)と新しい自己監督型関係関係(R2)分類タスクの設計
テキスト分類とR2分類を最適化対象として扱うテキスト分類のための関係学習ネットワーク(R2-Net)の関係について検討する。
ラベルセマンティックラーニングのためのマルチアスペクト記述を得るためのWordNetからの外部知識。
論文 参考訳(メタデータ) (2023-06-15T02:19:34Z) - The Benefits of Label-Description Training for Zero-Shot Text
Classification [35.27224341685012]
事前訓練された言語モデルはゼロショットテキスト分類を改善した。
最小限の努力でゼロショット精度をさらに向上する簡単な方法を提案する。
論文 参考訳(メタデータ) (2023-05-03T16:19:31Z) - FastClass: A Time-Efficient Approach to Weakly-Supervised Text
Classification [14.918600168973564]
本稿では,効率的な弱教師付き分類手法であるFastClassを提案する。
センシティブテキスト表現を使用して、外部ラベルなしコーパスからクラス関連文書を検索する。
実験により,提案手法は,分類精度の観点からキーワード駆動モデルよりも優れており,訓練速度のオーダー・オブ・マグニチュードが高速であることが確認された。
論文 参考訳(メタデータ) (2022-12-11T13:43:22Z) - Label Semantic Aware Pre-training for Few-shot Text Classification [53.80908620663974]
テキスト分類システムの一般化とデータ効率を向上させるために,ラベルセマンティック・アウェア事前学習(LSAP)を提案する。
LSAPは、ラベル付き文の2次事前学習を行うことにより、ラベルセマンティクスを事前学習された生成モデル(T5)に組み込む。
論文 参考訳(メタデータ) (2022-04-14T17:33:34Z) - Improving Probabilistic Models in Text Classification via Active
Learning [0.0]
本稿では,ラベル付きデータとラベルなしデータの両方からの情報と,アクティブな学習成分を結合したテキスト分類のための高速な新しいモデルを提案する。
本研究では,未ラベルデータの構造に関する情報を導入し,不確実な文書を反復的にラベル付けすることにより,性能を向上することを示す。
論文 参考訳(メタデータ) (2022-02-05T20:09:26Z) - Out-of-Category Document Identification Using Target-Category Names as
Weak Supervision [64.671654559798]
Out-of-category Detection は、文書が不適格(またはターゲット)カテゴリと意味的関連性に応じて区別することを目的としている。
対象のカテゴリの1つに属する文書の信頼性を効果的に測定する,カテゴリ外検出フレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-24T21:01:25Z) - MotifClass: Weakly Supervised Text Classification with Higher-order
Metadata Information [47.44278057062421]
そこで本研究では,テキスト文書をカテゴリ表面名のみを持つ事前定義されたカテゴリの集合に分類することを目的とした,弱教師付きテキスト分類の問題について検討する。
具体的には、異種情報ネットワークを介して文書とメタデータの関係をモデル化する。
そこで我々は,カテゴリ名と指示モチーフインスタンスに基づいて,カテゴリ適応モチーフインスタンスを選択し,擬似ラベル付きトレーニングサンプルを検索し,生成する,MotifClassという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-07T07:39:10Z) - DocSCAN: Unsupervised Text Classification via Learning from Neighbors [2.2082422928825145]
Semantic Clustering by Adopting Nearest-Neighbors (SCAN)を用いた、完全に教師なしのテキスト分類アプローチであるDocSCANを紹介します。
各文書に対して,大規模事前学習言語モデルから意味情報ベクトルを得る。
類似の文書には近接ベクトルがあるので、表現空間の隣人はトピックラベルを共有する傾向がある。
学習可能なクラスタリングアプローチでは、隣接するデータポイントのペアを弱い学習信号として使用します。
提案されたアプローチは、グラウンドトラスラベルなしでデータセット全体にクラスを割り当てることを学ぶ。
論文 参考訳(メタデータ) (2021-05-09T21:20:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。