論文の概要: X-Class: Text Classification with Extremely Weak Supervision
- arxiv url: http://arxiv.org/abs/2010.12794v2
- Date: Mon, 7 Feb 2022 23:16:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 12:26:40.712013
- Title: X-Class: Text Classification with Extremely Weak Supervision
- Title(参考訳): X-Class: 極弱スーパービジョンによるテキスト分類
- Authors: Zihan Wang and Dheeraj Mekala and Jingbo Shang
- Abstract要約: 本稿では,極めて弱い監督下でのテキスト分類について検討する。
適応表現を実現するための新しいフレームワーク X-Class を提案する。
X-Classは7つのベンチマークデータセットで、シード駆動の弱教師付きメソッドに匹敵し、パフォーマンスも向上する。
- 参考スコア(独自算出の注目度): 39.25777650619999
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we explore text classification with extremely weak
supervision, i.e., only relying on the surface text of class names. This is a
more challenging setting than the seed-driven weak supervision, which allows a
few seed words per class. We opt to attack this problem from a representation
learning perspective -- ideal document representations should lead to nearly
the same results between clustering and the desired classification. In
particular, one can classify the same corpus differently (e.g., based on topics
and locations), so document representations should be adaptive to the given
class names. We propose a novel framework X-Class to realize the adaptive
representations. Specifically, we first estimate class representations by
incrementally adding the most similar word to each class until inconsistency
arises. Following a tailored mixture of class attention mechanisms, we obtain
the document representation via a weighted average of contextualized word
representations. With the prior of each document assigned to its nearest class,
we then cluster and align the documents to classes. Finally, we pick the most
confident documents from each cluster to train a text classifier. Extensive
experiments demonstrate that X-Class can rival and even outperform seed-driven
weakly supervised methods on 7 benchmark datasets. Our dataset and code are
released at https://github.com/ZihanWangKi/XClass/ .
- Abstract(参考訳): 本稿では,クラス名の表面テキストにのみ依存する,極めて低い監督力を持つテキスト分類について検討する。
これは、クラスごとにいくつかのシードワードを許可する、シード駆動の弱い管理よりも難しい設定です。
理想的なドキュメント表現は、クラスタリングと望ましい分類の間でほぼ同じ結果をもたらすはずです。
特に、同じコーパスを別々に分類できる(例えば、トピックや場所に基づいて)ので、文書表現は与えられたクラス名に適応すべきである。
適応表現を実現するための新しいフレームワークXクラスを提案する。
具体的には、一貫性が生じるまで各クラスに最もよく似た単語を漸進的に付加することで、まずクラス表現を推定する。
クラス注意機構の調整された混合に続いて、文脈化された単語表現の重み付け平均を用いて文書表現を得る。
最寄りのクラスに割り当てられた各ドキュメントに先立って、そのドキュメントをクラスタ化し、クラスにアライメントします。
最後に、各クラスタから最も確実なドキュメントを選択し、テキスト分類器を訓練する。
広範な実験により、x-classは7つのベンチマークデータセットで、シード駆動の弱い教師付きメソッドに匹敵し、さらに優れることが示された。
私たちのデータセットとコードはhttps://github.com/ZihanWangKi/XClass/でリリースされています。
関連論文リスト
- Classification Done Right for Vision-Language Pre-Training [66.90286715149786]
画像テキストデータに基づく視覚言語事前学習のための超単純な分類法であるSuperClassを紹介する。
SuperClassは、トークン化された生テキストを、追加のテキストフィルタリングや選択を必要とせずに、教師付き分類ラベルとして直接利用する。
SuperClassは、古典的なコンピュータビジョンベンチマークやビジョン言語ダウンストリームタスクなど、さまざまなダウンストリームタスクで優れたパフォーマンスを示した。
論文 参考訳(メタデータ) (2024-11-05T18:58:15Z) - XAI-CLASS: Explanation-Enhanced Text Classification with Extremely Weak
Supervision [6.406111099707549]
XAI-CLASSは、説明強化弱教師付きテキスト分類法である。
単語の正当性予測を補助タスクとして組み込む。
XAI-CLASSは、他の弱い教師付きテキスト分類法よりも大幅に優れている。
論文 参考訳(メタデータ) (2023-10-31T23:24:22Z) - Mitigating Word Bias in Zero-shot Prompt-based Classifiers [55.60306377044225]
一致したクラス先行は、オラクルの上界性能と強く相関していることを示す。
また,NLPタスクに対するプロンプト設定において,一貫したパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2023-09-10T10:57:41Z) - MEGClass: Extremely Weakly Supervised Text Classification via
Mutually-Enhancing Text Granularities [33.567613041147844]
MEGClassは極めて弱い教師付きテキスト分類法である。
ミューチュアル・エンハンシング・テキスト・グラニュラリティを利用する。
最も情報に富むクラス表示文書を選択することができる。
論文 参考訳(メタデータ) (2023-04-04T17:26:11Z) - FastClass: A Time-Efficient Approach to Weakly-Supervised Text
Classification [14.918600168973564]
本稿では,効率的な弱教師付き分類手法であるFastClassを提案する。
センシティブテキスト表現を使用して、外部ラベルなしコーパスからクラス関連文書を検索する。
実験により,提案手法は,分類精度の観点からキーワード駆動モデルよりも優れており,訓練速度のオーダー・オブ・マグニチュードが高速であることが確認された。
論文 参考訳(メタデータ) (2022-12-11T13:43:22Z) - Out-of-Category Document Identification Using Target-Category Names as
Weak Supervision [64.671654559798]
Out-of-category Detection は、文書が不適格(またはターゲット)カテゴリと意味的関連性に応じて区別することを目的としている。
対象のカテゴリの1つに属する文書の信頼性を効果的に測定する,カテゴリ外検出フレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-24T21:01:25Z) - Generalized Funnelling: Ensemble Learning and Heterogeneous Document
Embeddings for Cross-Lingual Text Classification [78.83284164605473]
emphFunnelling (Fun)は、最近提案された言語間テキスト分類手法である。
Emph Generalized Funnelling (gFun) はFunの一般化である。
gFunは、Funや最先端のベースラインよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2021-09-17T23:33:04Z) - DocSCAN: Unsupervised Text Classification via Learning from Neighbors [2.2082422928825145]
Semantic Clustering by Adopting Nearest-Neighbors (SCAN)を用いた、完全に教師なしのテキスト分類アプローチであるDocSCANを紹介します。
各文書に対して,大規模事前学習言語モデルから意味情報ベクトルを得る。
類似の文書には近接ベクトルがあるので、表現空間の隣人はトピックラベルを共有する傾向がある。
学習可能なクラスタリングアプローチでは、隣接するデータポイントのペアを弱い学習信号として使用します。
提案されたアプローチは、グラウンドトラスラベルなしでデータセット全体にクラスを割り当てることを学ぶ。
論文 参考訳(メタデータ) (2021-05-09T21:20:31Z) - Learning and Evaluating Representations for Deep One-class
Classification [59.095144932794646]
ディープワンクラス分類のための2段階フレームワークを提案する。
まず,一級データから自己教師付き表現を学習し,学習した表現に基づいて一級分類器を構築する。
実験では、視覚領域の1クラス分類ベンチマークで最先端の性能を示す。
論文 参考訳(メタデータ) (2020-11-04T23:33:41Z) - Classification and Clustering of arXiv Documents, Sections, and
Abstracts, Comparing Encodings of Natural and Mathematical Language [8.522576207528017]
本稿では、自然言語と数学的言語のエンコーディングの選択と組み合わせが、文書の分類とクラスタリングに数学的内容がどう影響するかを示す。
私たちのエンコーディングは、分類精度が最大で82.8%、クラスタ純度が最大で69.4%に達する。
文書の分類において,コンピュータが人間の専門家より優れていることを示す。
論文 参考訳(メタデータ) (2020-05-22T06:16:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。