論文の概要: MEGClass: Text Classification with Extremely Weak Supervision via
Mutually-Enhancing Text Granularities
- arxiv url: http://arxiv.org/abs/2304.01969v1
- Date: Tue, 4 Apr 2023 17:26:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 13:04:35.179296
- Title: MEGClass: Text Classification with Extremely Weak Supervision via
Mutually-Enhancing Text Granularities
- Title(参考訳): MEGClass: ミューチュアルエンハンシングテキスト粒度による極弱スーパービジョンによるテキスト分類
- Authors: Priyanka Kargupta, Tanay Komarlu, Susik Yoon, Xuan Wang, Jiawei Han
- Abstract要約: MEGClassは極めて弱い教師付きテキスト分類法である。
ミューチュアル・エンハンシング・テキスト・グラニュラリティを利用する。
他の弱い教師付き手法よりも優れています。
- 参考スコア(独自算出の注目度): 25.913430562495453
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text classification typically requires a substantial amount of
human-annotated data to serve as supervision, which is costly to obtain in
dynamic emerging domains. Certain methods seek to address this problem by
solely relying on the surface text of class names to serve as extremely weak
supervision. However, existing methods fail to account for single-class
documents discussing multiple topics. Both topic diversity and vague sentences
may introduce noise into the document's underlying representation and
consequently the precision of the predicted class. Furthermore, current work
focuses on text granularities (documents, sentences, or words) independently,
which limits the degree of coarse- or fine-grained context that we can jointly
extract from all three to identify significant subtext for classification. In
order to address this problem, we propose MEGClass, an extremely
weakly-supervised text classification method to exploit Mutually-Enhancing Text
Granularities. Specifically, MEGClass constructs class-oriented sentence and
class representations based on keywords for performing a sentence-level
confidence-weighted label ensemble in order to estimate a document's initial
class distribution. This serves as the target distribution for a multi-head
attention network with a class-weighted contrastive loss. This network learns
contextualized sentence representations and weights to form document
representations that reflect its original document and sentence-level topic
diversity. Retaining this heterogeneity allows MEGClass to select the most
class-indicative documents to serve as iterative feedback for enhancing the
class representations. Finally, these top documents are used to fine-tune a
pre-trained text classifier. As demonstrated through extensive experiments on
six benchmark datasets, MEGClass outperforms other weakly and extremely weakly
supervised methods.
- Abstract(参考訳): テキスト分類は一般的に、動的に出現するドメインで取得するのにコストがかかる、監督を行うために、かなりの量の人称データを必要とする。
ある種の手法は、クラス名の表層テキストのみを頼りにしてこの問題に対処し、極めて弱い監督役を務める。
しかし、既存のメソッドは複数のトピックを議論するシングルクラスドキュメントを考慮しない。
トピックの多様性とあいまいな文は、ドキュメントの基盤となる表現にノイズをもたらし、その結果、予測されるクラスの正確さをもたらす可能性がある。
さらに、現在の研究はテキストの粒度(文書、文、言葉)を独立に重視しており、これらは3つ全てから共同で抽出できる粗い文脈や細かな文脈の程度を制限し、分類のための重要なサブテキストを識別する。
この問題に対処するために,Mutually-Enhancing Text Granularitiesを活用するために,非常に弱い教師付きテキスト分類法であるMEGClassを提案する。
具体的には、文書の初期クラス分布を推定するために、文レベルの信頼度重み付きラベルアンサンブルを実行するキーワードに基づいて、クラス指向の文とクラス表現を構築する。
これはクラス重み付けされたコントラスト損失を持つマルチヘッドアテンションネットワークのターゲット分布として機能する。
このネットワークは文脈化された文表現と重みを学習し、元の文書と文レベルのトピックの多様性を反映した文書表現を形成する。
この異質性を保持することで、megclassはクラス表現を強化するための反復的なフィードバックとして、最もクラスを示すドキュメントを選択できる。
最後に、これらのトップドキュメントを使用して、事前学習されたテキスト分類器を微調整する。
6つのベンチマークデータセットに関する広範な実験で示されたように、MEGClassは他の弱い、非常に弱い教師付き手法よりも優れている。
関連論文リスト
- Unlocking the Multi-modal Potential of CLIP for Generalized Category Discovery [50.564146730579424]
テキスト埋め込み合成器(TES)を提案する。
提案手法は,CLIPのマルチモーダルポテンシャルを解放し,すべてのGCDベンチマークにおいて,ベースライン手法よりも大きなマージンで性能を向上する。
論文 参考訳(メタデータ) (2024-03-15T02:40:13Z) - TELEClass: Taxonomy Enrichment and LLM-Enhanced Hierarchical Text Classification with Minimal Supervision [41.05874642535256]
階層的なテキスト分類は、ラベル分類における各文書を一連のクラスに分類することを目的としている。
初期の研究は、大量の人間の注釈付きデータを必要とする完全または半教師付き手法に重点を置いていた。
我々は、最小限の監督量で階層的なテキスト分類に取り組んでおり、各ノードのクラス名のみを唯一の監督として使用しています。
論文 参考訳(メタデータ) (2024-02-29T22:26:07Z) - XAI-CLASS: Explanation-Enhanced Text Classification with Extremely Weak
Supervision [6.406111099707549]
XAI-CLASSは、説明強化弱教師付きテキスト分類法である。
単語の正当性予測を補助タスクとして組み込む。
XAI-CLASSは、他の弱い教師付きテキスト分類法よりも大幅に優れている。
論文 参考訳(メタデータ) (2023-10-31T23:24:22Z) - WOT-Class: Weakly Supervised Open-world Text Classification [41.77945049159303]
我々は、弱教師付きオープンワールドテキスト分類の新しい問題に取り組んでいる。
強い仮定を持ち上げる新しいフレームワーク WOT-Class を提案する。
7つの人気のあるテキスト分類データセットの実験は、WOT-Classが強いベースラインより優れていることを示している。
論文 参考訳(メタデータ) (2023-05-21T08:51:24Z) - LIME: Weakly-Supervised Text Classification Without Seeds [1.2691047660244335]
弱教師付きテキスト分類では、ラベル名のみが監督の源として機能する。
弱教師付きテキスト分類のためのフレームワーク LIME を提案する。
弱教師付き分類とテキスト・エンターメントを組み合わせることで、両者の欠点を軽減できることが判明した。
論文 参考訳(メタデータ) (2022-10-13T04:28:28Z) - Many-Class Text Classification with Matching [65.74328417321738]
textbfText textbfClassification をテキストとラベル間のtextbfMatching 問題として定式化し,TCM というシンプルなフレームワークを提案する。
従来のテキスト分類手法と比較して、TCMは分類ラベルのきめ細かい意味情報を活用している。
論文 参考訳(メタデータ) (2022-05-23T15:51:19Z) - MotifClass: Weakly Supervised Text Classification with Higher-order
Metadata Information [47.44278057062421]
そこで本研究では,テキスト文書をカテゴリ表面名のみを持つ事前定義されたカテゴリの集合に分類することを目的とした,弱教師付きテキスト分類の問題について検討する。
具体的には、異種情報ネットワークを介して文書とメタデータの関係をモデル化する。
そこで我々は,カテゴリ名と指示モチーフインスタンスに基づいて,カテゴリ適応モチーフインスタンスを選択し,擬似ラベル付きトレーニングサンプルを検索し,生成する,MotifClassという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-07T07:39:10Z) - Hierarchical Heterogeneous Graph Representation Learning for Short Text
Classification [60.233529926965836]
短文分類のためのグラフニューラルネットワーク(GNN)に基づく ShiNE と呼ばれる新しい手法を提案する。
まず,短文データセットを単語レベル成分グラフからなる階層的不均一グラフとしてモデル化する。
そして、類似した短いテキスト間の効果的なラベル伝搬を容易にするショート文書グラフを動的に学習する。
論文 参考訳(メタデータ) (2021-10-30T05:33:05Z) - X-Class: Text Classification with Extremely Weak Supervision [39.25777650619999]
本稿では,極めて弱い監督下でのテキスト分類について検討する。
適応表現を実現するための新しいフレームワーク X-Class を提案する。
X-Classは7つのベンチマークデータセットで、シード駆動の弱教師付きメソッドに匹敵し、パフォーマンスも向上する。
論文 参考訳(メタデータ) (2020-10-24T06:09:51Z) - Dynamic Semantic Matching and Aggregation Network for Few-shot Intent
Detection [69.2370349274216]
利用可能な注釈付き発話が不足しているため、インテント検出は困難である。
セマンティック成分はマルチヘッド自己認識によって発話から蒸留される。
本手法はラベル付きインスタンスとラベルなしインスタンスの両方の表現を強化するための総合的なマッチング手段を提供する。
論文 参考訳(メタデータ) (2020-10-06T05:16:38Z) - Learning Interpretable and Discrete Representations with Adversarial
Training for Unsupervised Text Classification [87.28408260725138]
TIGANは、テキストを離散コードと連続ノイズを含む2つの非絡み合った表現にエンコードすることを学ぶ。
抽出したトピックの単語は,TIGANが一貫性と高度に解釈可能なトピックを学習していることを示している。
論文 参考訳(メタデータ) (2020-04-28T02:53:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。