論文の概要: A Benchmark on Extremely Weakly Supervised Text Classification:
Reconcile Seed Matching and Prompting Approaches
- arxiv url: http://arxiv.org/abs/2305.12749v1
- Date: Mon, 22 May 2023 06:18:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 18:10:31.938709
- Title: A Benchmark on Extremely Weakly Supervised Text Classification:
Reconcile Seed Matching and Prompting Approaches
- Title(参考訳): 極端に弱い教師付きテキスト分類のベンチマーク--シードマッチングとプロンプトアプローチの和解
- Authors: Zihan Wang, Tianle Wang, Dheeraj Mekala, Jingbo Shang
- Abstract要約: Etremely Weakly Supervised Text Classification (XWS-TC) は、人間による最小限の指導に基づくテキスト分類である。
しかし、XWS-TCには2つの主要なアプローチがある。
本稿では,2つのアプローチをフェアグラウンドで比較した最初のXWS-TCベンチマークを示す。
- 参考スコア(独自算出の注目度): 34.92996175070291
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Etremely Weakly Supervised Text Classification (XWS-TC) refers to text
classification based on minimal high-level human guidance, such as a few
label-indicative seed words or classification instructions. There are two
mainstream approaches for XWS-TC, however, never being rigorously compared: (1)
training classifiers based on pseudo-labels generated by (softly) matching seed
words (SEED) and (2) prompting (and calibrating) language models using
classification instruction (and raw texts) to decode label words (PROMPT). This
paper presents the first XWS-TC benchmark to compare the two approaches on fair
grounds, where the datasets, supervisions, and hyperparameter choices are
standardized across methods. Our benchmarking results suggest that (1) Both
SEED and PROMPT approaches are competitive and there is no clear winner; (2)
SEED is empirically more tolerant than PROMPT to human guidance (e.g., seed
words, classification instructions, and label words) changes; (3) SEED is
empirically more selective than PROMPT to the pre-trained language models; (4)
Recent SEED and PROMPT methods have close connections and a clustering
post-processing step based on raw in-domain texts is a strong performance
booster to both. We hope this benchmark serves as a guideline in selecting
XWS-TC methods in different scenarios and stimulate interest in developing
guidance- and model-robust XWS-TC methods. We release the repo at
https://github.com/ZihanWangKi/x-TC.
- Abstract(参考訳): etremely weakly supervised text classification (xws-tc) は、いくつかのラベル指示種語や分類指示のような、最小限のハイレベルな人間指導に基づくテキスト分類を指す。
XWS-TCには2つの主流なアプローチがあるが、厳密な比較は行われていない。(1)(ソフトに)マッチングされたシードワード(SEED)によって生成された擬似ラベルに基づく分類器の訓練と(2)分類命令(および生テキスト)を用いてラベル単語(PROMPT)を復号する言語モデルの提案(および校正)である。
本稿では,xws-tcベンチマークを用いて,データセットや監督,ハイパーパラメータの選択が標準化されるフェアグラウンドにおける2つのアプローチを比較した。
Our benchmarking results suggest that (1) Both SEED and PROMPT approaches are competitive and there is no clear winner; (2) SEED is empirically more tolerant than PROMPT to human guidance (e.g., seed words, classification instructions, and label words) changes; (3) SEED is empirically more selective than PROMPT to the pre-trained language models; (4) Recent SEED and PROMPT methods have close connections and a clustering post-processing step based on raw in-domain texts is a strong performance booster to both.
我々は,このベンチマークが,異なるシナリオでXWS-TCメソッドを選択するためのガイドラインとして機能し,ガイダンスとモデルロバストなXWS-TCメソッドの開発への関心を刺激することを期待している。
リポジトリはhttps://github.com/ZihanWangKi/x-TCで公開しています。
関連論文リスト
- XAI-CLASS: Explanation-Enhanced Text Classification with Extremely Weak
Supervision [6.406111099707549]
XAI-CLASSは、説明強化弱教師付きテキスト分類法である。
単語の正当性予測を補助タスクとして組み込む。
XAI-CLASSは、他の弱い教師付きテキスト分類法よりも大幅に優れている。
論文 参考訳(メタデータ) (2023-10-31T23:24:22Z) - JointMatch: A Unified Approach for Diverse and Collaborative
Pseudo-Labeling to Semi-Supervised Text Classification [65.268245109828]
半教師付きテキスト分類(SSTC)は、ラベルのないデータを活用する能力によって注目を集めている。
擬似ラベルに基づく既存のアプローチは、擬似ラベルバイアスと誤り蓄積の問題に悩まされる。
我々は、最近の半教師付き学習からアイデアを統一することでこれらの課題に対処する、SSTCの総合的なアプローチであるJointMatchを提案する。
論文 参考訳(メタデータ) (2023-10-23T05:43:35Z) - ProTeCt: Prompt Tuning for Taxonomic Open Set Classification [59.59442518849203]
分類学的オープンセット(TOS)設定では、ほとんどショット適応法はうまくいきません。
本稿では,モデル予測の階層的一貫性を校正する即時チューニング手法を提案する。
次に,階層整合性のための新しいPrompt Tuning(ProTeCt)手法を提案し,ラベル集合の粒度を分類する。
論文 参考訳(メタデータ) (2023-06-04T02:55:25Z) - Evaluating Unsupervised Text Classification: Zero-shot and
Similarity-based Approaches [0.6767885381740952]
類似性に基づくアプローチは、テキスト文書表現とクラス記述表現の類似性に基づいてインスタンスを分類しようとする。
ゼロショットテキスト分類手法は、未知クラスの適切なラベルをテキスト文書に割り当てることで、トレーニングタスクから得られる知識を一般化することを目的としている。
本稿では, 類似度に基づくゼロショットとゼロショットのアプローチを, 未確認クラスのテキスト分類のために体系的に評価する。
論文 参考訳(メタデータ) (2022-11-29T15:14:47Z) - LIME: Weakly-Supervised Text Classification Without Seeds [1.2691047660244335]
弱教師付きテキスト分類では、ラベル名のみが監督の源として機能する。
弱教師付きテキスト分類のためのフレームワーク LIME を提案する。
弱教師付き分類とテキスト・エンターメントを組み合わせることで、両者の欠点を軽減できることが判明した。
論文 参考訳(メタデータ) (2022-10-13T04:28:28Z) - Many-Class Text Classification with Matching [65.74328417321738]
textbfText textbfClassification をテキストとラベル間のtextbfMatching 問題として定式化し,TCM というシンプルなフレームワークを提案する。
従来のテキスト分類手法と比較して、TCMは分類ラベルのきめ細かい意味情報を活用している。
論文 参考訳(メタデータ) (2022-05-23T15:51:19Z) - WRENCH: A Comprehensive Benchmark for Weak Supervision [66.82046201714766]
ベンチマークは、分類とシーケンスタグ付けのための22の異なる実世界のデータセットで構成されている。
ベンチマークプラットフォームとしての有効性を示すために、100以上のメソッドの変種に対して広範な比較を行うためにベンチマークを使用します。
論文 参考訳(メタデータ) (2021-09-23T13:47:16Z) - Cross-domain Speech Recognition with Unsupervised Character-level
Distribution Matching [60.8427677151492]
2つの領域における各文字間の微粒化適応を行うための文字レベルの分布マッチング手法であるCMatchを提案する。
Libri-Adaptデータセットを用いた実験の結果,提案手法はクロスデバイスとクロス環境の両方で14.39%,16.50%の単語誤り率(WER)を低減できることがわかった。
論文 参考訳(メタデータ) (2021-04-15T14:36:54Z) - Improving Pretrained Models for Zero-shot Multi-label Text
Classification through Reinforced Label Hierarchy Reasoning [18.531022315325583]
ラベル階層の探索は、ゼロショットのマルチラベルテキスト分類問題に取り組むための有望なアプローチとなっている。
トレーニング中の階層内のラベル間の相互依存性を促進するために,RLHR(Reinforced Label Hierarchy Reasoning)アプローチを提案する。
論文 参考訳(メタデータ) (2021-04-04T19:14:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。