論文の概要: Seed Word Selection for Weakly-Supervised Text Classification with
Unsupervised Error Estimation
- arxiv url: http://arxiv.org/abs/2104.09765v1
- Date: Tue, 20 Apr 2021 05:10:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-21 23:48:57.404364
- Title: Seed Word Selection for Weakly-Supervised Text Classification with
Unsupervised Error Estimation
- Title(参考訳): 教師なし誤り推定を用いた弱教師付きテキスト分類のためのシードワード選択
- Authors: Yiping Jin, Akshay Bhatia, Dittaya Wanvarie
- Abstract要約: 弱い教師付きテキスト分類は、少数のユーザーが提供するシード単語からテキスト分類を誘導することを目的としている。
そこで本研究では,まず,カテゴリ名に関連付けられた候補種単語を抽出し,専門家による種単語の抽出の必要性を除去する。
次に、個々の候補種単語で中間モデルを訓練する。
最終シードワードセットには、推定誤差率が最低となるシードワードが追加されます。
- 参考スコア(独自算出の注目度): 0.2062593640149624
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Weakly-supervised text classification aims to induce text classifiers from
only a few user-provided seed words. The vast majority of previous work assumes
high-quality seed words are given. However, the expert-annotated seed words are
sometimes non-trivial to come up with. Furthermore, in the weakly-supervised
learning setting, we do not have any labeled document to measure the seed
words' efficacy, making the seed word selection process "a walk in the dark".
In this work, we remove the need for expert-curated seed words by first mining
(noisy) candidate seed words associated with the category names. We then train
interim models with individual candidate seed words. Lastly, we estimate the
interim models' error rate in an unsupervised manner. The seed words that yield
the lowest estimated error rates are added to the final seed word set. A
comprehensive evaluation of six binary classification tasks on four popular
datasets demonstrates that the proposed method outperforms a baseline using
only category name seed words and obtained comparable performance as a
counterpart using expert-annotated seed words.
- Abstract(参考訳): 弱い教師付きテキスト分類は、少数のユーザーが提供するシード単語からテキスト分類を誘導することを目的としている。
以前の作品の大多数は、高品質のシード語が与えられると仮定している。
しかし、専門家がアノテートしたシードワードを思いつくのは簡単ではない。
さらに, 弱教師付き学習設定では, 種単語の有効性を計測するためのラベル付き文書は存在せず, 種単語選択過程を"a walk in the dark"とした。
本研究では,カテゴリー名に関連付けられた候補種単語を最初にマイニングすることで,専門家による種単語の抽出の必要性を解消する。
次に、個々の候補種単語で中間モデルを訓練する。
最後に,中間モデルの誤差率を教師なしで推定する。
最終シードワードセットには、最小推定誤差率となるシードワードが加算される。
4つの一般的なデータセットに対する6つのバイナリ分類タスクの総合評価により,提案手法はカテゴリ名シードワードのみを用いてベースラインを上回り,専門家注釈付きシードワードと同等の性能を得た。
関連論文リスト
- An Evaluation of Sindhi Word Embedding in Semantic Analogies and Downstream Tasks [2.3624125155742064]
我々は,複数のWebリソースから6100万以上の単語をクロールする新しい単語埋め込み型コーパスを提案する。
クロールデータから不要なテキストをフィルタリングするための前処理パイプラインを設計する。
クリーニングされた語彙は、最先端の連続バグ・オブ・ワード、スキップグラム、GloVeワード埋め込みアルゴリズムに供給される。
論文 参考訳(メタデータ) (2024-08-28T11:36:29Z) - A Self-enhancement Multitask Framework for Unsupervised Aspect Category
Detection [0.24578723416255754]
この研究は、少数のシードワードを用いた教師なしアスペクトカテゴリー検出の問題に対処する。
本稿では,初期シード語の品質を自動的に向上し,高品質な文章を訓練用として選択するフレームワークを提案する。
さらに,Aspect Term extract と Aspect Term Polarity を併用してAspect Term Detection を訓練し,さらなる性能向上を図る。
論文 参考訳(メタデータ) (2023-11-16T09:35:24Z) - Debiasing Made State-of-the-art: Revisiting the Simple Seed-based Weak
Supervision for Text Classification [46.647235548101044]
擬似ラベルを生成する最も単純な方法であるシードマッチング法を再検討する。
種マッチングの限界性能は, 単純な種マッチ規則によって誘導されるラベルバイアスが原因であることが示唆された。
入力テキスト中の単語トークンを高い削除率でランダムに削除することを提案する。
論文 参考訳(メタデータ) (2023-05-24T06:45:33Z) - CCPrefix: Counterfactual Contrastive Prefix-Tuning for Many-Class
Classification [57.62886091828512]
多クラス分類のための新しいプレフィックスチューニング手法であるCCPrefixを提案する。
基本的に、ラベル空間における実数対から派生したインスタンス依存の軟式接頭辞は、多クラス分類における言語動詞化を補完するために利用される。
論文 参考訳(メタデータ) (2022-11-11T03:45:59Z) - LIME: Weakly-Supervised Text Classification Without Seeds [1.2691047660244335]
弱教師付きテキスト分類では、ラベル名のみが監督の源として機能する。
弱教師付きテキスト分類のためのフレームワーク LIME を提案する。
弱教師付き分類とテキスト・エンターメントを組み合わせることで、両者の欠点を軽減できることが判明した。
論文 参考訳(メタデータ) (2022-10-13T04:28:28Z) - Weakly Supervised Prototype Topic Model with Discriminative Seed Words:
Modifying the Category Prior by Self-exploring Supervised Signals [19.706073428061107]
データレステキスト分類は、弱い教師付き学習の新しいパラダイムである。
本稿では,先行するカテゴリの新規な定式化を提案する。
WSPTM(Weakly Supervised Prototype Topic Model)を提案する。
論文 参考訳(メタデータ) (2021-11-20T00:00:56Z) - UCPhrase: Unsupervised Context-aware Quality Phrase Tagging [63.86606855524567]
UCPhraseは、教師なしの文脈対応のフレーズタグである。
我々は,一貫した単語列から,高品質なフレーズを銀のラベルとして表現する。
我々の設計は、最先端の事前訓練、教師なし、遠隔管理の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-05-28T19:44:24Z) - SemGloVe: Semantic Co-occurrences for GloVe from BERT [55.420035541274444]
GloVeは単語共起行列からの統計情報を利用して単語埋め込みを学ぶ。
BERTから静的なGloVeワード埋め込みに意味的共起を蒸留するSemGloVeを提案します。
論文 参考訳(メタデータ) (2020-12-30T15:38:26Z) - MASKER: Masked Keyword Regularization for Reliable Text Classification [73.90326322794803]
文脈に基づく予測を容易にする微調整手法であるマスク付きキーワード正規化(MASKER)を提案する。
maskerはモデルを規則化し、他の単語からキーワードを再構築し、十分な文脈なしに低信頼の予測を行う。
分類精度を低下させることなくOOD検出とクロスドメインの一般化を改善したMASKERを提案する。
論文 参考訳(メタデータ) (2020-12-17T04:54:16Z) - SST-BERT at SemEval-2020 Task 1: Semantic Shift Tracing by Clustering in
BERT-based Embedding Spaces [63.17308641484404]
本稿では,異なる単語の意味の表現として,各単語の異なる事象のクラスタを特定することを提案する。
得られたクラスタの分解は、自然に4つのターゲット言語において、各ターゲットワードごとの意味的シフトのレベルを定量化することができる。
当社のアプローチは,提供されたすべてのSemEvalベースラインを抜いて,個別(言語毎)と全体の両方で良好に動作します。
論文 参考訳(メタデータ) (2020-10-02T08:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。