論文の概要: Debiasing Made State-of-the-art: Revisiting the Simple Seed-based Weak
Supervision for Text Classification
- arxiv url: http://arxiv.org/abs/2305.14794v2
- Date: Mon, 23 Oct 2023 11:22:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 11:33:03.822489
- Title: Debiasing Made State-of-the-art: Revisiting the Simple Seed-based Weak
Supervision for Text Classification
- Title(参考訳): Debiasing made State-of-the-art: Revising the Simple Seed-based Weak Supervision for Text Classification
- Authors: Chengyu Dong, Zihan Wang, Jingbo Shang
- Abstract要約: 擬似ラベルを生成する最も単純な方法であるシードマッチング法を再検討する。
種マッチングの限界性能は, 単純な種マッチ規則によって誘導されるラベルバイアスが原因であることが示唆された。
入力テキスト中の単語トークンを高い削除率でランダムに削除することを提案する。
- 参考スコア(独自算出の注目度): 46.647235548101044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in weakly supervised text classification mostly focus on
designing sophisticated methods to turn high-level human heuristics into
quality pseudo-labels. In this paper, we revisit the seed matching-based
method, which is arguably the simplest way to generate pseudo-labels, and show
that its power was greatly underestimated. We show that the limited performance
of seed matching is largely due to the label bias injected by the simple
seed-match rule, which prevents the classifier from learning reliable
confidence for selecting high-quality pseudo-labels. Interestingly, simply
deleting the seed words present in the matched input texts can mitigate the
label bias and help learn better confidence. Subsequently, the performance
achieved by seed matching can be improved significantly, making it on par with
or even better than the state-of-the-art. Furthermore, to handle the case when
the seed words are not made known, we propose to simply delete the word tokens
in the input text randomly with a high deletion ratio. Remarkably, seed
matching equipped with this random deletion method can often achieve even
better performance than that with seed deletion.
- Abstract(参考訳): 弱教師付きテキスト分類の最近の進歩は、高レベルの人間のヒューリスティックを質の高い擬似ラベルに変換する洗練された手法の設計に主に焦点をあてている。
本稿では,疑似ラベルを生成する最も簡単な方法であるシードマッチングに基づく手法を再検討し,そのパワーが極めて過小評価されたことを示す。
シードマッチングの限定的な性能は,単純なシードマッチングルールによるラベルバイアスによるものであり,高品質な擬似ラベル選択に対する信頼性の学習を防止できることを示した。
興味深いことに、マッチした入力テキストにあるシードワードを削除するだけでラベルバイアスが軽減され、信頼性が向上する。
その後、シードマッチングによって達成されるパフォーマンスが大幅に向上し、最先端と同等、あるいはそれ以上に向上することができる。
また、シード語が知られていない場合の処理には、入力テキスト中の単語トークンをランダムに削除し、削除率を高くすることを提案する。
驚くべきことに、このランダムな削除方法を備えたシードマッチングは、しばしば、シード削除よりも優れた性能を達成できる。
関連論文リスト
- HQA-Attack: Toward High Quality Black-Box Hard-Label Adversarial Attack
on Text [40.58680960214544]
テキストに対するブラックボックスのハードラベルの敵攻撃は、実用的で困難な作業である。
そこで我々は,HQA-Attack というブラックボックス・ハードラベル攻撃シナリオの下で,高品質な敵の例を生成するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-02T10:06:43Z) - Shrinking Class Space for Enhanced Certainty in Semi-Supervised Learning [59.44422468242455]
そこで我々はShrinkMatchと呼ばれる新しい手法を提案し、不確実なサンプルを学習する。
それぞれの不確実なサンプルに対して、元の Top-1 クラスを単に含むスランク類空間を適応的に求める。
次に、スランク空間における強と弱に強化された2つのサンプル間の整合正則化を課し、識別的表現を試みます。
論文 参考訳(メタデータ) (2023-08-13T14:05:24Z) - Class-Distribution-Aware Pseudo Labeling for Semi-Supervised Multi-Label
Learning [97.88458953075205]
Pseudo-labelingは、ラベルなしデータを利用するための人気で効果的なアプローチとして登場した。
本稿では,クラスアウェアの擬似ラベル処理を行うCAP(Class-Aware Pseudo-Labeling)という新しい手法を提案する。
論文 参考訳(メタデータ) (2023-05-04T12:52:18Z) - SoftMatch: Addressing the Quantity-Quality Trade-off in Semi-supervised
Learning [101.86916775218403]
本稿では, サンプル重み付けを統一した定式化により, 一般的な擬似ラベル法を再検討する。
トレーニング中の擬似ラベルの量と質を両立させることでトレードオフを克服するSoftMatchを提案する。
実験では、画像、テキスト、不均衡な分類など、さまざまなベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-26T03:53:25Z) - Neighbour Consistency Guided Pseudo-Label Refinement for Unsupervised
Person Re-Identification [80.98291772215154]
教師なしの人物再識別(ReID)は、アノテーションを使わずに人物検索のための識別的アイデンティティの特徴を学習することを目的としている。
近年の進歩はクラスタリングに基づく擬似ラベルを活用することで実現されている。
本稿では, Pseudo Label Refinement フレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-30T09:39:57Z) - LIME: Weakly-Supervised Text Classification Without Seeds [1.2691047660244335]
弱教師付きテキスト分類では、ラベル名のみが監督の源として機能する。
弱教師付きテキスト分類のためのフレームワーク LIME を提案する。
弱教師付き分類とテキスト・エンターメントを組み合わせることで、両者の欠点を軽減できることが判明した。
論文 参考訳(メタデータ) (2022-10-13T04:28:28Z) - Seq-UPS: Sequential Uncertainty-aware Pseudo-label Selection for
Semi-Supervised Text Recognition [21.583569162994277]
最も一般的なSSLアプローチの1つは擬似ラベル(PL)である。
PL法はノイズによって著しく劣化し、ノイズの多いラベルに過度に適合する傾向がある。
テキスト認識のための擬似ラベル生成と不確実性に基づくデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2022-08-31T02:21:02Z) - LST: Lexicon-Guided Self-Training for Few-Shot Text Classification [3.7277082975620806]
LSTは,レキシコンを用いて擬似ラベル機構を誘導する簡単な自己学習手法である。
5つのベンチマークデータセットに対して、クラス毎に30のラベル付きサンプルに対して、この単純で巧妙な語彙知識が1.0-2.0%のパフォーマンスを達成することを実証した。
論文 参考訳(メタデータ) (2022-02-05T14:33:12Z) - SparseDet: Improving Sparsely Annotated Object Detection with
Pseudo-positive Mining [76.95808270536318]
Pseudo- positive mining を用いてラベル付き地域とラベルなし地域を分離するエンド・ツー・エンドシステムを提案する。
ラベル付き領域は通常通り処理されるが、ラベルなし領域の処理には自己教師付き学習が使用される。
我々は,PASCAL-VOCとCOCOデータセットの5つの分割に対して,最先端の性能を達成するための徹底的な実験を行った。
論文 参考訳(メタデータ) (2022-01-12T18:57:04Z) - Seed Word Selection for Weakly-Supervised Text Classification with
Unsupervised Error Estimation [0.2062593640149624]
弱い教師付きテキスト分類は、少数のユーザーが提供するシード単語からテキスト分類を誘導することを目的としている。
そこで本研究では,まず,カテゴリ名に関連付けられた候補種単語を抽出し,専門家による種単語の抽出の必要性を除去する。
次に、個々の候補種単語で中間モデルを訓練する。
最終シードワードセットには、推定誤差率が最低となるシードワードが追加されます。
論文 参考訳(メタデータ) (2021-04-20T05:10:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。