論文の概要: LST: Lexicon-Guided Self-Training for Few-Shot Text Classification
- arxiv url: http://arxiv.org/abs/2202.02566v1
- Date: Sat, 5 Feb 2022 14:33:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-08 16:08:51.133493
- Title: LST: Lexicon-Guided Self-Training for Few-Shot Text Classification
- Title(参考訳): LST:Few-Shotテキスト分類のためのLexicon-Guided Self-Training
- Authors: Hazel Kim, Jaeman Son, Yo-Sub Han
- Abstract要約: LSTは,レキシコンを用いて擬似ラベル機構を誘導する簡単な自己学習手法である。
5つのベンチマークデータセットに対して、クラス毎に30のラベル付きサンプルに対して、この単純で巧妙な語彙知識が1.0-2.0%のパフォーマンスを達成することを実証した。
- 参考スコア(独自算出の注目度): 3.7277082975620806
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Self-training provides an effective means of using an extremely small amount
of labeled data to create pseudo-labels for unlabeled data. Many
state-of-the-art self-training approaches hinge on different regularization
methods to prevent overfitting and improve generalization. Yet they still rely
heavily on predictions initially trained with the limited labeled data as
pseudo-labels and are likely to put overconfident label belief on erroneous
classes depending on the first prediction. To tackle this issue in text
classification, we introduce LST, a simple self-training method that uses a
lexicon to guide the pseudo-labeling mechanism in a linguistically-enriched
manner. We consistently refine the lexicon by predicting confidence of the
unseen data to teach pseudo-labels better in the training iterations. We
demonstrate that this simple yet well-crafted lexical knowledge achieves
1.0-2.0% better performance on 30 labeled samples per class for five benchmark
datasets than the current state-of-the-art approaches.
- Abstract(参考訳): 自己学習は、非常に少ない量のラベル付きデータを使用してラベルなしデータのための擬似ラベルを作成する効果的な手段を提供する。
多くの最先端の自己学習アプローチは、オーバーフィッティングを防止し一般化を改善するために異なる正規化手法にかかっている。
しかし、当初は限定ラベル付きデータを擬似ラベルとしてトレーニングした予測に大きく依存しており、最初の予測によっては誤ったクラスに過信なラベルの信条を課す可能性がある。
テキスト分類においてこの問題に取り組むために,レキシコンを用いて擬似ラベル機構を言語的に豊かに導くシンプルな自己学習法lstを提案する。
未確認データの信頼性を予測し、トレーニングイテレーションにおいて擬似ラベルをより良く教えることで、一貫して語彙を洗練します。
この単純で巧妙な語彙知識は、現在の最先端のアプローチよりも5つのベンチマークデータセットに対して、クラス毎に30のラベル付きサンプルに対して1.0-2.0%の性能を達成することを実証した。
関連論文リスト
- Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - Maximizing Data Efficiency for Cross-Lingual TTS Adaptation by
Self-Supervised Representation Mixing and Embedding Initialization [57.38123229553157]
本稿では,テキスト音声合成システムにおける言語適応のための効果的な伝達学習フレームワークを提案する。
ラベル付きおよびラベルなしの最小データを用いて言語適応を実現することに注力する。
実験結果から,本フレームワークは,ラベル付きデータの4つの発声とラベル付きデータの15分で,未知の言語で理解不能な音声を合成できることが示唆された。
論文 参考訳(メタデータ) (2024-01-23T21:55:34Z) - Prompt-based Pseudo-labeling Strategy for Sample-Efficient Semi-Supervised Extractive Summarization [12.582774521907227]
半教師付き学習(SSL)は、ラベル付きデータが不足し、ラベルなしデータが豊富であるシナリオで広く使われているテクニックである。
標準SSLメソッドは、まず分類モデルをトレーニングし、次に分類器の信頼性値を使用して擬似ラベルを選択するために教師-学生パラダイムに従う。
より正確な擬似ラベルでラベルなしのサンプルを抽出するLLMを用いたプロンプトベースの擬似ラベル方式を提案する。
論文 参考訳(メタデータ) (2023-11-16T04:29:41Z) - Boosting Semi-Supervised Learning by bridging high and low-confidence
predictions [4.18804572788063]
Pseudo-labelingは半教師あり学習(SSL)において重要な技術である
ReFixMatchと呼ばれる新しい手法を提案し、これはトレーニング中にラベルなしのデータをすべて活用することを目的としている。
論文 参考訳(メタデータ) (2023-08-15T00:27:18Z) - Doubly Robust Self-Training [46.168395767948965]
本稿では,新しい半教師付きアルゴリズムである二重頑健な自己学習を導入する。
通常の自己学習ベースラインよりも2倍頑健な損失の優位性を実証する。
論文 参考訳(メタデータ) (2023-06-01T00:57:16Z) - Boosting Semi-Supervised Learning with Contrastive Complementary
Labeling [11.851898765002334]
一般的なアプローチは擬似ラベル作成であり、信頼度の高いラベル付きデータに対してのみ擬似ラベルを生成する。
信頼度が低い擬似ラベルを持つデータは、トレーニングプロセスにまだ有効である可能性があることを強調する。
そこで本研究では,多数の信頼な負対を構成する新しいコントラスト補完ラベリング法を提案する。
論文 参考訳(メタデータ) (2022-12-13T15:25:49Z) - Label Semantic Aware Pre-training for Few-shot Text Classification [53.80908620663974]
テキスト分類システムの一般化とデータ効率を向上させるために,ラベルセマンティック・アウェア事前学習(LSAP)を提案する。
LSAPは、ラベル付き文の2次事前学習を行うことにより、ラベルセマンティクスを事前学習された生成モデル(T5)に組み込む。
論文 参考訳(メタデータ) (2022-04-14T17:33:34Z) - Debiased Pseudo Labeling in Self-Training [77.83549261035277]
ディープニューラルネットワークは、大規模ラベル付きデータセットの助けを借りて、幅広いタスクで顕著なパフォーマンスを達成する。
ラベル付きデータの要求を軽減するため、ラベル付けされていないデータに擬似ラベルを付けることにより、学術と産業の両方で自己学習が広く使われている。
疑似ラベルの生成と利用を2つの独立した頭文字で分離するデバイアスドを提案する。
論文 参考訳(メタデータ) (2022-02-15T02:14:33Z) - In Defense of Pseudo-Labeling: An Uncertainty-Aware Pseudo-label
Selection Framework for Semi-Supervised Learning [53.1047775185362]
Pseudo-labeling (PL) は一般的な SSL アプローチで、この制約はありませんが、当初の処方では比較的不十分です。
PLは不整合モデルからの誤った高い信頼度予測により性能が低下していると論じる。
そこで本研究では,疑似ラベリング精度を向上させるための不確実性認識型擬似ラベル選択(ups)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-15T23:29:57Z) - Uncertainty-aware Self-training for Text Classification with Few Labels [54.13279574908808]
本研究は,アノテーションのボトルネックを軽減するための半教師あり学習手法の1つとして,自己学習について研究する。
本稿では,基礎となるニューラルネットワークの不確実性推定を取り入れて,自己学習を改善する手法を提案する。
本手法では,クラス毎に20~30個のラベル付きサンプルをトレーニングに利用し,完全教師付き事前学習言語モデルの3%以内で検証を行う。
論文 参考訳(メタデータ) (2020-06-27T08:13:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。