論文の概要: LOPS: Learning Order Inspired Pseudo-Label Selection for Weakly
Supervised Text Classification
- arxiv url: http://arxiv.org/abs/2205.12528v1
- Date: Wed, 25 May 2022 06:46:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-27 11:30:18.371593
- Title: LOPS: Learning Order Inspired Pseudo-Label Selection for Weakly
Supervised Text Classification
- Title(参考訳): LOPS:弱教師付きテキスト分類のための擬似ラベル選択の学習順序
- Authors: Dheeraj Mekala, Chengyu Dong, Jingbo Shang
- Abstract要約: 擬似ラベルは性質上ノイズが多いため、正しいラベルを選択すると性能が向上する可能性がある。
本稿では,サンプルの学習順序を考慮に入れた新しい擬似ラベル選択手法LOPSを提案する。
LOPSは、既存の弱い教師付きテキスト分類手法のほとんどに対して、強力なパフォーマンスブーストプラグインと見なすことができる。
- 参考スコア(独自算出の注目度): 28.37907856670151
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Weakly supervised text classification methods typically train a deep neural
classifier based on pseudo-labels. The quality of pseudo-labels is crucial to
final performance but they are inevitably noisy due to their heuristic nature,
so selecting the correct ones has a huge potential for performance boost. One
straightforward solution is to select samples based on the softmax probability
scores in the neural classifier corresponding to their pseudo-labels. However,
we show through our experiments that such solutions are ineffective and
unstable due to the erroneously high-confidence predictions from poorly
calibrated models. Recent studies on the memorization effects of deep neural
models suggest that these models first memorize training samples with clean
labels and then those with noisy labels. Inspired by this observation, we
propose a novel pseudo-label selection method LOPS that takes learning order of
samples into consideration. We hypothesize that the learning order reflects the
probability of wrong annotation in terms of ranking, and therefore, propose to
select the samples that are learnt earlier. LOPS can be viewed as a strong
performance-boost plug-in to most of existing weakly-supervised text
classification methods, as confirmed in extensive experiments on four
real-world datasets.
- Abstract(参考訳): 弱い教師付きテキスト分類法は、通常擬似ラベルに基づいて深層神経分類器を訓練する。
擬似ラベルの品質は最終性能には不可欠であるが、ヒューリスティックな性質のため必然的にうるさいため、正しいラベルを選択することは性能向上に大きな可能性がある。
簡単な解の1つは、疑似ラベルに対応する神経分類器のソフトマックス確率スコアに基づいてサンプルを選択することである。
しかし, 過度な校正モデルによる誤った高信頼予測により, それらの解は非効率で不安定であることを示す。
深部神経モデルの記憶効果に関する最近の研究は、これらのモデルがまずクリーンラベルとノイズラベルのトレーニングサンプルを記憶していることを示唆している。
そこで本研究では,サンプルの学習順序を考慮に入れた新しい擬似ラベル選択手法LOPSを提案する。
そこで我々は,学習順序が間違ったアノテーションの確率をランキングで反映していると仮定し,早期に学習したサンプルを選択することを提案する。
LOPSは、4つの実世界のデータセットの広範な実験で確認されたように、既存の弱い教師付きテキスト分類手法のほとんどに対する強力なパフォーマンスブーストプラグインと見なすことができる。
関連論文リスト
- Foster Adaptivity and Balance in Learning with Noisy Labels [26.309508654960354]
我々はtextbfSelf-adaptivtextbfE とクラスバランスtextbfD 方式でラベルノイズに対処するための textbfSED という新しい手法を提案する。
平均教師モデルは、ノイズの多いサンプルのラベルを修正するために使用される。
また,検出した雑音に異なる重みを割り当てる自己適応型およびクラスバランスのサンプル再重み付け機構を提案する。
論文 参考訳(メタデータ) (2024-07-03T03:10:24Z) - Learning with Imbalanced Noisy Data by Preventing Bias in Sample
Selection [82.43311784594384]
実世界のデータセットには、ノイズの多いラベルだけでなく、クラス不均衡も含まれている。
不均衡なデータセットにおけるノイズラベルに対処する,単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-02-17T10:34:53Z) - Combating Label Noise With A General Surrogate Model For Sample
Selection [84.61367781175984]
本稿では,視覚言語サロゲートモデルCLIPを用いて,雑音の多いサンプルを自動的にフィルタリングする手法を提案する。
提案手法の有効性を実世界および合成ノイズデータセットで検証した。
論文 参考訳(メタデータ) (2023-10-16T14:43:27Z) - Label-Retrieval-Augmented Diffusion Models for Learning from Noisy
Labels [61.97359362447732]
ノイズの多いラベルからの学習は、実際のアプリケーションのための機械学習において、重要かつ長年にわたる問題である。
本稿では,生成モデルの観点からラベルノイズ問題を再構成する。
我々のモデルは、標準的な実世界のベンチマークデータセットで新しいSOTA(State-of-the-art)結果を達成する。
論文 参考訳(メタデータ) (2023-05-31T03:01:36Z) - SoftMatch: Addressing the Quantity-Quality Trade-off in Semi-supervised
Learning [101.86916775218403]
本稿では, サンプル重み付けを統一した定式化により, 一般的な擬似ラベル法を再検討する。
トレーニング中の擬似ラベルの量と質を両立させることでトレードオフを克服するSoftMatchを提案する。
実験では、画像、テキスト、不均衡な分類など、さまざまなベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-26T03:53:25Z) - Rethinking Precision of Pseudo Label: Test-Time Adaptation via
Complementary Learning [10.396596055773012]
本稿では,テスト時間適応性を高めるための新しい補完学習手法を提案する。
テスト時適応タスクでは、ソースドメインからの情報は通常利用できない。
我々は,相補ラベルのリスク関数がバニラ損失式と一致することを強調した。
論文 参考訳(メタデータ) (2023-01-15T03:36:33Z) - Combining Self-labeling with Selective Sampling [2.0305676256390934]
この研究は、選択的サンプリングシナリオにおける自己ラベル技術とアクティブラーニングを組み合わせたものである。
選択したクラスに対してバイアスを課すことにより,自己ラベルの適用がパフォーマンスに悪影響を及ぼすことを示す。
提案手法は,現在の選択的サンプリング手法と一致し,より良い結果が得られる。
論文 参考訳(メタデータ) (2023-01-11T11:58:45Z) - Learning to Detect Noisy Labels Using Model-Based Features [16.681748918518075]
Select-Enhanced Noisy label Training (SENT)を提案する。
SENTは、データ駆動の柔軟性を保ちながら、メタ学習に依存しない。
自己学習とラベルの破損の設定の下で、強力なベースラインよりもパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2022-12-28T10:12:13Z) - Filter and evolve: progressive pseudo label refining for semi-supervised
automatic speech recognition [5.735000563764309]
低品質の擬似ラベルは、決定境界を誤認し、性能を低下させる。
本稿では,低品質な擬似ラベルをフィルタする簡易かつ効果的な手法を提案する。
LibriSpeechの実験では、これらのフィルターされたサンプルにより、洗練されたモデルによりより正確な予測が得られることが示されている。
論文 参考訳(メタデータ) (2022-10-28T16:15:58Z) - Debiased Pseudo Labeling in Self-Training [77.83549261035277]
ディープニューラルネットワークは、大規模ラベル付きデータセットの助けを借りて、幅広いタスクで顕著なパフォーマンスを達成する。
ラベル付きデータの要求を軽減するため、ラベル付けされていないデータに擬似ラベルを付けることにより、学術と産業の両方で自己学習が広く使われている。
疑似ラベルの生成と利用を2つの独立した頭文字で分離するデバイアスドを提案する。
論文 参考訳(メタデータ) (2022-02-15T02:14:33Z) - Minimax Active Learning [61.729667575374606]
アクティブラーニングは、人間のアノテーションによってラベル付けされる最も代表的なサンプルをクエリすることによって、ラベル効率の高いアルゴリズムを開発することを目指している。
現在のアクティブラーニング技術は、最も不確実なサンプルを選択するためにモデルの不確実性に頼るか、クラスタリングを使うか、最も多様なラベルのないサンプルを選択するために再構築する。
我々は,不確実性と多様性を両立させる半教師付きミニマックスエントロピーに基づく能動学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-12-18T19:03:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。