論文の概要: Boosting Semi-Supervised Learning by bridging high and low-confidence
predictions
- arxiv url: http://arxiv.org/abs/2308.07509v1
- Date: Tue, 15 Aug 2023 00:27:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-16 14:18:48.962435
- Title: Boosting Semi-Supervised Learning by bridging high and low-confidence
predictions
- Title(参考訳): 高信頼・低信頼予測による半監督学習の促進
- Authors: Khanh-Binh Nguyen, Joon-Sung Yang
- Abstract要約: Pseudo-labelingは半教師あり学習(SSL)において重要な技術である
ReFixMatchと呼ばれる新しい手法を提案し、これはトレーニング中にラベルなしのデータをすべて活用することを目的としている。
- 参考スコア(独自算出の注目度): 4.18804572788063
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Pseudo-labeling is a crucial technique in semi-supervised learning (SSL),
where artificial labels are generated for unlabeled data by a trained model,
allowing for the simultaneous training of labeled and unlabeled data in a
supervised setting. However, several studies have identified three main issues
with pseudo-labeling-based approaches. Firstly, these methods heavily rely on
predictions from the trained model, which may not always be accurate, leading
to a confirmation bias problem. Secondly, the trained model may be overfitted
to easy-to-learn examples, ignoring hard-to-learn ones, resulting in the
\textit{"Matthew effect"} where the already strong become stronger and the weak
weaker. Thirdly, most of the low-confidence predictions of unlabeled data are
discarded due to the use of a high threshold, leading to an underutilization of
unlabeled data during training. To address these issues, we propose a new
method called ReFixMatch, which aims to utilize all of the unlabeled data
during training, thus improving the generalizability of the model and
performance on SSL benchmarks. Notably, ReFixMatch achieves 41.05\% top-1
accuracy with 100k labeled examples on ImageNet, outperforming the baseline
FixMatch and current state-of-the-art methods.
- Abstract(参考訳): Pseudo-labelingは半教師付き学習(SSL)において重要なテクニックであり、トレーニングされたモデルによってラベルなしデータに対して人工ラベルを生成する。
しかし、いくつかの研究は疑似ラベルに基づくアプローチの3つの主要な問題を特定している。
第一に、これらの手法はトレーニングされたモデルからの予測に大きく依存しており、必ずしも正確とは限らないため、確認バイアス問題を引き起こす。
第二に、訓練されたモデルは難解な例に過度に適合し、難解な例を無視して、既に強いものが強くなり弱くなる「textit{"Matthew effect"」となる。
第3に、ラベルなしデータの低信頼予測のほとんどは、高いしきい値の使用によって破棄され、トレーニング中のラベルなしデータの未利用につながる。
これらの問題に対処するために,トレーニング中にラベルのないデータをすべて活用し,モデルの一般化性とsslベンチマークの性能を向上させることを目的とした,refixmatchと呼ばれる新しい手法を提案する。
特に、ReFixMatchはImageNet上の100kラベルの例で41.05\%のトップ-1の精度を実現し、ベースラインのFixMatchと現在の最先端メソッドを上回っている。
関連論文リスト
- Learning in the Wild: Towards Leveraging Unlabeled Data for Effectively
Tuning Pre-trained Code Models [38.7352992942213]
我々は,大規模な未ラベルデータセットを用いた事前学習型コードモデルを改善するために,HINTという新しいアプローチを提案する。
HINTには、HybrId擬似ラベル付きデータ選択とノイズ耐性トレーニングの2つの主要なモジュールが含まれている。
実験の結果、HINTはタスク固有の方法でラベル付けされていないデータをうまく活用できることがわかった。
論文 参考訳(メタデータ) (2024-01-02T06:39:00Z) - FlatMatch: Bridging Labeled Data and Unlabeled Data with Cross-Sharpness
for Semi-Supervised Learning [73.13448439554497]
Semi-Supervised Learning (SSL) は、ラベル付きデータが極めて少ない豊富なラベル付きデータを活用する効果的な方法である。
ほとんどのSSLメソッドは、通常、異なるデータ変換間のインスタンス単位の一貫性に基づいている。
本研究では,2つのデータセット間の一貫した学習性能を確保するために,クロスシャープネス尺度を最小化するFlatMatchを提案する。
論文 参考訳(メタデータ) (2023-10-25T06:57:59Z) - SoftMatch: Addressing the Quantity-Quality Trade-off in Semi-supervised
Learning [101.86916775218403]
本稿では, サンプル重み付けを統一した定式化により, 一般的な擬似ラベル法を再検討する。
トレーニング中の擬似ラベルの量と質を両立させることでトレードオフを克服するSoftMatchを提案する。
実験では、画像、テキスト、不均衡な分類など、さまざまなベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-26T03:53:25Z) - Pseudo-Label Noise Suppression Techniques for Semi-Supervised Semantic
Segmentation [21.163070161951868]
半消費学習(SSL)は、教師なしデータをトレーニングに組み込むことで、大きなラベル付きデータセットの必要性を減らすことができる。
現在のSSLアプローチでは、初期教師付きトレーニングモデルを使用して、擬似ラベルと呼ばれる未ラベル画像の予測を生成する。
擬似ラベルノイズと誤りを3つのメカニズムで制御する。
論文 参考訳(メタデータ) (2022-10-19T09:46:27Z) - Debiased Pseudo Labeling in Self-Training [77.83549261035277]
ディープニューラルネットワークは、大規模ラベル付きデータセットの助けを借りて、幅広いタスクで顕著なパフォーマンスを達成する。
ラベル付きデータの要求を軽減するため、ラベル付けされていないデータに擬似ラベルを付けることにより、学術と産業の両方で自己学習が広く使われている。
疑似ラベルの生成と利用を2つの独立した頭文字で分離するデバイアスドを提案する。
論文 参考訳(メタデータ) (2022-02-15T02:14:33Z) - Dash: Semi-Supervised Learning with Dynamic Thresholding [72.74339790209531]
我々は、ラベルのない例を使ってモデルをトレーニングする半教師付き学習(SSL)アプローチを提案する。
提案手法であるDashは、ラベルなしデータ選択の観点から適応性を享受する。
論文 参考訳(メタデータ) (2021-09-01T23:52:29Z) - In Defense of Pseudo-Labeling: An Uncertainty-Aware Pseudo-label
Selection Framework for Semi-Supervised Learning [53.1047775185362]
Pseudo-labeling (PL) は一般的な SSL アプローチで、この制約はありませんが、当初の処方では比較的不十分です。
PLは不整合モデルからの誤った高い信頼度予測により性能が低下していると論じる。
そこで本研究では,疑似ラベリング精度を向上させるための不確実性認識型擬似ラベル選択(ups)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-15T23:29:57Z) - Uncertainty-aware Self-training for Text Classification with Few Labels [54.13279574908808]
本研究は,アノテーションのボトルネックを軽減するための半教師あり学習手法の1つとして,自己学習について研究する。
本稿では,基礎となるニューラルネットワークの不確実性推定を取り入れて,自己学習を改善する手法を提案する。
本手法では,クラス毎に20~30個のラベル付きサンプルをトレーニングに利用し,完全教師付き事前学習言語モデルの3%以内で検証を行う。
論文 参考訳(メタデータ) (2020-06-27T08:13:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。