論文の概要: An analysis of over-sampling labeled data in semi-supervised learning
with FixMatch
- arxiv url: http://arxiv.org/abs/2201.00604v1
- Date: Mon, 3 Jan 2022 12:22:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-04 17:14:49.103467
- Title: An analysis of over-sampling labeled data in semi-supervised learning
with FixMatch
- Title(参考訳): fixmatchを用いた半教師付き学習におけるラベル付きデータのオーバーサンプリング分析
- Authors: Miquel Mart\'i i Rabad\'an, Sebastian Bujwid, Alessandro Pieropan,
Hossein Azizpour, Atsuto Maki
- Abstract要約: ほとんどの半教師付き学習手法は、ミニバッチを訓練する際にラベルをオーバーサンプルする。
本稿では,この実践が学習と方法を改善するかどうかを考察する。
ラベル付けの有無に関わらず、トレーニングデータから各ミニバッチを均一にサンプリングする別の設定と比較する。
- 参考スコア(独自算出の注目度): 66.34968300128631
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most semi-supervised learning methods over-sample labeled data when
constructing training mini-batches. This paper studies whether this common
practice improves learning and how. We compare it to an alternative setting
where each mini-batch is uniformly sampled from all the training data, labeled
or not, which greatly reduces direct supervision from true labels in typical
low-label regimes. However, this simpler setting can also be seen as more
general and even necessary in multi-task problems where over-sampling labeled
data would become intractable. Our experiments on semi-supervised CIFAR-10
image classification using FixMatch show a performance drop when using the
uniform sampling approach which diminishes when the amount of labeled data or
the training time increases. Further, we analyse the training dynamics to
understand how over-sampling of labeled data compares to uniform sampling. Our
main finding is that over-sampling is especially beneficial early in training
but gets less important in the later stages when more pseudo-labels become
correct. Nevertheless, we also find that keeping some true labels remains
important to avoid the accumulation of confirmation errors from incorrect
pseudo-labels.
- Abstract(参考訳): ほとんどの半教師付き学習手法は、ミニバッチを訓練する際にラベルをオーバーサンプルする。
本稿では,この実践が学習と方法を改善するかどうかを考察する。
各ミニバッチは、ラベル付けの有無に関わらず、トレーニングデータから一様にサンプリングされ、典型的な低ラベル方式における真のラベルからの直接的な監督を大幅に削減する、という代替設定と比較する。
しかし、この単純な設定は、ラベル付きデータのオーバーサンプリングが困難になるマルチタスク問題において、より一般的で必要であると見なすこともできる。
FixMatch を用いた半教師付き CIFAR-10 画像分類実験は,ラベル付きデータの量やトレーニング時間の増加に伴って低下する一様サンプリング手法を用いて,性能低下を示す。
さらに,ラベル付きデータのオーバーサンプリングと一様サンプリングの比較を理解するために,トレーニングダイナミクスを分析した。
我々の主な発見は、オーバーサンプリングはトレーニングの初期段階では特に有益であるが、偽ラベルがより正しくなると、後期では重要度が低下することです。
それにもかかわらず、偽ラベルの確認誤りの蓄積を避けるために、真のラベルを保持することは依然として重要である。
関連論文リスト
- Learning with Instance-Dependent Noisy Labels by Anchor Hallucination and Hard Sample Label Correction [12.317154103998433]
従来のNoisy-Label Learning (NLL) 手法は、トレーニングサンプルの損失分布に基づいて、トレーニングデータをクリーンでノイズの多いセットに分類する。
提案手法は, 清潔さと難易度と難易度を明確に区別する。
修正されたハードサンプルと簡単なサンプルは、その後の半教師付きトレーニングでラベル付きデータとして使用される。
論文 参考訳(メタデータ) (2024-07-10T03:00:14Z) - Multi-Label Adaptive Batch Selection by Highlighting Hard and Imbalanced Samples [9.360376286221943]
本稿では,多ラベル深層学習モデルに適した適応バッチ選択アルゴリズムを提案する。
提案手法は, ランダムなバッチ選択よりも高速に収束し, 性能が向上する。
論文 参考訳(メタデータ) (2024-03-27T02:00:18Z) - Virtual Category Learning: A Semi-Supervised Learning Method for Dense
Prediction with Extremely Limited Labels [63.16824565919966]
本稿では,ラベルの修正を伴わずに,混乱したサンプルを積極的に使用することを提案する。
仮想カテゴリー(VC)は、モデルの最適化に安全に貢献できるように、各混乱したサンプルに割り当てられる。
私たちの興味深い発見は、密集した視覚タスクにおけるVC学習の利用に注目しています。
論文 参考訳(メタデータ) (2023-12-02T16:23:52Z) - One-bit Supervision for Image Classification: Problem, Solution, and
Beyond [114.95815360508395]
本稿では,ラベルの少ない新しい学習環境である,画像分類のための1ビット監督について述べる。
多段階学習パラダイムを提案し、負ラベル抑圧を半教師付き半教師付き学習アルゴリズムに組み込む。
複数のベンチマークにおいて、提案手法の学習効率は、フルビットの半教師付き監視手法よりも優れている。
論文 参考訳(メタデータ) (2023-11-26T07:39:00Z) - Something for (almost) nothing: Improving deep ensemble calibration
using unlabeled data [4.503508912578133]
本研究では,未ラベルデータの存在下での訓練データ体制における深層アンサンブルの校正を改善する手法を提案する。
ラベルのない集合が与えられた場合、ラベルのない各データポイントに対して、ランダムに選択された異なるラベルを各アンサンブルメンバーに適合させる。
論文 参考訳(メタデータ) (2023-10-04T15:21:54Z) - Late Stopping: Avoiding Confidently Learning from Mislabeled Examples [61.00103151680946]
そこで本研究では,DNNの長期学習プロセスを通じて,本質的な頑健な学習能力を生かした新しいフレームワークであるLatlas Stoppingを提案する。
誤ラベルとクリーンな例は、それらが一貫して正しく分類されるために必要なエポックの数に相違があることを実証的に観察する。
ベンチマークシミュレーションと実世界のノイズデータセットによる実験結果から,提案手法は最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-26T12:43:25Z) - Rethinking Re-Sampling in Imbalanced Semi-Supervised Learning [26.069534478556527]
Semi-Supervised Learning (SSL)はラベル付きデータが不足している場合にラベル付きデータを利用する強力な能力を示している。
ほとんどのSSLアルゴリズムは、クラスディストリビューションがトレーニングセットとテストセットの両方でバランスが取れているという仮定の下で動作します。
本研究では,クラス不均衡データに対するSSLの問題について考察する。
論文 参考訳(メタデータ) (2021-06-01T03:58:18Z) - Disentangling Sampling and Labeling Bias for Learning in Large-Output
Spaces [64.23172847182109]
異なる負のサンプリングスキームが支配的ラベルと稀なラベルで暗黙的にトレードオフパフォーマンスを示す。
すべてのラベルのサブセットで作業することで生じるサンプリングバイアスと、ラベルの不均衡に起因するデータ固有のラベルバイアスの両方に明示的に対処する統一された手段を提供する。
論文 参考訳(メタデータ) (2021-05-12T15:40:13Z) - One-bit Supervision for Image Classification [121.87598671087494]
1ビットの監視は、不完全なアノテーションから学ぶための新しい設定である。
負ラベル抑圧を既成の半教師付き学習アルゴリズムに組み込んだ多段階学習パラダイムを提案する。
論文 参考訳(メタデータ) (2020-09-14T03:06:23Z) - Rethinking Curriculum Learning with Incremental Labels and Adaptive
Compensation [35.593312267921256]
人間と同様に、ディープネットワークは、サンプルが組織化され、意味のある順序やカリキュラムで導入されたときに、よりよく学習することが示されている。
インクリメンタルラベルと適応補償を用いた学習(LILAC)を提案する。
論文 参考訳(メタデータ) (2020-01-13T21:00:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。