論文の概要: Impact of Strategic Sampling and Supervision Policies on Semi-supervised Learning
- arxiv url: http://arxiv.org/abs/2211.14912v2
- Date: Sun, 03 Nov 2024 09:20:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:40:55.227410
- Title: Impact of Strategic Sampling and Supervision Policies on Semi-supervised Learning
- Title(参考訳): ストラテジックサンプリングとスーパービジョン政策が半教師あり学習に及ぼす影響
- Authors: Shuvendu Roy, Ali Etemad,
- Abstract要約: 半教師付き表現学習フレームワークでは、ラベル付きデータの数が極めて少ない場合には、これらのサンプルの品質と代表性がますます重要になる。
半教師付き学習に関する既存の文献は、ラベル付けのための限られた数のデータポイントをランダムにサンプリングする。
これらのラベル付きサンプルは、トレーニングプロセス全体を通して、未ラベルのデータとともに使用される。
- 参考スコア(独自算出の注目度): 23.4909421082857
- License:
- Abstract: In semi-supervised representation learning frameworks, when the number of labelled data is very scarce, the quality and representativeness of these samples become increasingly important. Existing literature on semi-supervised learning randomly sample a limited number of data points for labelling. All these labelled samples are then used along with the unlabelled data throughout the training process. In this work, we ask two important questions in this context: (1) does it matter which samples are selected for labelling? (2) does it matter how the labelled samples are used throughout the training process along with the unlabelled data? To answer the first question, we explore a number of unsupervised methods for selecting specific subsets of data to label (without prior knowledge of their labels), with the goal of maximizing representativeness w.r.t. the unlabelled set. Then, for our second line of inquiry, we define a variety of different label injection strategies in the training process. Extensive experiments on four popular datasets, CIFAR-10, CIFAR-100, SVHN, and STL-10, show that unsupervised selection of samples that are more representative of the entire data improves performance by up to ~2% over the existing semi-supervised frameworks such as MixMatch, ReMixMatch, FixMatch and others with random sample labelling. We show that this boost could even increase to 7.5% for very few-labelled scenarios. However, our study shows that gradually injecting the labels throughout the training procedure does not impact the performance considerably versus when all the existing labels are used throughout the entire training.
- Abstract(参考訳): 半教師付き表現学習フレームワークでは、ラベル付きデータの数が極めて少ない場合には、これらのサンプルの品質と代表性がますます重要になる。
半教師付き学習に関する既存の文献は、ラベル付けのための限られた数のデータポイントをランダムにサンプリングする。
これらのラベル付きサンプルは、トレーニングプロセス全体を通して、未ラベルのデータとともに使用される。
本研究では,この文脈で重要な2つの質問を行う。(1)ラベリングのためにどのサンプルが選択されるかは重要か?
2) ラベル付きサンプルが学習過程を通じて,未ラベルデータとともにどのように使用されるかは重要か?
最初の質問に答えるために、ラベルの特定のサブセットを(ラベルの事前の知識なしに)ラベルに選択するための教師なしのメソッドを探索する。
次に,2行目の質問に対して,トレーニングプロセスにおけるさまざまなラベル注入戦略を定義した。
CIFAR-10、CIFAR-100、SVHN、STL-10の4つの一般的なデータセットに対する大規模な実験は、データ全体を代表するサンプルの教師なし選択が、MixMatch、ReMixMatch、FixMatchなどの既存の半教師付きフレームワークよりも最大で2%パフォーマンスを改善することを示している。
ごく少数のシナリオでは,この増加が7.5%にまで増加することも示しています。
しかし,本研究は,学習過程を通じてラベルを徐々に注入することは,既存のラベルがトレーニング全体を通して使用されている場合に比べて,パフォーマンスに大きく影響しないことを示した。
関連論文リスト
- Virtual Category Learning: A Semi-Supervised Learning Method for Dense
Prediction with Extremely Limited Labels [63.16824565919966]
本稿では,ラベルの修正を伴わずに,混乱したサンプルを積極的に使用することを提案する。
仮想カテゴリー(VC)は、モデルの最適化に安全に貢献できるように、各混乱したサンプルに割り当てられる。
私たちの興味深い発見は、密集した視覚タスクにおけるVC学習の利用に注目しています。
論文 参考訳(メタデータ) (2023-12-02T16:23:52Z) - Soft Curriculum for Learning Conditional GANs with Noisy-Labeled and
Uncurated Unlabeled Data [70.25049762295193]
本稿では,トレーニング中にノイズラベル付きおよび未処理データを受け入れる条件付き画像生成フレームワークを提案する。
本稿では,ラベルのないデータに新たなラベルを割り当てながら,逆行訓練にインスタンスワイドを割り当てるソフトカリキュラム学習を提案する。
実験により,本手法は,定量および定性性能の両面において,既存の半教師付き・ラベル付きロバストな手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-17T08:31:59Z) - An analysis of over-sampling labeled data in semi-supervised learning
with FixMatch [66.34968300128631]
ほとんどの半教師付き学習手法は、ミニバッチを訓練する際にラベルをオーバーサンプルする。
本稿では,この実践が学習と方法を改善するかどうかを考察する。
ラベル付けの有無に関わらず、トレーニングデータから各ミニバッチを均一にサンプリングする別の設定と比較する。
論文 参考訳(メタデータ) (2022-01-03T12:22:26Z) - Unsupervised Selective Labeling for More Effective Semi-Supervised
Learning [46.414510522978425]
教師なしの選択的なラベル付けは、与えられたラベル付きデータの最先端のアクティブラーニングよりもSSLメソッドを一貫して改善する。
私たちの仕事は、実用的で効率的なSSLの新しい標準を設定します。
論文 参考訳(メタデータ) (2021-10-06T18:25:50Z) - In Defense of Pseudo-Labeling: An Uncertainty-Aware Pseudo-label
Selection Framework for Semi-Supervised Learning [53.1047775185362]
Pseudo-labeling (PL) は一般的な SSL アプローチで、この制約はありませんが、当初の処方では比較的不十分です。
PLは不整合モデルからの誤った高い信頼度予測により性能が低下していると論じる。
そこで本研究では,疑似ラベリング精度を向上させるための不確実性認識型擬似ラベル選択(ups)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-15T23:29:57Z) - Are Fewer Labels Possible for Few-shot Learning? [81.89996465197392]
ごく限られたデータとラベルのため、わずかなショット学習は難しい。
近年のBiT (Big Transfer) 研究は、異なる領域における大規模ラベル付きデータセットの事前トレーニングによって、少数ショット学習が大きな恩恵を受けることを示した。
本稿では,ファインチューニングにおけるクラスタリングと固有サンプルの共進化を活かし,ショット学習の削減を図る。
論文 参考訳(メタデータ) (2020-12-10T18:59:29Z) - Identifying Mislabeled Data using the Area Under the Margin Ranking [35.57623165270438]
本稿では,ニューラルネットワークのトレーニングにおいて,そのようなサンプルを同定し,その影響を緩和する新しい手法を提案する。
単純なプロシージャ - 意図的にラベル付けされたしきい値サンプルが混在している余分なクラスを追加する - は、ラベル付けされたデータを分離するAUM上限を学習する。
WebVision50分類タスクでは、トレーニングデータの17%が削除され、テストエラーが1.6%(絶対)改善された。
論文 参考訳(メタデータ) (2020-01-28T18:59:03Z) - Curriculum Labeling: Revisiting Pseudo-Labeling for Semi-Supervised
Learning [27.258077365554474]
半教師あり学習の文脈における擬似ラベルの考え方を再考する。
Pseudo-labelingは、未ラベル集合のサンプルに擬似ラベルを適用することで機能する。
CIFAR-10で94.91%、Imagenet-ILSVRCで68.87%、ラベル付きサンプルで68.87%の精度で94.91%の精度を得る。
論文 参考訳(メタデータ) (2020-01-16T03:24:27Z) - Rethinking Curriculum Learning with Incremental Labels and Adaptive
Compensation [35.593312267921256]
人間と同様に、ディープネットワークは、サンプルが組織化され、意味のある順序やカリキュラムで導入されたときに、よりよく学習することが示されている。
インクリメンタルラベルと適応補償を用いた学習(LILAC)を提案する。
論文 参考訳(メタデータ) (2020-01-13T21:00:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。