論文の概要: Data-Centric Semi-Supervised Learning
- arxiv url: http://arxiv.org/abs/2110.03006v1
- Date: Wed, 6 Oct 2021 18:25:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-08 16:02:18.479082
- Title: Data-Centric Semi-Supervised Learning
- Title(参考訳): データ中心セミスーパーバイザラーニング
- Authors: Xudong Wang, Long Lian, Stella X. Yu
- Abstract要約: 半教師付き学習(SSL)のための教師なしデータ選択に関する研究
既存のSSLメソッドは、与えられた小さなラベル付きデータと大きなラベル付きデータから情報を効果的に統合するモデルを学習することに集中している。
私たちの研究は、注意深くラベル付けされたデータ選択に費やす小さな計算が、学習パイプラインを変更することなく、大きなアノテーション効率とモデルパフォーマンスの向上をもたらすことを実証しています。
- 参考スコア(独自算出の注目度): 25.673868326662024
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study unsupervised data selection for semi-supervised learning (SSL),
where a large-scale unlabeled data is available and a small subset of data is
budgeted for label acquisition. Existing SSL methods focus on learning a model
that effectively integrates information from given small labeled data and large
unlabeled data, whereas we focus on selecting the right data for SSL without
any label or task information, in an also stark contrast to supervised data
selection for active learning. Intuitively, instances to be labeled shall
collectively have maximum diversity and coverage for downstream tasks, and
individually have maximum information propagation utility for SSL. We formalize
these concepts in a three-step data-centric SSL method that improves FixMatch
in stability and accuracy by 8% on CIFAR-10 (0.08% labeled) and 14% on
ImageNet-1K (0.2% labeled). Our work demonstrates that a small compute spent on
careful labeled data selection brings big annotation efficiency and model
performance gain without changing the learning pipeline. Our completely
unsupervised data selection can be easily extended to other weakly supervised
learning settings.
- Abstract(参考訳): 本研究では,ラベルなしの大規模データを利用可能とし,ラベル取得のために少数のデータを予算化する,半教師付き学習(SSL)のための教師なしデータ選択について検討する。
既存のSSLメソッドは、与えられた小さなラベル付きデータと大きなラベル付きデータから情報を効果的に統合するモデルを学ぶことに注力する一方で、アクティブな学習のための教師付きデータ選択とは対照的に、ラベルやタスク情報なしでSSLの適切なデータを選択することに注力する。
直感的には、ラベル付けすべきインスタンスは、ダウンストリームタスクの最大多様性とカバレッジを持ち、SSLの最大情報伝達ユーティリティを個別に持つ。
これらの概念を3段階のデータ中心ssl法で定式化し,cifar-10では8% (0.08%) ,imagenet-1kでは14% (0.2%) 向上した。
私たちの研究は、注意深いラベル付きデータ選択に費やす小さな計算が、学習パイプラインを変更することなく、大きなアノテーション効率とモデルパフォーマンスの向上をもたらすことを示しています。
完全に教師なしのデータ選択は、他の弱教師付き学習設定に容易に拡張できます。
関連論文リスト
- FlatMatch: Bridging Labeled Data and Unlabeled Data with Cross-Sharpness
for Semi-Supervised Learning [73.13448439554497]
Semi-Supervised Learning (SSL) は、ラベル付きデータが極めて少ない豊富なラベル付きデータを活用する効果的な方法である。
ほとんどのSSLメソッドは、通常、異なるデータ変換間のインスタンス単位の一貫性に基づいている。
本研究では,2つのデータセット間の一貫した学習性能を確保するために,クロスシャープネス尺度を最小化するFlatMatchを提案する。
論文 参考訳(メタデータ) (2023-10-25T06:57:59Z) - Soft Curriculum for Learning Conditional GANs with Noisy-Labeled and
Uncurated Unlabeled Data [70.25049762295193]
本稿では,トレーニング中にノイズラベル付きおよび未処理データを受け入れる条件付き画像生成フレームワークを提案する。
本稿では,ラベルのないデータに新たなラベルを割り当てながら,逆行訓練にインスタンスワイドを割り当てるソフトカリキュラム学習を提案する。
実験により,本手法は,定量および定性性能の両面において,既存の半教師付き・ラベル付きロバストな手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-17T08:31:59Z) - Boosting Semi-Supervised Learning with Contrastive Complementary
Labeling [11.851898765002334]
一般的なアプローチは擬似ラベル作成であり、信頼度の高いラベル付きデータに対してのみ擬似ラベルを生成する。
信頼度が低い擬似ラベルを持つデータは、トレーニングプロセスにまだ有効である可能性があることを強調する。
そこで本研究では,多数の信頼な負対を構成する新しいコントラスト補完ラベリング法を提案する。
論文 参考訳(メタデータ) (2022-12-13T15:25:49Z) - Impact of Labelled Set Selection and Supervision Policies on
Semi-supervised Learning [19.442685015494316]
半教師付き表現学習フレームワークでは、ラベル付きデータの数が極めて少ない場合には、これらのサンプルの品質と代表性がますます重要になる。
半教師付き学習に関する既存の文献は、ラベル付けのための限られた数のデータポイントをランダムにサンプリングする。
これらのラベル付きサンプルは、トレーニングプロセス全体を通して、未ラベルのデータとともに使用される。
論文 参考訳(メタデータ) (2022-11-27T18:29:54Z) - Pseudo-Labeling Based Practical Semi-Supervised Meta-Training for
Few-Shot Learning [125.98370880855579]
擬似ラベルベースメタラーニング(PLML)という,シンプルで効果的なメタトレーニングフレームワークを提案する。
まず、一般的な半教師付き学習(SSL)を用いて分類器を訓練し、ラベルなしデータの擬似ラベルを得る。
ラベル付きおよび擬似ラベル付きデータから数ショットのタスクを構築し、特徴の平滑化と雑音抑圧を伴う新しい微調整法を設計する。
論文 参考訳(メタデータ) (2022-07-14T10:53:53Z) - Dash: Semi-Supervised Learning with Dynamic Thresholding [72.74339790209531]
我々は、ラベルのない例を使ってモデルをトレーニングする半教師付き学習(SSL)アプローチを提案する。
提案手法であるDashは、ラベルなしデータ選択の観点から適応性を享受する。
論文 参考訳(メタデータ) (2021-09-01T23:52:29Z) - Weakly Supervised Pseudo-Label assisted Learning for ALS Point Cloud
Semantic Segmentation [1.4620086904601473]
競合ポイントクラウドの結果は通常、大量のラベル付きデータに依存します。
本研究では,基礎的事実を限定した正確な結果を得るための擬似ラベル方式を提案する。
論文 参考訳(メタデータ) (2021-05-05T08:07:21Z) - In Defense of Pseudo-Labeling: An Uncertainty-Aware Pseudo-label
Selection Framework for Semi-Supervised Learning [53.1047775185362]
Pseudo-labeling (PL) は一般的な SSL アプローチで、この制約はありませんが、当初の処方では比較的不十分です。
PLは不整合モデルからの誤った高い信頼度予測により性能が低下していると論じる。
そこで本研究では,疑似ラベリング精度を向上させるための不確実性認識型擬似ラベル選択(ups)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-15T23:29:57Z) - Unsupervised Semantic Aggregation and Deformable Template Matching for
Semi-Supervised Learning [34.560447389853614]
ラベルなしデータのセマンティックラベルを生成するために,T-MI損失に基づく教師なしセマンティックアグリゲーションを提案する。
ラベル付きサンプルを格納する機能プールは動的に更新され、ラベルなしデータのプロキシラベルが割り当てられる。
実験と解析により、USADTMが最高性能を達成することを確認した。
論文 参考訳(メタデータ) (2020-10-12T08:17:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。