論文の概要: Data-Centric Semi-Supervised Learning
- arxiv url: http://arxiv.org/abs/2110.03006v1
- Date: Wed, 6 Oct 2021 18:25:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-08 16:02:18.479082
- Title: Data-Centric Semi-Supervised Learning
- Title(参考訳): データ中心セミスーパーバイザラーニング
- Authors: Xudong Wang, Long Lian, Stella X. Yu
- Abstract要約: 半教師付き学習(SSL)のための教師なしデータ選択に関する研究
既存のSSLメソッドは、与えられた小さなラベル付きデータと大きなラベル付きデータから情報を効果的に統合するモデルを学習することに集中している。
私たちの研究は、注意深くラベル付けされたデータ選択に費やす小さな計算が、学習パイプラインを変更することなく、大きなアノテーション効率とモデルパフォーマンスの向上をもたらすことを実証しています。
- 参考スコア(独自算出の注目度): 25.673868326662024
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study unsupervised data selection for semi-supervised learning (SSL),
where a large-scale unlabeled data is available and a small subset of data is
budgeted for label acquisition. Existing SSL methods focus on learning a model
that effectively integrates information from given small labeled data and large
unlabeled data, whereas we focus on selecting the right data for SSL without
any label or task information, in an also stark contrast to supervised data
selection for active learning. Intuitively, instances to be labeled shall
collectively have maximum diversity and coverage for downstream tasks, and
individually have maximum information propagation utility for SSL. We formalize
these concepts in a three-step data-centric SSL method that improves FixMatch
in stability and accuracy by 8% on CIFAR-10 (0.08% labeled) and 14% on
ImageNet-1K (0.2% labeled). Our work demonstrates that a small compute spent on
careful labeled data selection brings big annotation efficiency and model
performance gain without changing the learning pipeline. Our completely
unsupervised data selection can be easily extended to other weakly supervised
learning settings.
- Abstract(参考訳): 本研究では,ラベルなしの大規模データを利用可能とし,ラベル取得のために少数のデータを予算化する,半教師付き学習(SSL)のための教師なしデータ選択について検討する。
既存のSSLメソッドは、与えられた小さなラベル付きデータと大きなラベル付きデータから情報を効果的に統合するモデルを学ぶことに注力する一方で、アクティブな学習のための教師付きデータ選択とは対照的に、ラベルやタスク情報なしでSSLの適切なデータを選択することに注力する。
直感的には、ラベル付けすべきインスタンスは、ダウンストリームタスクの最大多様性とカバレッジを持ち、SSLの最大情報伝達ユーティリティを個別に持つ。
これらの概念を3段階のデータ中心ssl法で定式化し,cifar-10では8% (0.08%) ,imagenet-1kでは14% (0.2%) 向上した。
私たちの研究は、注意深いラベル付きデータ選択に費やす小さな計算が、学習パイプラインを変更することなく、大きなアノテーション効率とモデルパフォーマンスの向上をもたらすことを示しています。
完全に教師なしのデータ選択は、他の弱教師付き学習設定に容易に拡張できます。
関連論文リスト
- You can't handle the (dirty) truth: Data-centric insights improve pseudo-labeling [60.27812493442062]
擬似ラベル法を改善するためにラベル付きデータ品質を調査することが重要であることを示す。
具体的には、擬似ラベルの拡張のために、DIPSと呼ばれる新しいデータキャラクタリゼーションと選択フレームワークを導入する。
本研究では,多種多様な実世界のデータセットを対象とした擬似ラベル手法に対するDIPSの適用性と影響を実証する。
論文 参考訳(メタデータ) (2024-06-19T17:58:40Z) - FlatMatch: Bridging Labeled Data and Unlabeled Data with Cross-Sharpness
for Semi-Supervised Learning [73.13448439554497]
Semi-Supervised Learning (SSL) は、ラベル付きデータが極めて少ない豊富なラベル付きデータを活用する効果的な方法である。
ほとんどのSSLメソッドは、通常、異なるデータ変換間のインスタンス単位の一貫性に基づいている。
本研究では,2つのデータセット間の一貫した学習性能を確保するために,クロスシャープネス尺度を最小化するFlatMatchを提案する。
論文 参考訳(メタデータ) (2023-10-25T06:57:59Z) - Soft Curriculum for Learning Conditional GANs with Noisy-Labeled and
Uncurated Unlabeled Data [70.25049762295193]
本稿では,トレーニング中にノイズラベル付きおよび未処理データを受け入れる条件付き画像生成フレームワークを提案する。
本稿では,ラベルのないデータに新たなラベルを割り当てながら,逆行訓練にインスタンスワイドを割り当てるソフトカリキュラム学習を提案する。
実験により,本手法は,定量および定性性能の両面において,既存の半教師付き・ラベル付きロバストな手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-17T08:31:59Z) - Impact of Strategic Sampling and Supervision Policies on Semi-supervised Learning [23.4909421082857]
半教師付き表現学習フレームワークでは、ラベル付きデータの数が極めて少ない場合には、これらのサンプルの品質と代表性がますます重要になる。
半教師付き学習に関する既存の文献は、ラベル付けのための限られた数のデータポイントをランダムにサンプリングする。
これらのラベル付きサンプルは、トレーニングプロセス全体を通して、未ラベルのデータとともに使用される。
論文 参考訳(メタデータ) (2022-11-27T18:29:54Z) - Dash: Semi-Supervised Learning with Dynamic Thresholding [72.74339790209531]
我々は、ラベルのない例を使ってモデルをトレーニングする半教師付き学習(SSL)アプローチを提案する。
提案手法であるDashは、ラベルなしデータ選択の観点から適応性を享受する。
論文 参考訳(メタデータ) (2021-09-01T23:52:29Z) - Weakly Supervised Pseudo-Label assisted Learning for ALS Point Cloud
Semantic Segmentation [1.4620086904601473]
競合ポイントクラウドの結果は通常、大量のラベル付きデータに依存します。
本研究では,基礎的事実を限定した正確な結果を得るための擬似ラベル方式を提案する。
論文 参考訳(メタデータ) (2021-05-05T08:07:21Z) - In Defense of Pseudo-Labeling: An Uncertainty-Aware Pseudo-label
Selection Framework for Semi-Supervised Learning [53.1047775185362]
Pseudo-labeling (PL) は一般的な SSL アプローチで、この制約はありませんが、当初の処方では比較的不十分です。
PLは不整合モデルからの誤った高い信頼度予測により性能が低下していると論じる。
そこで本研究では,疑似ラベリング精度を向上させるための不確実性認識型擬似ラベル選択(ups)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-15T23:29:57Z) - Unsupervised Semantic Aggregation and Deformable Template Matching for
Semi-Supervised Learning [34.560447389853614]
ラベルなしデータのセマンティックラベルを生成するために,T-MI損失に基づく教師なしセマンティックアグリゲーションを提案する。
ラベル付きサンプルを格納する機能プールは動的に更新され、ラベルなしデータのプロキシラベルが割り当てられる。
実験と解析により、USADTMが最高性能を達成することを確認した。
論文 参考訳(メタデータ) (2020-10-12T08:17:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。