論文の概要: Unsupervised Selective Labeling for More Effective Semi-Supervised
Learning
- arxiv url: http://arxiv.org/abs/2110.03006v4
- Date: Wed, 23 Aug 2023 16:47:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-24 19:27:05.438400
- Title: Unsupervised Selective Labeling for More Effective Semi-Supervised
Learning
- Title(参考訳): より効果的な半教師付き学習のための教師なし選択ラベリング
- Authors: Xudong Wang, Long Lian, Stella X. Yu
- Abstract要約: 教師なしの選択的なラベル付けは、与えられたラベル付きデータの最先端のアクティブラーニングよりもSSLメソッドを一貫して改善する。
私たちの仕事は、実用的で効率的なSSLの新しい標準を設定します。
- 参考スコア(独自算出の注目度): 46.414510522978425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given an unlabeled dataset and an annotation budget, we study how to
selectively label a fixed number of instances so that semi-supervised learning
(SSL) on such a partially labeled dataset is most effective. We focus on
selecting the right data to label, in addition to usual SSL's propagating
labels from labeled data to the rest unlabeled data. This instance selection
task is challenging, as without any labeled data we do not know what the
objective of learning should be. Intuitively, no matter what the downstream
task is, instances to be labeled must be representative and diverse: The former
would facilitate label propagation to unlabeled data, whereas the latter would
ensure coverage of the entire dataset. We capture this idea by selecting
cluster prototypes, either in a pretrained feature space, or along with feature
optimization, both without labels. Our unsupervised selective labeling
consistently improves SSL methods over state-of-the-art active learning given
labeled data, by 8 to 25 times in label efficiency. For example, it boosts
FixMatch by 10% (14%) in accuracy on CIFAR-10 (ImageNet-1K) with 0.08% (0.2%)
labeled data, demonstrating that small computation spent on selecting what data
to label brings significant gain especially under a low annotation budget. Our
work sets a new standard for practical and efficient SSL.
- Abstract(参考訳): ラベル付きデータセットとアノテーション予算を考慮すれば,固定数のインスタンスを選択的にラベル付けする方法を検討すれば,半教師付き学習(ssl)が,その部分ラベル付きデータセット上で最も効果的になる。
ラベル付きデータからラベルなしデータにラベルを伝播する通常のsslに加えて、ラベル付きデータを選択することに重点を置いています。
このインスタンス選択タスクは、ラベル付きデータがないと学習の目的が何であるかがわからないため、難しい。
直感的には、ダウンストリームタスクが何であれ、ラベル付けすべきインスタンスは代表的かつ多様でなければならない。 前者はラベル付きデータへのラベルの伝搬を促進し、後者はデータセット全体のカバレッジを保証する。
このアイデアを,事前にトレーニングされた機能空間内か,あるいはラベルのない機能最適化とともに,クラスタプロトタイプを選択することで捉えます。
我々の教師なし選択的ラベル付けは、ラベル付きデータの最先端のアクティブラーニングよりも、ラベル効率を8倍から25倍改善する。
例えば、CIFAR-10 (ImageNet-1K) の精度を 0.08% (0.2%) のラベル付きデータで10% (14%) 向上させ、特に低いアノテーション予算下では、ラベル付けデータの選択に費やされた小さな計算が大きな利益をもたらすことを示した。
私たちの仕事は、実用的で効率的なSSLの新しい標準を設定します。
関連論文リスト
- You can't handle the (dirty) truth: Data-centric insights improve pseudo-labeling [60.27812493442062]
擬似ラベル法を改善するためにラベル付きデータ品質を調査することが重要であることを示す。
具体的には、擬似ラベルの拡張のために、DIPSと呼ばれる新しいデータキャラクタリゼーションと選択フレームワークを導入する。
本研究では,多種多様な実世界のデータセットを対象とした擬似ラベル手法に対するDIPSの適用性と影響を実証する。
論文 参考訳(メタデータ) (2024-06-19T17:58:40Z) - FlatMatch: Bridging Labeled Data and Unlabeled Data with Cross-Sharpness
for Semi-Supervised Learning [73.13448439554497]
Semi-Supervised Learning (SSL) は、ラベル付きデータが極めて少ない豊富なラベル付きデータを活用する効果的な方法である。
ほとんどのSSLメソッドは、通常、異なるデータ変換間のインスタンス単位の一貫性に基づいている。
本研究では,2つのデータセット間の一貫した学習性能を確保するために,クロスシャープネス尺度を最小化するFlatMatchを提案する。
論文 参考訳(メタデータ) (2023-10-25T06:57:59Z) - Soft Curriculum for Learning Conditional GANs with Noisy-Labeled and
Uncurated Unlabeled Data [70.25049762295193]
本稿では,トレーニング中にノイズラベル付きおよび未処理データを受け入れる条件付き画像生成フレームワークを提案する。
本稿では,ラベルのないデータに新たなラベルを割り当てながら,逆行訓練にインスタンスワイドを割り当てるソフトカリキュラム学習を提案する。
実験により,本手法は,定量および定性性能の両面において,既存の半教師付き・ラベル付きロバストな手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-17T08:31:59Z) - Impact of Strategic Sampling and Supervision Policies on Semi-supervised Learning [23.4909421082857]
半教師付き表現学習フレームワークでは、ラベル付きデータの数が極めて少ない場合には、これらのサンプルの品質と代表性がますます重要になる。
半教師付き学習に関する既存の文献は、ラベル付けのための限られた数のデータポイントをランダムにサンプリングする。
これらのラベル付きサンプルは、トレーニングプロセス全体を通して、未ラベルのデータとともに使用される。
論文 参考訳(メタデータ) (2022-11-27T18:29:54Z) - Dash: Semi-Supervised Learning with Dynamic Thresholding [72.74339790209531]
我々は、ラベルのない例を使ってモデルをトレーニングする半教師付き学習(SSL)アプローチを提案する。
提案手法であるDashは、ラベルなしデータ選択の観点から適応性を享受する。
論文 参考訳(メタデータ) (2021-09-01T23:52:29Z) - Weakly Supervised Pseudo-Label assisted Learning for ALS Point Cloud
Semantic Segmentation [1.4620086904601473]
競合ポイントクラウドの結果は通常、大量のラベル付きデータに依存します。
本研究では,基礎的事実を限定した正確な結果を得るための擬似ラベル方式を提案する。
論文 参考訳(メタデータ) (2021-05-05T08:07:21Z) - In Defense of Pseudo-Labeling: An Uncertainty-Aware Pseudo-label
Selection Framework for Semi-Supervised Learning [53.1047775185362]
Pseudo-labeling (PL) は一般的な SSL アプローチで、この制約はありませんが、当初の処方では比較的不十分です。
PLは不整合モデルからの誤った高い信頼度予測により性能が低下していると論じる。
そこで本研究では,疑似ラベリング精度を向上させるための不確実性認識型擬似ラベル選択(ups)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-15T23:29:57Z) - Unsupervised Semantic Aggregation and Deformable Template Matching for
Semi-Supervised Learning [34.560447389853614]
ラベルなしデータのセマンティックラベルを生成するために,T-MI損失に基づく教師なしセマンティックアグリゲーションを提案する。
ラベル付きサンプルを格納する機能プールは動的に更新され、ラベルなしデータのプロキシラベルが割り当てられる。
実験と解析により、USADTMが最高性能を達成することを確認した。
論文 参考訳(メタデータ) (2020-10-12T08:17:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。