論文の概要: Self-Tuning for Data-Efficient Deep Learning
- arxiv url: http://arxiv.org/abs/2102.12903v1
- Date: Thu, 25 Feb 2021 14:56:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-26 13:47:21.806039
- Title: Self-Tuning for Data-Efficient Deep Learning
- Title(参考訳): データ効率のよいディープラーニングのためのセルフチューニング
- Authors: Ximei Wang, Jinghan Gao, Jianmin Wang, Mingsheng Long
- Abstract要約: セルフチューニングは、データ効率のよいディープラーニングを可能にする新しいアプローチである。
ラベル付きおよびラベルなしデータの探索と事前訓練されたモデルの転送を統一する。
SSLとTLの5つのタスクをシャープなマージンで上回ります。
- 参考スコア(独自算出の注目度): 75.34320911480008
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning has made revolutionary advances to diverse applications in the
presence of large-scale labeled datasets. However, it is prohibitively
time-costly and labor-expensive to collect sufficient labeled data in most
realistic scenarios. To mitigate the requirement for labeled data,
semi-supervised learning (SSL) focuses on simultaneously exploring both labeled
and unlabeled data, while transfer learning (TL) popularizes a favorable
practice of fine-tuning a pre-trained model to the target data. A dilemma is
thus encountered: Without a decent pre-trained model to provide an implicit
regularization, SSL through self-training from scratch will be easily misled by
inaccurate pseudo-labels, especially in large-sized label space; Without
exploring the intrinsic structure of unlabeled data, TL through fine-tuning
from limited labeled data is at risk of under-transfer caused by model shift.
To escape from this dilemma, we present Self-Tuning, a novel approach to enable
data-efficient deep learning by unifying the exploration of labeled and
unlabeled data and the transfer of a pre-trained model. Further, to address the
challenge of confirmation bias in self-training, a Pseudo Group Contrast (PGC)
mechanism is devised to mitigate the reliance on pseudo-labels and boost the
tolerance to false-labels. Self-Tuning outperforms its SSL and TL counterparts
on five tasks by sharp margins, e.g. it doubles the accuracy of fine-tuning on
Cars with 15% labels.
- Abstract(参考訳): ディープラーニングは、大規模ラベル付きデータセットの存在下で、多様なアプリケーションに革命的な進歩をもたらした。
しかし、最も現実的なシナリオで十分なラベル付きデータを集めることは、時間的にコストがかかり、労力がかかる。
ラベル付きデータの要件を軽減するために、半教師付き学習(SSL)はラベル付きデータとラベルなしデータの両方を同時に探索することに焦点を当て、転送学習(TL)は、事前に訓練されたモデルをターゲットデータに微調整する好適なプラクティスを一般化します。
このようにジレンマが発生する: 暗黙の正規化を提供する適切な事前学習モデルがないと、スクラッチからの自己訓練によるsslは、特に大きなラベル空間において、不正確な擬似ラベルによって容易に誤解される。
このジレンマから逃れるために,ラベル付きおよびラベル付きデータの探索と事前学習モデルの転送を統一し,データ効率のよいディープラーニングを実現するための新しい手法であるセルフチューニングを提案する。
さらに, Pseudo Group Contrast (PGC) 機構は, 自己学習における確認バイアスの課題に対処するため, 擬似ラベルへの依存を緩和し, 偽ラベルへの耐性を高めるために考案された。
Self-TuningはSSLとTLを5つのタスク、例えばシャープマージンで上回っている。
15%のラベルを持つ車の微調整の精度を2倍にする。
関連論文リスト
- (FL)$^2$: Overcoming Few Labels in Federated Semi-Supervised Learning [4.803231218533992]
Federated Learning(FL)は、クライアントのプライバシに敏感なデータを保存しながら、正確なグローバルモデルをトレーニングする分散機械学習フレームワークである。
ほとんどのFLアプローチは、クライアントがラベル付きデータを持っていると仮定するが、実際にはそうではないことが多い。
本稿では、シャープネスを意識した整合性正規化を用いたラベルなしクライアントのための堅牢なトレーニング手法である$(FL)2$を提案する。
論文 参考訳(メタデータ) (2024-10-30T17:15:02Z) - Incremental Self-training for Semi-supervised Learning [56.57057576885672]
ISTは単純だが有効であり、既存の自己学習に基づく半教師あり学習手法に適合する。
提案したISTを5つのデータセットと2種類のバックボーンで検証し,認識精度と学習速度を効果的に向上させる。
論文 参考訳(メタデータ) (2024-04-14T05:02:00Z) - Learning in the Wild: Towards Leveraging Unlabeled Data for Effectively
Tuning Pre-trained Code Models [38.7352992942213]
我々は,大規模な未ラベルデータセットを用いた事前学習型コードモデルを改善するために,HINTという新しいアプローチを提案する。
HINTには、HybrId擬似ラベル付きデータ選択とノイズ耐性トレーニングの2つの主要なモジュールが含まれている。
実験の結果、HINTはタスク固有の方法でラベル付けされていないデータをうまく活用できることがわかった。
論文 参考訳(メタデータ) (2024-01-02T06:39:00Z) - FlatMatch: Bridging Labeled Data and Unlabeled Data with Cross-Sharpness
for Semi-Supervised Learning [73.13448439554497]
Semi-Supervised Learning (SSL) は、ラベル付きデータが極めて少ない豊富なラベル付きデータを活用する効果的な方法である。
ほとんどのSSLメソッドは、通常、異なるデータ変換間のインスタンス単位の一貫性に基づいている。
本研究では,2つのデータセット間の一貫した学習性能を確保するために,クロスシャープネス尺度を最小化するFlatMatchを提案する。
論文 参考訳(メタデータ) (2023-10-25T06:57:59Z) - Boosting Semi-Supervised Learning by bridging high and low-confidence
predictions [4.18804572788063]
Pseudo-labelingは半教師あり学習(SSL)において重要な技術である
ReFixMatchと呼ばれる新しい手法を提案し、これはトレーニング中にラベルなしのデータをすべて活用することを目的としている。
論文 参考訳(メタデータ) (2023-08-15T00:27:18Z) - Soft Curriculum for Learning Conditional GANs with Noisy-Labeled and
Uncurated Unlabeled Data [70.25049762295193]
本稿では,トレーニング中にノイズラベル付きおよび未処理データを受け入れる条件付き画像生成フレームワークを提案する。
本稿では,ラベルのないデータに新たなラベルを割り当てながら,逆行訓練にインスタンスワイドを割り当てるソフトカリキュラム学習を提案する。
実験により,本手法は,定量および定性性能の両面において,既存の半教師付き・ラベル付きロバストな手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-17T08:31:59Z) - Debiased Pseudo Labeling in Self-Training [77.83549261035277]
ディープニューラルネットワークは、大規模ラベル付きデータセットの助けを借りて、幅広いタスクで顕著なパフォーマンスを達成する。
ラベル付きデータの要求を軽減するため、ラベル付けされていないデータに擬似ラベルを付けることにより、学術と産業の両方で自己学習が広く使われている。
疑似ラベルの生成と利用を2つの独立した頭文字で分離するデバイアスドを提案する。
論文 参考訳(メタデータ) (2022-02-15T02:14:33Z) - In Defense of Pseudo-Labeling: An Uncertainty-Aware Pseudo-label
Selection Framework for Semi-Supervised Learning [53.1047775185362]
Pseudo-labeling (PL) は一般的な SSL アプローチで、この制約はありませんが、当初の処方では比較的不十分です。
PLは不整合モデルからの誤った高い信頼度予測により性能が低下していると論じる。
そこで本研究では,疑似ラベリング精度を向上させるための不確実性認識型擬似ラベル選択(ups)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-15T23:29:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。