論文の概要: Enhancing Self-Training Methods
- arxiv url: http://arxiv.org/abs/2301.07294v1
- Date: Wed, 18 Jan 2023 03:56:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-19 16:54:19.431046
- Title: Enhancing Self-Training Methods
- Title(参考訳): 自己学習の強化
- Authors: Aswathnarayan Radhakrishnan, Jim Davis, Zachary Rabin, Benjamin Lewis,
Matthew Scherreik, Roman Ilin
- Abstract要約: 半教師付き学習アプローチでは、ラベル付きデータの小さなセットとラベルなしデータの大きなセットをトレーニングする。
自己学習は「確認バイアス」の問題に悩まされる半教師型教師学生のアプローチである
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semi-supervised learning approaches train on small sets of labeled data along
with large sets of unlabeled data. Self-training is a semi-supervised
teacher-student approach that often suffers from the problem of "confirmation
bias" that occurs when the student model repeatedly overfits to incorrect
pseudo-labels given by the teacher model for the unlabeled data. This bias
impedes improvements in pseudo-label accuracy across self-training iterations,
leading to unwanted saturation in model performance after just a few
iterations. In this work, we describe multiple enhancements to improve the
self-training pipeline to mitigate the effect of confirmation bias. We evaluate
our enhancements over multiple datasets showing performance gains over existing
self-training design choices. Finally, we also study the extendability of our
enhanced approach to Open Set unlabeled data (containing classes not seen in
labeled data).
- Abstract(参考訳): 半教師付き学習アプローチはラベル付きデータの小さなセットとラベル付きデータの大きなセットを訓練する。
セルフトレーニング(self-training)は、教師モデルが教師に与えた誤った擬似ラベルを教師モデルが繰り返し過小評価する場合に発生する「確認バイアス(confirmation bias)」の問題に苦しむ半教師学習アプローチである。
このバイアスは、自己学習イテレーションにおける擬似ラベル精度の改善を妨げ、わずか数回のイテレーションの後、モデルパフォーマンスが不必要に飽和する。
本稿では,確認バイアスの影響を軽減するために,自己学習パイプラインを改善するための複数の機能強化について述べる。
既存の自己学習設計選択よりもパフォーマンス向上を示す複数のデータセットに対する拡張を評価した。
最後に,ラベルなしデータ(ラベル付きデータでは見られないクラスを含む)のオープンセットへの拡張可能性についても検討した。
関連論文リスト
- Incremental Self-training for Semi-supervised Learning [56.57057576885672]
ISTは単純だが有効であり、既存の自己学習に基づく半教師あり学習手法に適合する。
提案したISTを5つのデータセットと2種類のバックボーンで検証し,認識精度と学習速度を効果的に向上させる。
論文 参考訳(メタデータ) (2024-04-14T05:02:00Z) - Learning in the Wild: Towards Leveraging Unlabeled Data for Effectively
Tuning Pre-trained Code Models [38.7352992942213]
我々は,大規模な未ラベルデータセットを用いた事前学習型コードモデルを改善するために,HINTという新しいアプローチを提案する。
HINTには、HybrId擬似ラベル付きデータ選択とノイズ耐性トレーニングの2つの主要なモジュールが含まれている。
実験の結果、HINTはタスク固有の方法でラベル付けされていないデータをうまく活用できることがわかった。
論文 参考訳(メタデータ) (2024-01-02T06:39:00Z) - Doubly Robust Self-Training [46.168395767948965]
本稿では,新しい半教師付きアルゴリズムである二重頑健な自己学習を導入する。
通常の自己学習ベースラインよりも2倍頑健な損失の優位性を実証する。
論文 参考訳(メタデータ) (2023-06-01T00:57:16Z) - Q-Match: Self-supervised Learning by Matching Distributions Induced by a
Queue [6.1678491628787455]
提案アルゴリズムであるQ-Matchを導入し,下流クラスに関する知識を必要とせずに,生徒と教師の分布を推定可能であることを示す。
本手法は, ダウンストリームトレーニングに必要なラベルと事前学習に必要なラベルなしデータの量の両方を指標として, サンプリング効率が高く, ラベル付きデータとラベルなしデータの双方のサイズによく対応していることを示す。
論文 参考訳(メタデータ) (2023-02-10T18:59:05Z) - Weighted Distillation with Unlabeled Examples [15.825078347452024]
ラベルなし例による蒸留は、ラベル付きデータの量を制限する設定において、ディープニューラルネットワークをトレーニングするための一般的で強力な方法である。
本稿では, 蒸留訓練のパラダイムに合わせて, 学生の損失関数の再重み付けに基づいて, この問題に対処するための原則的アプローチを提案する。
論文 参考訳(メタデータ) (2022-10-13T04:08:56Z) - Debiased Pseudo Labeling in Self-Training [77.83549261035277]
ディープニューラルネットワークは、大規模ラベル付きデータセットの助けを借りて、幅広いタスクで顕著なパフォーマンスを達成する。
ラベル付きデータの要求を軽減するため、ラベル付けされていないデータに擬似ラベルを付けることにより、学術と産業の両方で自己学習が広く使われている。
疑似ラベルの生成と利用を2つの独立した頭文字で分離するデバイアスドを提案する。
論文 参考訳(メタデータ) (2022-02-15T02:14:33Z) - Out-distribution aware Self-training in an Open World Setting [62.19882458285749]
オープンワールド環境ではラベルのないデータを活用して予測性能をさらに向上します。
注意深いサンプル選択戦略を含む,自己学習を意識したアウト・ディストリビューションを導入する。
当社の分類器は、設計外分布を意識しており、タスク関連の入力と無関係な入力を区別できます。
論文 参考訳(メタデータ) (2020-12-21T12:25:04Z) - SLADE: A Self-Training Framework For Distance Metric Learning [75.54078592084217]
我々は、追加のラベルのないデータを活用することで、検索性能を向上させるための自己学習フレームワークSLADEを提案する。
まず、ラベル付きデータに基づいて教師モデルをトレーニングし、ラベルなしデータに対して擬似ラベルを生成する。
次に、最終機能埋め込みを生成するために、ラベルと擬似ラベルの両方で学生モデルをトレーニングします。
論文 参考訳(メタデータ) (2020-11-20T08:26:10Z) - Uncertainty-aware Self-training for Text Classification with Few Labels [54.13279574908808]
本研究は,アノテーションのボトルネックを軽減するための半教師あり学習手法の1つとして,自己学習について研究する。
本稿では,基礎となるニューラルネットワークの不確実性推定を取り入れて,自己学習を改善する手法を提案する。
本手法では,クラス毎に20~30個のラベル付きサンプルをトレーニングに利用し,完全教師付き事前学習言語モデルの3%以内で検証を行う。
論文 参考訳(メタデータ) (2020-06-27T08:13:58Z) - Improving Semantic Segmentation via Self-Training [75.07114899941095]
半教師付きアプローチ,特に自己学習パラダイムを用いて,最先端の成果を得ることができることを示す。
まず、ラベル付きデータに基づいて教師モデルを訓練し、次にラベルなしデータの大規模なセット上で擬似ラベルを生成する。
私たちの堅牢なトレーニングフレームワークは、人名と擬似ラベルを共同で消化し、Cityscapes、CamVid、KITTIデータセット上で最高のパフォーマンスを達成することができます。
論文 参考訳(メタデータ) (2020-04-30T17:09:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。