論文の概要: Self Training with Ensemble of Teacher Models
- arxiv url: http://arxiv.org/abs/2107.08211v1
- Date: Sat, 17 Jul 2021 09:44:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-21 07:29:27.215835
- Title: Self Training with Ensemble of Teacher Models
- Title(参考訳): 教師モデルのアンサンブルによるセルフトレーニング
- Authors: Soumyadeep Ghosh, Sanjay Kumar, Janu Verma and Awanish Kumar
- Abstract要約: 堅牢なディープラーニングモデルのトレーニングには,大量のラベル付きデータが必要である。
このようなラベル付きデータの大規模なリポジトリがなければ、ラベルなしのデータも同様に利用することができる。
準スーパービジョン学習は、そのようなラベルのないデータを分類モデルの訓練に活用することを目的としている。
- 参考スコア(独自算出の注目度): 8.257085583227695
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In order to train robust deep learning models, large amounts of labelled data
is required. However, in the absence of such large repositories of labelled
data, unlabeled data can be exploited for the same. Semi-Supervised learning
aims to utilize such unlabeled data for training classification models. Recent
progress of self-training based approaches have shown promise in this area,
which leads to this study where we utilize an ensemble approach for the same. A
by-product of any semi-supervised approach may be loss of calibration of the
trained model especially in scenarios where unlabeled data may contain
out-of-distribution samples, which leads to this investigation on how to adapt
to such effects. Our proposed algorithm carefully avoids common pitfalls in
utilizing unlabeled data and leads to a more accurate and calibrated supervised
model compared to vanilla self-training based student-teacher algorithms. We
perform several experiments on the popular STL-10 database followed by an
extensive analysis of our approach and study its effects on model accuracy and
calibration.
- Abstract(参考訳): 堅牢なディープラーニングモデルのトレーニングには,大量のラベル付きデータが必要である。
しかし、ラベル付きデータの巨大なリポジトリが存在しない場合、ラベル付きデータも同様に悪用することができる。
半教師付き学習は、そのようなラベルのないデータを分類モデルのトレーニングに利用することを目的としている。
近年の自己学習型アプローチの進歩は,この領域で有望であることが示されており,本研究はアンサンブルアプローチを応用している。
半教師付きアプローチの副産物は、特にラベルのないデータが分配外サンプルを含む可能性があるシナリオにおいて、訓練されたモデルのキャリブレーションの損失である可能性がある。
提案手法はラベルなしデータを利用する場合の一般的な落とし穴を慎重に回避し,バニラ自己学習に基づく学生・教師アルゴリズムと比較して,より正確かつ校正された教師モデルとなる。
人気のあるstl-10データベース上でいくつかの実験を行い,そのアプローチを広範囲に分析し,モデルの精度と校正に与える影響について検討した。
関連論文リスト
- The Mirrored Influence Hypothesis: Efficient Data Influence Estimation
by Harnessing Forward Passes [32.11451526104394]
我々は、訓練データとテストデータの間の相互影響を浮き彫りにして、ミラーレッド影響仮説を導入し、探求する。
具体的には、テスト予測に対するトレーニングデータの影響を評価することは、等価だが逆問題として再定義することができることを示唆している。
トレーニングポイント毎に前方パスとペアを組むことで,特定のテストサンプルの勾配を計算し,トレーニングデータの影響を推定する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-14T03:43:05Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - Certifying Data-Bias Robustness in Linear Regression [12.00314910031517]
本稿では, 線形回帰モデルが学習データセットのラベルバイアスに対して, ポイントワイズで損なわれているかどうかを検証する手法を提案する。
この問題を個々のテストポイントに対して正確に解く方法を示し、近似的だがよりスケーラブルな方法を提供する。
また、いくつかのデータセット上の特定のバイアス仮定に対して、高いレベルの非腐食性など、バイアス-腐食性のギャップを掘り下げる。
論文 参考訳(メタデータ) (2022-06-07T20:47:07Z) - Semi-supervised Deep Learning for Image Classification with Distribution
Mismatch: A Survey [1.5469452301122175]
ディープラーニングモデルは、予測モデルをトレーニングするためにラベル付き観測の豊富な部分に依存します。
ラベル付きデータ観測を収集することは高価であり、ディープラーニングモデルの使用は理想的ではない。
多くの状況では、異なる非競合データソースが利用可能である。
これにより、ラベル付きデータセットと非ラベル付きデータセットの間にかなりの分散ミスマッチが発生するリスクが生じる。
論文 参考訳(メタデータ) (2022-03-01T02:46:00Z) - CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep
Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。
サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。
本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文 参考訳(メタデータ) (2022-02-11T13:49:51Z) - Harnessing Unlabeled Data to Improve Generalization of Biometric Gender
and Age Classifiers [0.7874708385247353]
ディープラーニングモデルは、モデルトレーニングと最適パラメータ推定のために、大量のラベル付きデータを必要とする。
プライバシやセキュリティ上の懸念から、医療分野を含む特定のアプリケーションに対して大量のラベル付きデータを収集することはできない。
本稿では,ラベル付きデータに制限を加えた自己アンサンブルに基づくディープラーニングモデルを提案する。
論文 参考訳(メタデータ) (2021-10-09T01:06:01Z) - Scalable Marginal Likelihood Estimation for Model Selection in Deep
Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。
本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文 参考訳(メタデータ) (2021-04-11T09:50:24Z) - Learning from others' mistakes: Avoiding dataset biases without modeling
them [111.17078939377313]
最先端自然言語処理(NLP)モデルは、意図したタスクをターゲットとする機能ではなく、データセットのバイアスや表面形状の相関をモデル化することを学ぶことが多い。
これまでの研究は、バイアスに関する知識が利用できる場合に、これらの問題を回避するための効果的な方法を示してきた。
本稿では,これらの問題点を無視する学習モデルについて述べる。
論文 参考訳(メタデータ) (2020-12-02T16:10:54Z) - Testing for Typicality with Respect to an Ensemble of Learned
Distributions [5.850572971372637]
適合性のよい問題に対する一サンプルのアプローチは、オンラインテストに多大な計算上の利点をもたらす。
この設定において異常データを正しく否定する能力は、ベース分布のモデルの精度に依存する。
既成の正当性問題に対する既存の手法は、基底分布のモデルが学習されたという事実を考慮に入れない。
本稿では,アンサンブルの任意の構成員に対して,データが異常であれば異常データとなることを考慮し,密度モデルのアンサンブルを訓練することを提案する。
論文 参考訳(メタデータ) (2020-11-11T19:47:46Z) - Uncertainty-aware Self-training for Text Classification with Few Labels [54.13279574908808]
本研究は,アノテーションのボトルネックを軽減するための半教師あり学習手法の1つとして,自己学習について研究する。
本稿では,基礎となるニューラルネットワークの不確実性推定を取り入れて,自己学習を改善する手法を提案する。
本手法では,クラス毎に20~30個のラベル付きサンプルをトレーニングに利用し,完全教師付き事前学習言語モデルの3%以内で検証を行う。
論文 参考訳(メタデータ) (2020-06-27T08:13:58Z) - How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。
データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。
フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文 参考訳(メタデータ) (2020-05-25T12:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。