論文の概要: Self Training with Ensemble of Teacher Models
- arxiv url: http://arxiv.org/abs/2107.08211v1
- Date: Sat, 17 Jul 2021 09:44:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-21 07:29:27.215835
- Title: Self Training with Ensemble of Teacher Models
- Title(参考訳): 教師モデルのアンサンブルによるセルフトレーニング
- Authors: Soumyadeep Ghosh, Sanjay Kumar, Janu Verma and Awanish Kumar
- Abstract要約: 堅牢なディープラーニングモデルのトレーニングには,大量のラベル付きデータが必要である。
このようなラベル付きデータの大規模なリポジトリがなければ、ラベルなしのデータも同様に利用することができる。
準スーパービジョン学習は、そのようなラベルのないデータを分類モデルの訓練に活用することを目的としている。
- 参考スコア(独自算出の注目度): 8.257085583227695
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In order to train robust deep learning models, large amounts of labelled data
is required. However, in the absence of such large repositories of labelled
data, unlabeled data can be exploited for the same. Semi-Supervised learning
aims to utilize such unlabeled data for training classification models. Recent
progress of self-training based approaches have shown promise in this area,
which leads to this study where we utilize an ensemble approach for the same. A
by-product of any semi-supervised approach may be loss of calibration of the
trained model especially in scenarios where unlabeled data may contain
out-of-distribution samples, which leads to this investigation on how to adapt
to such effects. Our proposed algorithm carefully avoids common pitfalls in
utilizing unlabeled data and leads to a more accurate and calibrated supervised
model compared to vanilla self-training based student-teacher algorithms. We
perform several experiments on the popular STL-10 database followed by an
extensive analysis of our approach and study its effects on model accuracy and
calibration.
- Abstract(参考訳): 堅牢なディープラーニングモデルのトレーニングには,大量のラベル付きデータが必要である。
しかし、ラベル付きデータの巨大なリポジトリが存在しない場合、ラベル付きデータも同様に悪用することができる。
半教師付き学習は、そのようなラベルのないデータを分類モデルのトレーニングに利用することを目的としている。
近年の自己学習型アプローチの進歩は,この領域で有望であることが示されており,本研究はアンサンブルアプローチを応用している。
半教師付きアプローチの副産物は、特にラベルのないデータが分配外サンプルを含む可能性があるシナリオにおいて、訓練されたモデルのキャリブレーションの損失である可能性がある。
提案手法はラベルなしデータを利用する場合の一般的な落とし穴を慎重に回避し,バニラ自己学習に基づく学生・教師アルゴリズムと比較して,より正確かつ校正された教師モデルとなる。
人気のあるstl-10データベース上でいくつかの実験を行い,そのアプローチを広範囲に分析し,モデルの精度と校正に与える影響について検討した。
関連論文リスト
- Data Shapley in One Training Run [88.59484417202454]
Data Shapleyは、機械学習コンテキストにおけるデータのコントリビューションに寄与するための、原則化されたフレームワークを提供する。
既存のアプローチでは、計算集約的な異なるデータサブセット上の再学習モデルが必要である。
本稿では、対象とするデータモデルに対するスケーラブルなデータ属性を提供することにより、これらの制限に対処するIn-Run Data Shapleyを紹介する。
論文 参考訳(メタデータ) (2024-06-16T17:09:24Z) - Partially Blinded Unlearning: Class Unlearning for Deep Networks a Bayesian Perspective [4.31734012105466]
マシン・アンラーニング(英: Machine Unlearning)とは、特定のデータセットやクラスに指定された情報を事前訓練されたモデルから選択的に破棄するプロセスである。
本研究では,事前学習した分類ネットワークから,特定の種類のデータに関連付けられた情報の目的的除去に適した手法を提案する。
本手法は,従来の最先端の未学習手法を超越し,優れた有効性を示す。
論文 参考訳(メタデータ) (2024-03-24T17:33:22Z) - The Mirrored Influence Hypothesis: Efficient Data Influence Estimation by Harnessing Forward Passes [30.30769701138665]
我々は、訓練データとテストデータの間の相互影響を浮き彫りにして、ミラーレッド影響仮説を導入し、探求する。
具体的には、テスト予測に対するトレーニングデータの影響を評価することは、等価だが逆問題として再定義することができることを示唆している。
トレーニングポイント毎に前方パスとペアを組むことで,特定のテストサンプルの勾配を計算し,トレーニングデータの影響を推定する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-14T03:43:05Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - Certifying Data-Bias Robustness in Linear Regression [12.00314910031517]
本稿では, 線形回帰モデルが学習データセットのラベルバイアスに対して, ポイントワイズで損なわれているかどうかを検証する手法を提案する。
この問題を個々のテストポイントに対して正確に解く方法を示し、近似的だがよりスケーラブルな方法を提供する。
また、いくつかのデータセット上の特定のバイアス仮定に対して、高いレベルの非腐食性など、バイアス-腐食性のギャップを掘り下げる。
論文 参考訳(メタデータ) (2022-06-07T20:47:07Z) - Semi-supervised Deep Learning for Image Classification with Distribution
Mismatch: A Survey [1.5469452301122175]
ディープラーニングモデルは、予測モデルをトレーニングするためにラベル付き観測の豊富な部分に依存します。
ラベル付きデータ観測を収集することは高価であり、ディープラーニングモデルの使用は理想的ではない。
多くの状況では、異なる非競合データソースが利用可能である。
これにより、ラベル付きデータセットと非ラベル付きデータセットの間にかなりの分散ミスマッチが発生するリスクが生じる。
論文 参考訳(メタデータ) (2022-03-01T02:46:00Z) - Harnessing Unlabeled Data to Improve Generalization of Biometric Gender
and Age Classifiers [0.7874708385247353]
ディープラーニングモデルは、モデルトレーニングと最適パラメータ推定のために、大量のラベル付きデータを必要とする。
プライバシやセキュリティ上の懸念から、医療分野を含む特定のアプリケーションに対して大量のラベル付きデータを収集することはできない。
本稿では,ラベル付きデータに制限を加えた自己アンサンブルに基づくディープラーニングモデルを提案する。
論文 参考訳(メタデータ) (2021-10-09T01:06:01Z) - Scalable Marginal Likelihood Estimation for Model Selection in Deep
Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。
本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文 参考訳(メタデータ) (2021-04-11T09:50:24Z) - Learning from others' mistakes: Avoiding dataset biases without modeling
them [111.17078939377313]
最先端自然言語処理(NLP)モデルは、意図したタスクをターゲットとする機能ではなく、データセットのバイアスや表面形状の相関をモデル化することを学ぶことが多い。
これまでの研究は、バイアスに関する知識が利用できる場合に、これらの問題を回避するための効果的な方法を示してきた。
本稿では,これらの問題点を無視する学習モデルについて述べる。
論文 参考訳(メタデータ) (2020-12-02T16:10:54Z) - Uncertainty-aware Self-training for Text Classification with Few Labels [54.13279574908808]
本研究は,アノテーションのボトルネックを軽減するための半教師あり学習手法の1つとして,自己学習について研究する。
本稿では,基礎となるニューラルネットワークの不確実性推定を取り入れて,自己学習を改善する手法を提案する。
本手法では,クラス毎に20~30個のラベル付きサンプルをトレーニングに利用し,完全教師付き事前学習言語モデルの3%以内で検証を行う。
論文 参考訳(メタデータ) (2020-06-27T08:13:58Z) - How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。
データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。
フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文 参考訳(メタデータ) (2020-05-25T12:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。