論文の概要: Knowledge Distillation: Bad Models Can Be Good Role Models
- arxiv url: http://arxiv.org/abs/2203.14649v1
- Date: Mon, 28 Mar 2022 11:13:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-29 12:44:43.471394
- Title: Knowledge Distillation: Bad Models Can Be Good Role Models
- Title(参考訳): 知識蒸留:悪いモデルは良い役割モデルになり得る
- Authors: Gal Kaplun, Eran Malach, Preetum Nakkiran, Shai Shalev-Shwartz
- Abstract要約: 学習理論の文脈における条件付きサンプリング行動について検討する。
サンプルは悪い分類器でありながら、良い教師であることを示す。
- 参考スコア(独自算出の注目度): 35.92225943440252
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large neural networks trained in the overparameterized regime are able to fit
noise to zero train error. Recent work \citep{nakkiran2020distributional} has
empirically observed that such networks behave as "conditional samplers" from
the noisy distribution. That is, they replicate the noise in the train data to
unseen examples. We give a theoretical framework for studying this conditional
sampling behavior in the context of learning theory. We relate the notion of
such samplers to knowledge distillation, where a student network imitates the
outputs of a teacher on unlabeled data. We show that samplers, while being bad
classifiers, can be good teachers. Concretely, we prove that distillation from
samplers is guaranteed to produce a student which approximates the Bayes
optimal classifier. Finally, we show that some common learning algorithms
(e.g., Nearest-Neighbours and Kernel Machines) can generate samplers when
applied in the overparameterized regime.
- Abstract(参考訳): 過パラメータ構造で訓練された大規模ニューラルネットワークは、ノイズをゼロの列車誤差に適合させることができる。
最近の研究である \citep{nakkiran2020distributional} は、そのようなネットワークがノイズの分布から「条件付きサンプリング」として振る舞うことを経験的に観察している。
つまり、列車データのノイズを再現して、見当たらない例を作るのです。
この条件付サンプリング挙動を学習理論の文脈で研究するための理論的枠組みを提案する。
本稿では,学生ネットワークが教師の出力をラベルのないデータで模倣する,知識蒸留の概念について述べる。
サンプルは悪い分類器であるにもかかわらず、良い教師であることを示す。
具体的には,ベイズ最適分類器を近似した学生を,サンプリング器からの蒸留が保証されることを実証する。
最後に、いくつかの一般的な学習アルゴリズム(例えば、Nearest-NeighboursやKernel Machines)が、オーバーパラメータ化システムに適用した場合、サンプルを生成可能であることを示す。
関連論文リスト
- Wide Two-Layer Networks can Learn from Adversarial Perturbations [27.368408524000778]
摂動学習の反直感的成功を理論的に説明する。
対角摂動は、ネットワークがそれらから一般化するのに十分なクラス固有の特徴を含むことを証明している。
論文 参考訳(メタデータ) (2024-10-31T06:55:57Z) - Manifold DivideMix: A Semi-Supervised Contrastive Learning Framework for
Severe Label Noise [4.90148689564172]
実世界のデータセットには、データセットのどのクラスにも意味のないノイズの多いラベルサンプルが含まれている。
最先端の手法の多くは、IDラベル付きノイズサンプルを半教師付き学習のためのラベルなしデータとして利用する。
自己指導型トレーニングの利点を生かして,すべてのトレーニングデータからの情報を活用することを提案する。
論文 参考訳(メタデータ) (2023-08-13T23:33:33Z) - BatchFormer: Learning to Explore Sample Relationships for Robust
Representation Learning [93.38239238988719]
本稿では,各ミニバッチからサンプル関係を学習可能なディープニューラルネットワークを提案する。
BatchFormerは各ミニバッチのバッチ次元に適用され、トレーニング中のサンプル関係を暗黙的に探索する。
我々は10以上のデータセットに対して広範な実験を行い、提案手法は異なるデータ不足アプリケーションにおいて大幅な改善を実現する。
論文 参考訳(メタデータ) (2022-03-03T05:31:33Z) - Robust Training under Label Noise by Over-parameterization [41.03008228953627]
本稿では,トレーニングラベルの比率が低下した分類タスクにおいて,過パラメータ化深層ネットワークの堅牢なトレーニングを行うための原則的手法を提案する。
ラベルノイズはクリーンデータから学んだネットワークと疎結合なので、ノイズをモデル化してデータから分離することを学びます。
注目すべきは、このような単純な手法を用いて訓練を行う場合、様々な実データに対してラベルノイズに対する最先端のテスト精度を示すことである。
論文 参考訳(メタデータ) (2022-02-28T18:50:10Z) - CrowdTeacher: Robust Co-teaching with Noisy Answers & Sample-specific
Perturbations for Tabular Data [8.276156981100364]
コティーチング手法は、ノイズの多いラベルによるコンピュータビジョン問題に対する有望な改善を示している。
我々のモデルであるcrowdteacherは、入力空間モデルのロバスト性がノイズラベルの分類器の摂動を改善することができるという考えを採用している。
合成データと実データの両方でCrowdTeacherを用いて予測能力の向上を示す。
論文 参考訳(メタデータ) (2021-03-31T15:09:38Z) - Rethinking Soft Labels for Knowledge Distillation: A Bias-Variance
Tradeoff Perspective [63.87421152879726]
軟質ラベルを用いた蒸留によるバイアス分散トレードオフについて検討した。
本稿では,サンプル単位のバイアス分散トレードオフを適応的に処理するための,新しい重み付きソフトラベルを提案する。
論文 参考訳(メタデータ) (2021-02-01T05:53:04Z) - Understanding Classifier Mistakes with Generative Models [88.20470690631372]
ディープニューラルネットワークは教師付き学習タスクに有効であるが、脆弱であることが示されている。
本稿では、生成モデルを利用して、分類器が一般化に失敗するインスタンスを特定し、特徴付ける。
我々のアプローチは、トレーニングセットのクラスラベルに依存しないため、半教師付きでトレーニングされたモデルに適用できる。
論文 参考訳(メタデータ) (2020-10-05T22:13:21Z) - Automatic Recall Machines: Internal Replay, Continual Learning and the
Brain [104.38824285741248]
ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。
本研究では,これらの補助サンプルをフライ時に生成する手法を提案する。
代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用されます。
論文 参考訳(メタデータ) (2020-06-22T15:07:06Z) - Robust and On-the-fly Dataset Denoising for Image Classification [72.10311040730815]
On-the-fly Data Denoising (ODD)は、間違ったラベルの例に対して堅牢だが、通常のトレーニングと比べて計算オーバーヘッドはほぼゼロである。
ODDはWebVisionやClothing1Mといった現実世界のデータセットを含む、幅広いデータセットで最先端の結果を達成することができる。
論文 参考訳(メタデータ) (2020-03-24T03:59:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。