論文の概要: Extracurricular Learning: Knowledge Transfer Beyond Empirical
Distribution
- arxiv url: http://arxiv.org/abs/2007.00051v2
- Date: Fri, 20 Nov 2020 19:11:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 04:52:52.860795
- Title: Extracurricular Learning: Knowledge Transfer Beyond Empirical
Distribution
- Title(参考訳): 課外学習: 経験的分布を超えた知識伝達
- Authors: Hadi Pouransari, Mojan Javaheripi, Vinay Sharma, Oncel Tuzel
- Abstract要約: 本稿では,圧縮された学生モデルと教師とのギャップを埋めるために,課外学習を提案する。
回帰と分類のタスクについて厳密な評価を行い、標準的な知識蒸留と比較すると、課外学習はギャップを46%減らして68%減らすことを示した。
これは、最近のニューラルネットワークアーキテクチャに対する経験的リスク最小化に基づくトレーニングと比較して、大幅な精度向上につながる。
- 参考スコア(独自算出の注目度): 17.996541285382463
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation has been used to transfer knowledge learned by a
sophisticated model (teacher) to a simpler model (student). This technique is
widely used to compress model complexity. However, in most applications the
compressed student model suffers from an accuracy gap with its teacher. We
propose extracurricular learning, a novel knowledge distillation method, that
bridges this gap by (1) modeling student and teacher output distributions; (2)
sampling examples from an approximation to the underlying data distribution;
and (3) matching student and teacher output distributions over this extended
set including uncertain samples. We conduct rigorous evaluations on regression
and classification tasks and show that compared to the standard knowledge
distillation, extracurricular learning reduces the gap by 46% to 68%. This
leads to major accuracy improvements compared to the empirical risk
minimization-based training for various recent neural network architectures:
16% regression error reduction on the MPIIGaze dataset, +3.4% to +9.1%
improvement in top-1 classification accuracy on the CIFAR100 dataset, and +2.9%
top-1 improvement on the ImageNet dataset.
- Abstract(参考訳): 知識蒸留は、洗練されたモデル(教師)によって学んだ知識をより単純なモデル(学生)に移すために使われてきた。
この手法はモデル複雑性の圧縮に広く用いられている。
しかし、ほとんどの応用において、圧縮された学生モデルは教師との精度の差に苦しむ。
本研究では,(1)学生と教師の出力分布をモデル化することで,このギャップを埋める新しい知識蒸留法であるエクセルラーニングを提案し,(2)データ分布への近似からのサンプルサンプル,(3)不確実なサンプルを含むこの拡張セット上の生徒と教師の出力分布をマッチングする。
回帰・分類タスクについて厳密な評価を行い, 標準知識蒸留に比べて, 課外学習はギャップを46%から68%削減することを示した。
これは、MPIIGazeデータセットにおける16%の回帰エラー削減、CIFAR100データセットにおけるトップ1分類精度の+3.4%から+9.1%の改善、ImageNetデータセットにおける+2.9%のトップ1改善などである。
関連論文リスト
- Faithful Label-free Knowledge Distillation [8.572967695281054]
本稿では,中期教師(TinTeM)と呼ばれるラベルフリーな知識蒸留手法を提案する。
より忠実な学生を生み出し、教師ネットワークの振る舞いをよりよく再現し、モデルの堅牢性、一般化可能性、アウト・オブ・ディストリビューション検出などをテストする。
論文 参考訳(メタデータ) (2024-11-22T01:48:44Z) - Distilling Calibrated Student from an Uncalibrated Teacher [8.101116303448586]
校正されていない教師から学生を得る方法を研究する。
当社のアプローチは,カットアウトやミックスアップ,CutMixなど,データ拡張技術の融合によるものです。
従来の知識蒸留を超えて我々のアプローチを拡張し、それに適したものも見出す。
論文 参考訳(メタデータ) (2023-02-22T16:18:38Z) - HomoDistil: Homotopic Task-Agnostic Distillation of Pre-trained
Transformers [49.79405257763856]
本稿では,タスク非依存蒸留に焦点をあてる。
これは、計算コストとメモリフットプリントを小さくして、様々なタスクで簡単に微調整できるコンパクトな事前訓練モデルを生成する。
本稿では, 反復刈り込みによる新規なタスク非依存蒸留法であるHomotopic Distillation (HomoDistil)を提案する。
論文 参考訳(メタデータ) (2023-02-19T17:37:24Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - ProBoost: a Boosting Method for Probabilistic Classifiers [55.970609838687864]
ProBoostは確率的分類器のための新しいブースティングアルゴリズムである。
各トレーニングサンプルの不確実性を使用して、最も困難で不確実なものを決定する。
これは、最も不確実性が高いと判明したサンプルに徐々に焦点をあてる配列を生成する。
論文 参考訳(メタデータ) (2022-09-04T12:49:20Z) - Knowledge Distillation as Semiparametric Inference [44.572422527672416]
モデル圧縮に対する一般的なアプローチは、安価な学生モデルを訓練して、高精度だが面倒な教師モデルのクラス確率を模倣する。
この2段階の知識蒸留プロセスは、しばしばラベル付きデータで直接学生を訓練するよりも高い精度をもたらす。
対象とする最適学生モデルを用いた半パラメトリック推定問題として知識蒸留を行い,未知ベイズ級確率を迷惑として,教師確率をプラグイン迷惑推定として用いた。
論文 参考訳(メタデータ) (2021-04-20T03:00:45Z) - Beyond Self-Supervision: A Simple Yet Effective Network Distillation
Alternative to Improve Backbones [40.33419553042038]
既製のトレーニング済み大型モデルからナレッジ蒸留による既存ベースラインネットワークの改善を提案します。
本ソリューションは,教師モデルと整合した学生モデルの予測のみを駆動することにより,蒸留を行う。
例えば、MobileNetV3-large と ResNet50-D の ImageNet-1k 検証セットにおけるトップ-1 の精度は、大幅に向上できる。
論文 参考訳(メタデータ) (2021-03-10T09:32:44Z) - Learning to Augment for Data-Scarce Domain BERT Knowledge Distillation [55.34995029082051]
本稿では,データスカース領域BERT知識蒸留のための拡張学習法を提案する。
提案手法が4つの異なるタスクにおける最先端のベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2021-01-20T13:07:39Z) - Online Ensemble Model Compression using Knowledge Distillation [51.59021417947258]
本稿では,学生アンサンブルからなる知識蒸留に基づくモデル圧縮フレームワークを提案する。
圧縮された各学生モデルに対して同時に学習したアンサンブル知識の蒸留を可能にする。
フレームワークの有効性を検証するために,最先端の分類モデルを用いた総合的な実験を行った。
論文 参考訳(メタデータ) (2020-11-15T04:46:29Z) - Distilling Object Detectors with Task Adaptive Regularization [97.52935611385179]
現在の最先端のオブジェクト検出器は高い計算コストを犠牲にしており、ローエンドデバイスへのデプロイが困難である。
より大規模な教師モデルから知識を伝達することで、より小さな学生ネットワークを訓練することを目的とした知識蒸留は、モデル小型化のための有望な解決策の1つである。
論文 参考訳(メタデータ) (2020-06-23T15:58:22Z) - An Efficient Method of Training Small Models for Regression Problems
with Knowledge Distillation [1.433758865948252]
回帰問題に対する知識蒸留の新しい定式化を提案する。
まず,教師モデル予測を用いて,教師モデルを用いた学習サンプルの退学率を下げる新たな損失関数,教師の退学率の減少を提案する。
マルチタスクネットワークを考えることで、学生モデルの特徴抽出の訓練がより効果的になる。
論文 参考訳(メタデータ) (2020-02-28T08:46:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。