論文の概要: Online Ensemble Model Compression using Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2011.07449v1
- Date: Sun, 15 Nov 2020 04:46:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-25 07:21:39.422087
- Title: Online Ensemble Model Compression using Knowledge Distillation
- Title(参考訳): 知識蒸留を用いたオンラインアンサンブルモデル圧縮
- Authors: Devesh Walawalkar, Zhiqiang Shen, Marios Savvides
- Abstract要約: 本稿では,学生アンサンブルからなる知識蒸留に基づくモデル圧縮フレームワークを提案する。
圧縮された各学生モデルに対して同時に学習したアンサンブル知識の蒸留を可能にする。
フレームワークの有効性を検証するために,最先端の分類モデルを用いた総合的な実験を行った。
- 参考スコア(独自算出の注目度): 51.59021417947258
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a novel knowledge distillation based model compression
framework consisting of a student ensemble. It enables distillation of
simultaneously learnt ensemble knowledge onto each of the compressed student
models. Each model learns unique representations from the data distribution due
to its distinct architecture. This helps the ensemble generalize better by
combining every model's knowledge. The distilled students and ensemble teacher
are trained simultaneously without requiring any pretrained weights. Moreover,
our proposed method can deliver multi-compressed students with single training,
which is efficient and flexible for different scenarios. We provide
comprehensive experiments using state-of-the-art classification models to
validate our framework's effectiveness. Notably, using our framework a 97%
compressed ResNet110 student model managed to produce a 10.64% relative
accuracy gain over its individual baseline training on CIFAR100 dataset.
Similarly a 95% compressed DenseNet-BC(k=12) model managed a 8.17% relative
accuracy gain.
- Abstract(参考訳): 本稿では,学生アンサンブルからなる知識蒸留に基づく新しいモデル圧縮フレームワークを提案する。
これにより、圧縮された各学生モデルに同時に学習した知識を蒸留することができる。
各モデルは、独自のアーキテクチャのため、データ分散からユニークな表現を学習する。
このことは、すべてのモデルの知識を組み合わせることで、アンサンブルの一般化に役立つ。
蒸留した生徒とアンサンブルの教師は、事前訓練された体重を必要とせずに同時に訓練される。
さらに,本提案手法は,異なるシナリオに対して効率的かつ柔軟な,シングルトレーニングによるマルチ圧縮学習を実現する。
我々は,最先端の分類モデルを用いた包括的実験を行い,フレームワークの有効性を検証する。
特に、当社のフレームワークを使用して97%の圧縮されたresnet110学生モデルは、cifar100データセット上の個々のベースライントレーニングよりも10.64%の精度向上を達成しました。
同様に95%の圧縮密度ネットbc(k=12)モデルが8.17%の精度向上を達成した。
関連論文リスト
- Generalizing Teacher Networks for Effective Knowledge Distillation Across Student Architectures [4.960025399247103]
Generic Teacher Network (GTN) は、知識を有限のアーキテクチャプールからサンプリングされた任意の学生モデルに効果的に伝達できる汎用的な教師を作成するための、一発のKD-awareトレーニングである。
本手法は, 総合的なKD効果の向上と, プール内の生徒間での総合教師のトレーニングコストの最小化を両立させる。
論文 参考訳(メタデータ) (2024-07-22T20:34:00Z) - Enhancing One-Shot Federated Learning Through Data and Ensemble
Co-Boosting [76.64235084279292]
ワンショットフェデレートラーニング(One-shot Federated Learning, OFL)は,単一のコミュニケーションラウンドを通じてグローバルサーバモデルのトレーニングを可能にする,有望な学習パラダイムである。
合成されたデータとアンサンブルモデルを相互に拡張する新しいフレームワークであるCo-Boostingを導入する。
論文 参考訳(メタデータ) (2024-02-23T03:15:10Z) - PaCKD: Pattern-Clustered Knowledge Distillation for Compressing Memory
Access Prediction Models [2.404163279345609]
PaCKDはMAPモデルを圧縮するためのパターンクラスタ化知識蒸留手法である。
PaCKDは、標準的な知識蒸留で訓練された学生モデルよりも8.70%高い結果を得る。
論文 参考訳(メタデータ) (2024-02-21T00:24:34Z) - One-for-All: Bridge the Gap Between Heterogeneous Architectures in
Knowledge Distillation [69.65734716679925]
知識蒸留は,教師が指導する学習手法を通じて,モデル性能を向上させる上で,極めて効果的な手法であることが証明されている。
既存の蒸留法のほとんどは、教師と生徒のモデルが同じモデルファミリーに属するという前提で設計されている。
我々は, ヘテロジニアスアーキテクチャ間の蒸留性能を大幅に向上させる, OFA-KDという, 単純で効果的な一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元
論文 参考訳(メタデータ) (2023-10-30T11:13:02Z) - CDFKD-MFS: Collaborative Data-free Knowledge Distillation via
Multi-level Feature Sharing [24.794665141853905]
マルチレベル特徴共有によるコラボレーティブなデータフリー知識蒸留というフレームワークを提案する。
提案されたフレームワークの精度は、CIFAR-100データセットでは1.18%、Caltechデータセットでは1.67%、mini-ImageNetデータセットでは2.99%である。
論文 参考訳(メタデータ) (2022-05-24T07:11:03Z) - Beyond Self-Supervision: A Simple Yet Effective Network Distillation
Alternative to Improve Backbones [40.33419553042038]
既製のトレーニング済み大型モデルからナレッジ蒸留による既存ベースラインネットワークの改善を提案します。
本ソリューションは,教師モデルと整合した学生モデルの予測のみを駆動することにより,蒸留を行う。
例えば、MobileNetV3-large と ResNet50-D の ImageNet-1k 検証セットにおけるトップ-1 の精度は、大幅に向上できる。
論文 参考訳(メタデータ) (2021-03-10T09:32:44Z) - Towards Understanding Ensemble, Knowledge Distillation and
Self-Distillation in Deep Learning [93.18238573921629]
本研究では,学習モデルのアンサンブルがテスト精度を向上させる方法と,アンサンブルの優れた性能を単一モデルに蒸留する方法について検討する。
深層学習におけるアンサンブル/知識蒸留は,従来の学習理論とは大きく異なる。
また, 自己蒸留は, アンサンブルと知識蒸留を暗黙的に組み合わせて, 試験精度を向上させることができることを示した。
論文 参考訳(メタデータ) (2020-12-17T18:34:45Z) - Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文 参考訳(メタデータ) (2020-12-11T08:56:39Z) - MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。
妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。
限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文 参考訳(メタデータ) (2020-11-01T18:47:51Z) - Extracurricular Learning: Knowledge Transfer Beyond Empirical
Distribution [17.996541285382463]
本稿では,圧縮された学生モデルと教師とのギャップを埋めるために,課外学習を提案する。
回帰と分類のタスクについて厳密な評価を行い、標準的な知識蒸留と比較すると、課外学習はギャップを46%減らして68%減らすことを示した。
これは、最近のニューラルネットワークアーキテクチャに対する経験的リスク最小化に基づくトレーニングと比較して、大幅な精度向上につながる。
論文 参考訳(メタデータ) (2020-06-30T18:21:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。