論文の概要: Pacemaker: Intermediate Teacher Knowledge Distillation For On-The-Fly
Convolutional Neural Network
- arxiv url: http://arxiv.org/abs/2003.03944v1
- Date: Mon, 9 Mar 2020 06:45:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-25 09:02:01.831203
- Title: Pacemaker: Intermediate Teacher Knowledge Distillation For On-The-Fly
Convolutional Neural Network
- Title(参考訳): Pacemaker:オンザフライ畳み込みニューラルネットワークのための中間教師知識蒸留
- Authors: Wonchul Son, Youngbin Kim, Wonseok Song, Youngsu Moon, Wonjun Hwang
- Abstract要約: 飛行中のシステムで畳み込みニューラルネットワークを使用するための中間アンサンブル教師としてのペースメーカー知識蒸留。
提案手法が性能(精度)を大幅に向上することを示す実験を行った。
- 参考スコア(独自算出の注目度): 8.78292475234588
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is a need for an on-the-fly computational process with very low
performance system such as system-on-chip (SoC) and embedded device etc. This
paper presents pacemaker knowledge distillation as intermediate ensemble
teacher to use convolutional neural network in these systems. For on-the-fly
system, we consider student model using 1xN shape on-the-fly filter and teacher
model using normal NxN shape filter. We note three points about training
student model, caused by applying on-the-fly filter. First, same depth but
unavoidable thin model compression. Second, the large capacity gap and
parameter size gap due to only the horizontal field must be selected not the
vertical receptive. Third, the performance instability and degradation of
direct distilling. To solve these problems, we propose intermediate teacher,
named pacemaker, for an on-the-fly student. So, student can be trained from
pacemaker and original teacher step by step. Experiments prove our proposed
method make significant performance (accuracy) improvements: on CIFAR100, 5.39%
increased in WRN-40-4 than conventional knowledge distillation which shows even
low performance than baseline. And we solve train instability, occurred when
conventional knowledge distillation was applied without proposed method, by
reducing deviation range by applying proposed method pacemaker knowledge
distillation.
- Abstract(参考訳): system-on-chip(soc)や組み込みデバイスなど、非常に低パフォーマンスなシステムを持つオンザフライ計算プロセスが必要である。
本稿では,これらのシステムで畳み込みニューラルネットワークを利用する中間アンサンブル教師としてのペースメーカー知識蒸留について述べる。
オンザフライシステムでは,通常のNxN形状フィルタを用いた1xN形状の学生モデルと教師モデルについて検討する。
オンザフライフィルタの適用による学生モデルの訓練について,3点に留意する。
まず、同じ深さだが避けられない薄いモデル圧縮。
第2に,水平場のみによる大容量ギャップとパラメータサイズギャップを,垂直受容器ではなく選択する必要がある。
第三に、直接蒸留の性能不安定と劣化である。
そこで,本研究では,中間教師である pacemaker をオンザフライの学生向けに提案する。
そのため、学生はペースメーカーやオリジナルの教師から段階的に訓練することができる。
cifar100では、wrn-40-4の5.39%が、ベースラインよりも低い性能を示す従来の知識蒸留よりも増加した。
また, 従来の知識蒸留法を適用した際に生じた列車不安定性を, ペースメーカー知識蒸留法の適用による偏差範囲の低減により解決する。
関連論文リスト
- Two-Step Knowledge Distillation for Tiny Speech Enhancement [3.6115850941111964]
小型音声強調モデル蒸留のための新しい2段階手法を提案する。
加重混合蒸留と教師付き損失の標準的なアプローチとは対照的に,我々は知識蒸留の目的のみを用いて,学生を事前訓練する。
また,学生の運動内グラム行列を教師のものと一致させることを目的とした,詳細な類似性保存KD損失を新たに提案する。
論文 参考訳(メタデータ) (2023-09-15T04:19:38Z) - Learning Lightweight Object Detectors via Multi-Teacher Progressive
Distillation [56.053397775016755]
本稿では,教師検出器の知識を学生に段階的に伝達する,知識蒸留への逐次的アプローチを提案する。
私たちの知識を最大限に活用するために、私たちはTransformerベースの教師検出器から、畳み込みベースの学生まで、初めて知識を抽出しました。
論文 参考訳(メタデータ) (2023-08-17T17:17:08Z) - HomoDistil: Homotopic Task-Agnostic Distillation of Pre-trained
Transformers [49.79405257763856]
本稿では,タスク非依存蒸留に焦点をあてる。
これは、計算コストとメモリフットプリントを小さくして、様々なタスクで簡単に微調整できるコンパクトな事前訓練モデルを生成する。
本稿では, 反復刈り込みによる新規なタスク非依存蒸留法であるHomotopic Distillation (HomoDistil)を提案する。
論文 参考訳(メタデータ) (2023-02-19T17:37:24Z) - Unbiased Knowledge Distillation for Recommendation [66.82575287129728]
知識蒸留(KD)は推論遅延を低減するためにレコメンダシステム(RS)に応用されている。
従来のソリューションは、まずトレーニングデータから完全な教師モデルを訓練し、その後、その知識を変換して、コンパクトな学生モデルの学習を監督する。
このような標準的な蒸留パラダイムは深刻なバイアス問題を引き起こし、蒸留後に人気アイテムがより強く推奨されることになる。
論文 参考訳(メタデータ) (2022-11-27T05:14:03Z) - Parameter-Efficient and Student-Friendly Knowledge Distillation [83.56365548607863]
本稿では, PESF-KDというパラメータ効率と学生に優しい知識蒸留法を提案し, 効率的かつ十分な知識伝達を実現する。
各種ベンチマーク実験により,PESF-KDは,高度オンライン蒸留法と比較して,競争力のある結果を得ながら,トレーニングコストを大幅に削減できることが示された。
論文 参考訳(メタデータ) (2022-05-28T16:11:49Z) - Conditional Generative Data-Free Knowledge Distillation based on
Attention Transfer [0.8594140167290099]
実データを必要としない効率的な携帯ネットワークを訓練するための条件付き生成データフリー知識蒸留(CGDD)フレームワークを提案する。
本フレームワークでは,教師モデルから抽出した知識を除き,事前設定ラベルを付加的な補助情報として導入する。
CIFAR10, CIFAR100, Caltech101では, 99.63%, 99.07%, 99.84%の相対精度が得られた。
論文 参考訳(メタデータ) (2021-12-31T09:23:40Z) - Dual Discriminator Adversarial Distillation for Data-free Model
Compression [36.49964835173507]
我々は、トレーニングデータやメタデータを使わずにニューラルネットワークを蒸留するために、Dual Discriminator Adversarial Distillation (DDAD)を提案する。
具体的には, 生成器を用いて, 元のトレーニングデータを模倣した二重判別器の対数蒸留法を用いてサンプルを作成する。
提案手法は,教師のネットワークを近い距離で近似する効率的な学生ネットワークである。
論文 参考訳(メタデータ) (2021-04-12T12:01:45Z) - On Self-Distilling Graph Neural Network [64.00508355508106]
GNN自己蒸留(GNN-SD)と呼ばれるGNNに対する教師なし知識蒸留法を提案する。
本手法は, 組込みグラフの非平滑性を効率よく定量化する, 提案した近傍不一致率(NDR)に基づいて構築する。
また、他の蒸留戦略の誘導に活用できる汎用的なGNN-SDフレームワークについても要約する。
論文 参考訳(メタデータ) (2020-11-04T12:29:33Z) - Distilling Object Detectors with Task Adaptive Regularization [97.52935611385179]
現在の最先端のオブジェクト検出器は高い計算コストを犠牲にしており、ローエンドデバイスへのデプロイが困難である。
より大規模な教師モデルから知識を伝達することで、より小さな学生ネットワークを訓練することを目的とした知識蒸留は、モデル小型化のための有望な解決策の1つである。
論文 参考訳(メタデータ) (2020-06-23T15:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。