論文の概要: Progressive Network Grafting for Few-Shot Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2012.04915v2
- Date: Fri, 11 Dec 2020 07:38:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-16 11:58:09.418630
- Title: Progressive Network Grafting for Few-Shot Knowledge Distillation
- Title(参考訳): 少量知識蒸留用プログレッシブネットワークグラフト
- Authors: Chengchao Shen, Xinchao Wang, Youtan Yin, Jie Song, Sihui Luo, Mingli
Song
- Abstract要約: 本稿では, 数ショットデータに適した二段蒸留方式を提案する。
最初のステップでは、生徒のブロックを1つずつ教師に移植し、移植されたブロックのパラメータと他の教師ブロックのパラメータを学習します。
CIFAR10, CIFAR100, ILSVRC-2012で, わずか数サンプルで, 満足のいく結果が得られることを実証した。
- 参考スコア(独自算出の注目度): 60.38608462158474
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation has demonstrated encouraging performances in deep
model compression. Most existing approaches, however, require massive labeled
data to accomplish the knowledge transfer, making the model compression a
cumbersome and costly process. In this paper, we investigate the practical
few-shot knowledge distillation scenario, where we assume only a few samples
without human annotations are available for each category. To this end, we
introduce a principled dual-stage distillation scheme tailored for few-shot
data. In the first step, we graft the student blocks one by one onto the
teacher, and learn the parameters of the grafted block intertwined with those
of the other teacher blocks. In the second step, the trained student blocks are
progressively connected and then together grafted onto the teacher network,
allowing the learned student blocks to adapt themselves to each other and
eventually replace the teacher network. Experiments demonstrate that our
approach, with only a few unlabeled samples, achieves gratifying results on
CIFAR10, CIFAR100, and ILSVRC-2012. On CIFAR10 and CIFAR100, our performances
are even on par with those of knowledge distillation schemes that utilize the
full datasets. The source code is available at
https://github.com/zju-vipa/NetGraft.
- Abstract(参考訳): 知識蒸留は深部モデル圧縮における励振性能を示す。
しかし、既存のアプローチの多くは、知識転送を達成するために大量のラベル付きデータを必要としており、モデル圧縮は面倒でコストのかかるプロセスとなっている。
本稿では,人間アノテーションのないサンプルが各カテゴリにわずか数個しか存在しないと仮定した,実用的マイノリティ蒸留シナリオについて検討する。
そこで本研究では, 数ショットデータに適した二段蒸留方式を提案する。
第1段階では,生徒ブロックを1つずつ教師にグラフトし,他の教師ブロックと連動したグラフトブロックのパラメータを学習する。
第2のステップでは、訓練された学生ブロックは徐々に接続され、教師ネットワークにグラフトされ、学習された学生ブロックが互いに適応し、最終的には教師ネットワークを置き換えることができる。
実験により, CIFAR10, CIFAR100, ILSVRC-2012における実験結果が得られた。
CIFAR10とCIFAR100では、全データセットを利用する知識蒸留方式と同等の性能を示しています。
ソースコードはhttps://github.com/zju-vipa/netgraftで入手できる。
関連論文リスト
- Make a Strong Teacher with Label Assistance: A Novel Knowledge Distillation Approach for Semantic Segmentation [40.80204896051931]
セマンティックセグメンテーションタスクのための新しい知識蒸留手法を提案する。
教師モデルトレーニングでは,ラベルをノイズにし,それをインプットに組み込み,軽量教師のパフォーマンスを効果的に向上させることを提案する。
本手法は,知識蒸留の有効性を高めるだけでなく,教師モデルや学生モデルを選択する際の柔軟性も向上させる。
論文 参考訳(メタデータ) (2024-07-18T08:08:04Z) - Distribution Shift Matters for Knowledge Distillation with Webly
Collected Images [91.66661969598755]
異なる分布間の知識蒸留という新しい手法を提案する(KD$3$)。
まず,教師ネットワークと学生ネットワークの併用予測に基づいて,Webで収集したデータから有用なトレーニングインスタンスを動的に選択する。
また、MixDistributionと呼ばれる新しいコントラスト学習ブロックを構築して、新しい分散のインスタンスアライメントで摂動データを生成します。
論文 参考訳(メタデータ) (2023-07-21T10:08:58Z) - Unbiased Knowledge Distillation for Recommendation [66.82575287129728]
知識蒸留(KD)は推論遅延を低減するためにレコメンダシステム(RS)に応用されている。
従来のソリューションは、まずトレーニングデータから完全な教師モデルを訓練し、その後、その知識を変換して、コンパクトな学生モデルの学習を監督する。
このような標準的な蒸留パラダイムは深刻なバイアス問題を引き起こし、蒸留後に人気アイテムがより強く推奨されることになる。
論文 参考訳(メタデータ) (2022-11-27T05:14:03Z) - Black-box Few-shot Knowledge Distillation [55.27881513982002]
知識蒸留 (KD) は、大きな「教師」ネットワークからより小さな「学生」ネットワークへ知識を伝達する効率的な手法である。
そこで本研究では,未ラベルのトレーニングサンプルとブラックボックスの教師を用いて,学生を訓練するためのブラックボックス数ショットKD手法を提案する。
我々は、画像分類タスクにおいて、最近のSOTA/ゼロショットKD法よりも大幅に優れていることを示すため、広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-07-25T12:16:53Z) - Knowledge Distillation via Instance-level Sequence Learning [25.411142312584698]
事例レベルのシーケンス学習を通したカリキュラム学習知識蒸留フレームワークを提供する。
学生ネットワークの次のトレーニングフェーズのカリキュラムを作成するために、初期のエポックの学生ネットワークをスナップショットとして採用している。
いくつかの最先端の手法と比較して、我々のフレームワークはより少ないイテレーションで最高のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-06-21T06:58:26Z) - Self-distillation with Batch Knowledge Ensembling Improves ImageNet
Classification [57.5041270212206]
本稿では,アンカー画像のためのソフトターゲットを生成するために,BAtch Knowledge Ensembling (BAKE)を提案する。
BAKEは、1つのネットワークだけで複数のサンプルを網羅するオンライン知識を実現する。
既存の知識集合法と比較して計算とメモリのオーバーヘッドは最小限である。
論文 参考訳(メタデータ) (2021-04-27T16:11:45Z) - Dual Discriminator Adversarial Distillation for Data-free Model
Compression [36.49964835173507]
我々は、トレーニングデータやメタデータを使わずにニューラルネットワークを蒸留するために、Dual Discriminator Adversarial Distillation (DDAD)を提案する。
具体的には, 生成器を用いて, 元のトレーニングデータを模倣した二重判別器の対数蒸留法を用いてサンプルを作成する。
提案手法は,教師のネットワークを近い距離で近似する効率的な学生ネットワークである。
論文 参考訳(メタデータ) (2021-04-12T12:01:45Z) - Distilling a Powerful Student Model via Online Knowledge Distillation [158.68873654990895]
既存のオンライン知識蒸留アプローチは、最高のパフォーマンスを持つ学生を採用するか、より良い全体的なパフォーマンスのためのアンサンブルモデルを構築する。
本稿では,機能融合と自己蒸留という2つの要素からなるFFSDと呼ばれる新しいオンライン知識蒸留法を提案する。
論文 参考訳(メタデータ) (2021-03-26T13:54:24Z) - Large-Scale Generative Data-Free Distillation [17.510996270055184]
本質的な正規化層の統計を利用して生成画像モデルを訓練する新しい方法を提案する。
提案手法は, CIFAR-10とCIFAR-100のデータフリー蒸留性能を95.02%, 77.02%に向上させる。
ImageNetデータセットにスケールすることができますが、私たちの知る限り、データフリー環境で生成モデルを使用することは一度もありません。
論文 参考訳(メタデータ) (2020-12-10T10:54:38Z) - Generative Adversarial Simulator [2.3986080077861787]
強化学習における知識蒸留へのシミュレータフリーアプローチを提案する。
重要な課題は、学生に与えられた行動に対応する事例の多様さを学習させることである。
これは教師と学生の政策の間のシミュレータフリーな知識蒸留の初めての実演である。
論文 参考訳(メタデータ) (2020-11-23T15:31:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。