論文の概要: Dual Discriminator Adversarial Distillation for Data-free Model
Compression
- arxiv url: http://arxiv.org/abs/2104.05382v1
- Date: Mon, 12 Apr 2021 12:01:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-13 14:06:06.964345
- Title: Dual Discriminator Adversarial Distillation for Data-free Model
Compression
- Title(参考訳): データフリーモデル圧縮のための二重判別器逆蒸留
- Authors: Haoran Zhao, Xin Sun, Junyu Dong, Hui Yu and Huiyu Zhou
- Abstract要約: 我々は、トレーニングデータやメタデータを使わずにニューラルネットワークを蒸留するために、Dual Discriminator Adversarial Distillation (DDAD)を提案する。
具体的には, 生成器を用いて, 元のトレーニングデータを模倣した二重判別器の対数蒸留法を用いてサンプルを作成する。
提案手法は,教師のネットワークを近い距離で近似する効率的な学生ネットワークである。
- 参考スコア(独自算出の注目度): 36.49964835173507
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation has been widely used to produce portable and efficient
neural networks which can be well applied on edge devices for computer vision
tasks. However, almost all top-performing knowledge distillation methods need
to access the original training data, which usually has a huge size and is
often unavailable. To tackle this problem, we propose a novel data-free
approach in this paper, named Dual Discriminator Adversarial Distillation
(DDAD) to distill a neural network without any training data or meta-data. To
be specific, we use a generator to create samples through dual discriminator
adversarial distillation, which mimics the original training data. The
generator not only uses the pre-trained teacher's intrinsic statistics in
existing batch normalization layers but also obtains the maximum discrepancy
from the student model. Then the generated samples are used to train the
compact student network under the supervision of the teacher. The proposed
method obtains an efficient student network which closely approximates its
teacher network, despite using no original training data. Extensive experiments
are conducted to to demonstrate the effectiveness of the proposed approach on
CIFAR-10, CIFAR-100 and Caltech101 datasets for classification tasks. Moreover,
we extend our method to semantic segmentation tasks on several public datasets
such as CamVid and NYUv2. All experiments show that our method outperforms all
baselines for data-free knowledge distillation.
- Abstract(参考訳): 知識蒸留は、コンピュータビジョンタスクのエッジデバイスによく適用できるポータブルで効率的なニューラルネットワークを作成するために広く使われている。
しかしながら、ほとんどの最高性能の知識蒸留法は、通常大きなサイズを持ち、しばしば利用できない元の訓練データにアクセスする必要がある。
この問題に対処するために,Dual Discriminator Adversarial Distillation (DDAD) と呼ばれる新しいデータフリーアプローチを提案し,トレーニングデータやメタデータを使わずにニューラルネットワークを蒸留する。
具体的には, 生成器を用いて, 元のトレーニングデータを模倣した二重判別器逆蒸留を用いてサンプルを作成する。
この生成器は、既存のバッチ正規化層において、事前学習された教師固有の統計値を使用するだけでなく、学生モデルから最大不一致を得る。
そして、生成したサンプルを用いて教師の指導の下、コンパクトな学生ネットワークを訓練する。
提案手法は,教師のネットワークを密に近似した効率的な学生ネットワークを実現する。
CIFAR-10, CIFAR-100およびCaltech101データセットを用いた分類作業における提案手法の有効性を示すため, 大規模な実験を行った。
さらに,camvid や nyuv2 などの公開データセット上の意味セグメンテーションタスクにも拡張した。
すべての実験結果から,本手法はデータフリーな知識蒸留法において,すべての基準線を上回ります。
関連論文リスト
- Learning Privacy-Preserving Student Networks via Discriminative-Generative Distillation [24.868697898254368]
ディープモデルは、実用デプロイメントにおいてプライバシー漏洩のリスクを引き起こす可能性がある。
本稿では,プライバシー保護深層モデル学習のための識別・生成蒸留手法を提案する。
提案手法は,プライベートデータに対するクエリコストと精度の低下を統一的に制御できる。
論文 参考訳(メタデータ) (2024-09-04T03:06:13Z) - Small Scale Data-Free Knowledge Distillation [37.708282211941416]
小型データフリーな知識蒸留SSD-KDを提案する。
SSD-KDは、適切なサンプルを選択するために、合成サンプルと優先サンプリング関数のバランスをとる。
非常に少量の合成サンプルで蒸留訓練を行うことができる。
論文 参考訳(メタデータ) (2024-06-12T05:09:41Z) - Distribution Shift Matters for Knowledge Distillation with Webly
Collected Images [91.66661969598755]
異なる分布間の知識蒸留という新しい手法を提案する(KD$3$)。
まず,教師ネットワークと学生ネットワークの併用予測に基づいて,Webで収集したデータから有用なトレーニングインスタンスを動的に選択する。
また、MixDistributionと呼ばれる新しいコントラスト学習ブロックを構築して、新しい分散のインスタンスアライメントで摂動データを生成します。
論文 参考訳(メタデータ) (2023-07-21T10:08:58Z) - Exploring Inconsistent Knowledge Distillation for Object Detection with
Data Augmentation [66.25738680429463]
物体検出のための知識蒸留(KD)は、教師モデルから知識を伝達することで、コンパクトな検出器を訓練することを目的としている。
教師モデルの反直感的知覚に固有の知識を蒸留することを目的とした,一貫性のない知識蒸留(IKD)を提案する。
本手法は, 1段, 2段, アンカーフリーの物体検出器において, 最先端のKDベースラインより優れる。
論文 参考訳(メタデータ) (2022-09-20T16:36:28Z) - Learning to Generate Synthetic Training Data using Gradient Matching and
Implicit Differentiation [77.34726150561087]
本稿では,深層ネットワークの訓練に要するデータ量を削減できる各種データ蒸留技術について検討する。
近年の考え方に触発されて, 生成的学習ネットワーク, 勾配マッチング, インプリシット関数理論に基づく新しいデータ蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-03-16T11:45:32Z) - Conditional Generative Data-Free Knowledge Distillation based on
Attention Transfer [0.8594140167290099]
実データを必要としない効率的な携帯ネットワークを訓練するための条件付き生成データフリー知識蒸留(CGDD)フレームワークを提案する。
本フレームワークでは,教師モデルから抽出した知識を除き,事前設定ラベルを付加的な補助情報として導入する。
CIFAR10, CIFAR100, Caltech101では, 99.63%, 99.07%, 99.84%の相対精度が得られた。
論文 参考訳(メタデータ) (2021-12-31T09:23:40Z) - Efficient training of lightweight neural networks using Online
Self-Acquired Knowledge Distillation [51.66271681532262]
オンライン自己獲得知識蒸留(OSAKD)は、ディープニューラルネットワークの性能をオンライン的に向上することを目的としている。
出力特徴空間におけるデータサンプルの未知確率分布を推定するために、k-nnノンパラメトリック密度推定手法を用いる。
論文 参考訳(メタデータ) (2021-08-26T14:01:04Z) - Large-Scale Generative Data-Free Distillation [17.510996270055184]
本質的な正規化層の統計を利用して生成画像モデルを訓練する新しい方法を提案する。
提案手法は, CIFAR-10とCIFAR-100のデータフリー蒸留性能を95.02%, 77.02%に向上させる。
ImageNetデータセットにスケールすることができますが、私たちの知る限り、データフリー環境で生成モデルを使用することは一度もありません。
論文 参考訳(メタデータ) (2020-12-10T10:54:38Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - Data-Free Knowledge Amalgamation via Group-Stack Dual-GAN [80.17705319689139]
複数のシングルタスク/マルチタスクの教師から,多タスクの学生ネットワークを構築するために,データフリーな知識アマルガメート戦略を提案する。
トレーニングデータを持たない提案手法は, フル教師付き手法と比較して, 驚くほど競争力のある結果が得られる。
論文 参考訳(メタデータ) (2020-03-20T03:20:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。