論文の概要: Distribution Shift Matters for Knowledge Distillation with Webly
Collected Images
- arxiv url: http://arxiv.org/abs/2307.11469v1
- Date: Fri, 21 Jul 2023 10:08:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-24 12:50:47.083969
- Title: Distribution Shift Matters for Knowledge Distillation with Webly
Collected Images
- Title(参考訳): Web 収集画像を用いた知識蒸留における分布シフト
- Authors: Jialiang Tang, Shuo Chen, Gang Niu, Masashi Sugiyama, Chen Gong
- Abstract要約: 異なる分布間の知識蒸留という新しい手法を提案する(KD$3$)。
まず,教師ネットワークと学生ネットワークの併用予測に基づいて,Webで収集したデータから有用なトレーニングインスタンスを動的に選択する。
また、MixDistributionと呼ばれる新しいコントラスト学習ブロックを構築して、新しい分散のインスタンスアライメントで摂動データを生成します。
- 参考スコア(独自算出の注目度): 91.66661969598755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation aims to learn a lightweight student network from a
pre-trained teacher network. In practice, existing knowledge distillation
methods are usually infeasible when the original training data is unavailable
due to some privacy issues and data management considerations. Therefore,
data-free knowledge distillation approaches proposed to collect training
instances from the Internet. However, most of them have ignored the common
distribution shift between the instances from original training data and webly
collected data, affecting the reliability of the trained student network. To
solve this problem, we propose a novel method dubbed ``Knowledge Distillation
between Different Distributions" (KD$^{3}$), which consists of three
components. Specifically, we first dynamically select useful training instances
from the webly collected data according to the combined predictions of teacher
network and student network. Subsequently, we align both the weighted features
and classifier parameters of the two networks for knowledge memorization.
Meanwhile, we also build a new contrastive learning block called
MixDistribution to generate perturbed data with a new distribution for instance
alignment, so that the student network can further learn a
distribution-invariant representation. Intensive experiments on various
benchmark datasets demonstrate that our proposed KD$^{3}$ can outperform the
state-of-the-art data-free knowledge distillation approaches.
- Abstract(参考訳): 知識蒸留は,教師ネットワークから軽量な学生ネットワークを学習することを目的としている。
実際、既存の知識蒸留法は、プライバシの問題やデータ管理の考慮により、元のトレーニングデータが利用できない場合、通常は不可能である。
そのため,インターネットからトレーニングインスタンスを収集するためのデータフリー知識蒸留手法が提案されている。
しかし、そのほとんどは、元のトレーニングデータとWebで収集したデータとの共通分散シフトを無視しており、訓練された学生ネットワークの信頼性に影響を与える。
そこで本研究では, 3成分からなる「異なる分布間の知識蒸留」(kd$^{3}$)という新しい方法を提案する。
具体的には,教師ネットワークと学生ネットワークの複合予測に基づいて,webで収集したデータから有用なトレーニングインスタンスを動的に選択する。
その後、2つのネットワークの重み付け特徴と分類器パラメータを整列させて知識記憶を行う。
また,mixdistributionと呼ばれる新しいコントラスト学習ブロックを構築し,学習者のネットワークがさらに分散不変表現を学習できるように,新しい分布を用いた摂動データを生成する。
様々なベンチマークデータセットにおける集中的な実験は、提案するkd$^{3}$が最先端のデータフリー知識蒸留アプローチを上回ることを示しています。
関連論文リスト
- Small Scale Data-Free Knowledge Distillation [37.708282211941416]
小型データフリーな知識蒸留SSD-KDを提案する。
SSD-KDは、適切なサンプルを選択するために、合成サンプルと優先サンプリング関数のバランスをとる。
非常に少量の合成サンプルで蒸留訓練を行うことができる。
論文 参考訳(メタデータ) (2024-06-12T05:09:41Z) - Direct Distillation between Different Domains [97.39470334253163]
異なるドメイン間の直接蒸留(4Ds)と呼ばれる新しいワンステージ手法を提案する。
まず、Fourier変換に基づいて学習可能なアダプタを設計し、ドメイン固有の知識からドメイン不変知識を分離する。
次に、価値あるドメイン不変知識を学生ネットワークに転送するための融合活性化機構を構築する。
論文 参考訳(メタデータ) (2024-01-12T02:48:51Z) - Learning to Retain while Acquiring: Combating Distribution-Shift in
Adversarial Data-Free Knowledge Distillation [31.294947552032088]
データフリーな知識蒸留(DFKD)は、教師から学生ニューラルネットワークへの知識伝達を、訓練データがない状態で行うという基本的な考え方により、近年人気を集めている。
本稿では,メタトレインとメタテストとして,知識獲得(新たに生成されたサンプルからの学習)と知識保持(以前に得られたサンプルの知識の保持)の課題を取り扱うことで,メタ学習にインスパイアされたフレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-28T03:50:56Z) - Learning to Generate Synthetic Training Data using Gradient Matching and
Implicit Differentiation [77.34726150561087]
本稿では,深層ネットワークの訓練に要するデータ量を削減できる各種データ蒸留技術について検討する。
近年の考え方に触発されて, 生成的学習ネットワーク, 勾配マッチング, インプリシット関数理論に基づく新しいデータ蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-03-16T11:45:32Z) - BatchFormer: Learning to Explore Sample Relationships for Robust
Representation Learning [93.38239238988719]
本稿では,各ミニバッチからサンプル関係を学習可能なディープニューラルネットワークを提案する。
BatchFormerは各ミニバッチのバッチ次元に適用され、トレーニング中のサンプル関係を暗黙的に探索する。
我々は10以上のデータセットに対して広範な実験を行い、提案手法は異なるデータ不足アプリケーションにおいて大幅な改善を実現する。
論文 参考訳(メタデータ) (2022-03-03T05:31:33Z) - Efficient training of lightweight neural networks using Online
Self-Acquired Knowledge Distillation [51.66271681532262]
オンライン自己獲得知識蒸留(OSAKD)は、ディープニューラルネットワークの性能をオンライン的に向上することを目的としている。
出力特徴空間におけるデータサンプルの未知確率分布を推定するために、k-nnノンパラメトリック密度推定手法を用いる。
論文 参考訳(メタデータ) (2021-08-26T14:01:04Z) - Dual Discriminator Adversarial Distillation for Data-free Model
Compression [36.49964835173507]
我々は、トレーニングデータやメタデータを使わずにニューラルネットワークを蒸留するために、Dual Discriminator Adversarial Distillation (DDAD)を提案する。
具体的には, 生成器を用いて, 元のトレーニングデータを模倣した二重判別器の対数蒸留法を用いてサンプルを作成する。
提案手法は,教師のネットワークを近い距離で近似する効率的な学生ネットワークである。
論文 参考訳(メタデータ) (2021-04-12T12:01:45Z) - Data-Free Knowledge Distillation with Soft Targeted Transfer Set
Synthesis [8.87104231451079]
知識蒸留(KD)は、ディープニューラルネットワーク圧縮に有効なアプローチであることが証明されている。
従来のkdでは、転送された知識は通常、トレーニングサンプルを教師ネットワークに供給することで得られる。
元のトレーニングデータセットは、ストレージコストやプライバシーの問題のために常に利用できるとは限らない。
本研究では,教師の中間特徴空間をモデル化し,データフリーなKD手法を提案する。
論文 参考訳(メタデータ) (2021-04-10T22:42:14Z) - Data-free Knowledge Distillation for Segmentation using Data-Enriching
GAN [0.0]
データフリー環境で知識蒸留を行うための新しいトレーニングフレームワークを提案する。
これまでのアプローチよりも6.93%改善しています。
論文 参考訳(メタデータ) (2020-11-02T08:16:42Z) - DivideMix: Learning with Noisy Labels as Semi-supervised Learning [111.03364864022261]
ノイズラベルを学習するためのフレームワークであるDivideMixを提案する。
複数のベンチマークデータセットの実験は、最先端の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-02-18T06:20:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。