論文の概要: Hybrid Data-Free Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2412.13525v1
- Date: Wed, 18 Dec 2024 05:52:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 16:48:17.221296
- Title: Hybrid Data-Free Knowledge Distillation
- Title(参考訳): ハイブリッドデータフリーな知識蒸留
- Authors: Jialiang Tang, Shuo Chen, Chen Gong,
- Abstract要約: 我々はtextbfHybrtextbfid textbfData-textbfFree textbfDistillation (HiDFD) と呼ばれるデータフリー知識蒸留法を提案する。
我々のHiDFDは、既存の手法の120倍少ない収集データを用いて最先端のパフォーマンスを実現することができる。
- 参考スコア(独自算出の注目度): 11.773963069904955
- License:
- Abstract: Data-free knowledge distillation aims to learn a compact student network from a pre-trained large teacher network without using the original training data of the teacher network. Existing collection-based and generation-based methods train student networks by collecting massive real examples and generating synthetic examples, respectively. However, they inevitably become weak in practical scenarios due to the difficulties in gathering or emulating sufficient real-world data. To solve this problem, we propose a novel method called \textbf{H}ybr\textbf{i}d \textbf{D}ata-\textbf{F}ree \textbf{D}istillation (HiDFD), which leverages only a small amount of collected data as well as generates sufficient examples for training student networks. Our HiDFD comprises two primary modules, \textit{i.e.}, the teacher-guided generation and student distillation. The teacher-guided generation module guides a Generative Adversarial Network (GAN) by the teacher network to produce high-quality synthetic examples from very few real-world collected examples. Specifically, we design a feature integration mechanism to prevent the GAN from overfitting and facilitate the reliable representation learning from the teacher network. Meanwhile, we drive a category frequency smoothing technique via the teacher network to balance the generative training of each category. In the student distillation module, we explore a data inflation strategy to properly utilize a blend of real and synthetic data to train the student network via a classifier-sharing-based feature alignment technique. Intensive experiments across multiple benchmarks demonstrate that our HiDFD can achieve state-of-the-art performance using 120 times less collected data than existing methods. Code is available at https://github.com/tangjialiang97/HiDFD.
- Abstract(参考訳): データフリーな知識蒸留は,教師ネットワークの本来のトレーニングデータを用いることなく,事前学習した大規模教員ネットワークから,コンパクトな学生ネットワークを学習することを目的としている。
既存のコレクションベースおよびジェネレーションベース手法は,大規模な実例を収集し,それぞれ合成例を生成することによって,学生ネットワークを訓練する。
しかし、十分な実世界のデータの収集やエミュレートが困難であるため、現実的なシナリオでは必然的に弱い。
この問題を解決するために,学生ネットワークのトレーニングに十分なデータしか利用できないHiDFD (textbf{H}ybr\textbf{i}d \textbf{D}ata-\textbf{F}ree \textbf{D}istillation) という新しい手法を提案する。
当社のHiDFDは,教師誘導型世代と学生蒸留の2つの主要モジュールから構成されている。
教師誘導生成モジュールは,教師ネットワークによるGAN(Generative Adversarial Network)をガイドし,実世界のごく少数のサンプルから高品質な合成例を生成する。
具体的には,教師ネットワークからGANが過度に適合しないよう機能統合機構を設計し,信頼性の高い表現学習を容易にする。
一方、教師ネットワークを介してカテゴリ周波数平滑化手法を推進し、各カテゴリの生成訓練のバランスをとる。
学生蒸留モジュールでは,実データと合成データのブレンドを適切に利用して,分類器を用いた特徴アライメント技術を用いて学生ネットワークを訓練するためのデータインフレーション戦略を探索する。
複数のベンチマークを対象とした集中的な実験により、既存の手法の120倍少ない収集データを用いて、HiDFDが最先端のパフォーマンスを達成できることが実証された。
コードはhttps://github.com/tangjialiang97/HiDFD.comで入手できる。
関連論文リスト
- Sampling to Distill: Knowledge Transfer from Open-World Data [28.74835717488114]
冗長な生成過程を伴わずにデータ自由知識蒸留(DFKD)タスクのための新しいオープンワールドデータサンプリング蒸留(ODSD)手法を提案する。
まず、適応サンプリングモジュールを用いて、原データの分布に近いオープンワールドデータをサンプリングする。
そこで我々は,学生モデル自体と教師の構造化表現を通して,データ知識を活用するために,複数のデータ例の構造化関係を構築した。
論文 参考訳(メタデータ) (2023-07-31T12:05:55Z) - Distribution Shift Matters for Knowledge Distillation with Webly
Collected Images [91.66661969598755]
異なる分布間の知識蒸留という新しい手法を提案する(KD$3$)。
まず,教師ネットワークと学生ネットワークの併用予測に基づいて,Webで収集したデータから有用なトレーニングインスタンスを動的に選択する。
また、MixDistributionと呼ばれる新しいコントラスト学習ブロックを構築して、新しい分散のインスタンスアライメントで摂動データを生成します。
論文 参考訳(メタデータ) (2023-07-21T10:08:58Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - Synthetic data generation method for data-free knowledge distillation in
regression neural networks [0.0]
知識蒸留は、教師として知られる大きなニューラルネットワークを、学生として知られる小さなニューラルネットワークに圧縮する技術である。
従来, 学生モデルに逆らって学習したジェネレータモデルを用いて, 合成データを生成可能なデータフリー知識蒸留法が提案されてきた。
本研究では, 各種合成データ生成手法の挙動について検討し, 新たな合成データ生成戦略を提案する。
論文 参考訳(メタデータ) (2023-01-11T07:26:00Z) - Teaching What You Should Teach: A Data-Based Distillation Method [20.595460553747163]
知識蒸留フレームワークに「教えるべきものを教える」戦略を導入する。
本稿では,より効率的かつ合理的な蒸留を支援するために,望まれる増補サンプルを探索するデータベース蒸留手法"TST"を提案する。
具体的には,教師の強みと生徒の弱みを補うことを支援する,優先バイアス付きニューラルネットワークベースのデータ拡張モジュールを設計する。
論文 参考訳(メタデータ) (2022-12-11T06:22:14Z) - Dual-Teacher Class-Incremental Learning With Data-Free Generative Replay [49.691610143011566]
クラスインクリメンタルラーニング(CIL)のための2つの新しい知識伝達手法を提案する。
まず,データフリーな生成リプレイ(DF-GR)を提案し,生成モデルからの合成サンプルを用いてCILの破滅的忘れを緩和する。
第2に,2人の教師から1人の生徒に知識蒸留を行うための2つの教員情報蒸留(DT-ID)を導入する。
論文 参考訳(メタデータ) (2021-06-17T22:13:15Z) - Dual Discriminator Adversarial Distillation for Data-free Model
Compression [36.49964835173507]
我々は、トレーニングデータやメタデータを使わずにニューラルネットワークを蒸留するために、Dual Discriminator Adversarial Distillation (DDAD)を提案する。
具体的には, 生成器を用いて, 元のトレーニングデータを模倣した二重判別器の対数蒸留法を用いてサンプルを作成する。
提案手法は,教師のネットワークを近い距離で近似する効率的な学生ネットワークである。
論文 参考訳(メタデータ) (2021-04-12T12:01:45Z) - Progressive Network Grafting for Few-Shot Knowledge Distillation [60.38608462158474]
本稿では, 数ショットデータに適した二段蒸留方式を提案する。
最初のステップでは、生徒のブロックを1つずつ教師に移植し、移植されたブロックのパラメータと他の教師ブロックのパラメータを学習します。
CIFAR10, CIFAR100, ILSVRC-2012で, わずか数サンプルで, 満足のいく結果が得られることを実証した。
論文 参考訳(メタデータ) (2020-12-09T08:34:36Z) - Generative Adversarial Simulator [2.3986080077861787]
強化学習における知識蒸留へのシミュレータフリーアプローチを提案する。
重要な課題は、学生に与えられた行動に対応する事例の多様さを学習させることである。
これは教師と学生の政策の間のシミュレータフリーな知識蒸留の初めての実演である。
論文 参考訳(メタデータ) (2020-11-23T15:31:12Z) - Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。
私たちのフレームワークは、サンプル間の関係をよく保存します。
サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文 参考訳(メタデータ) (2020-07-11T10:57:45Z) - Data-Free Knowledge Amalgamation via Group-Stack Dual-GAN [80.17705319689139]
複数のシングルタスク/マルチタスクの教師から,多タスクの学生ネットワークを構築するために,データフリーな知識アマルガメート戦略を提案する。
トレーニングデータを持たない提案手法は, フル教師付き手法と比較して, 驚くほど競争力のある結果が得られる。
論文 参考訳(メタデータ) (2020-03-20T03:20:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。