論文の概要: Synthetic data generation method for data-free knowledge distillation in
regression neural networks
- arxiv url: http://arxiv.org/abs/2301.04338v1
- Date: Wed, 11 Jan 2023 07:26:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-12 17:09:58.723551
- Title: Synthetic data generation method for data-free knowledge distillation in
regression neural networks
- Title(参考訳): 回帰ニューラルネットワークにおけるデータフリー知識蒸留のための合成データ生成法
- Authors: Tianxun Zhou, Keng-Hwee Chiam
- Abstract要約: 知識蒸留は、教師として知られる大きなニューラルネットワークを、学生として知られる小さなニューラルネットワークに圧縮する技術である。
従来, 学生モデルに逆らって学習したジェネレータモデルを用いて, 合成データを生成可能なデータフリー知識蒸留法が提案されてきた。
本研究では, 各種合成データ生成手法の挙動について検討し, 新たな合成データ生成戦略を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation is the technique of compressing a larger neural
network, known as the teacher, into a smaller neural network, known as the
student, while still trying to maintain the performance of the larger neural
network as much as possible. Existing methods of knowledge distillation are
mostly applicable for classification tasks. Many of them also require access to
the data used to train the teacher model. To address the problem of knowledge
distillation for regression tasks under the absence of original training data,
previous work has proposed a data-free knowledge distillation method where
synthetic data are generated using a generator model trained adversarially
against the student model. These synthetic data and their labels predicted by
the teacher model are then used to train the student model. In this study, we
investigate the behavior of various synthetic data generation methods and
propose a new synthetic data generation strategy that directly optimizes for a
large but bounded difference between the student and teacher model. Our results
on benchmark and case study experiments demonstrate that the proposed strategy
allows the student model to learn better and emulate the performance of the
teacher model more closely.
- Abstract(参考訳): 知識蒸留(英: knowledge distillation)は、教師として知られるより大きなニューラルネットワークを、学生と呼ばれるより小さなニューラルネットワークに圧縮する技術である。
既存の知識蒸留の方法は、主に分類作業に当てはまる。
それらの多くは、教師モデルのトレーニングに使用されるデータへのアクセスも必要です。
従来の学習データのない回帰作業における知識蒸留の課題に対処するため, 学生モデルに逆らって学習したジェネレータモデルを用いて, 合成データを生成可能なデータフリー知識蒸留法を提案した。
これらの合成データとその教師モデルによって予測されるラベルは、学生モデルのトレーニングに使用される。
本研究では,様々な合成データ生成手法の振る舞いを調査し,生徒と教師のモデル間の大きくて限定的な差を直接最適化する新しい合成データ生成戦略を提案する。
ベンチマークおよびケーススタディ実験の結果から,提案手法により,生徒モデルがより良く学び,教師モデルのパフォーマンスをよりよくエミュレートできることが示されている。
関連論文リスト
- Faithful Label-free Knowledge Distillation [8.572967695281054]
本稿では,中期教師(TinTeM)と呼ばれるラベルフリーな知識蒸留手法を提案する。
より忠実な学生を生み出し、教師ネットワークの振る舞いをよりよく再現し、モデルの堅牢性、一般化可能性、アウト・オブ・ディストリビューション検出などをテストする。
論文 参考訳(メタデータ) (2024-11-22T01:48:44Z) - Optimizing Dense Feed-Forward Neural Networks [0.0]
本稿では,プルーニングと移動学習に基づくフィードフォワードニューラルネットワークの構築手法を提案する。
提案手法では,パラメータ数を70%以上圧縮できる。
また、ニューラルネットワークをスクラッチからトレーニングしたモデルと元のモデルを比較し、トランスファー学習レベルを評価した。
論文 参考訳(メタデータ) (2023-12-16T23:23:16Z) - Customizing Synthetic Data for Data-Free Student Learning [6.8080936803807734]
DFKDは、オリジナルトレーニングデータなしで軽量な学生モデルを得ることを目指している。
生徒モデルをより効果的に訓練するために、合成データを現在の学生学習能力に合わせてカスタマイズする。
本稿では,データ自由学習(CSD)のための合成データのカスタマイズを提案する。
論文 参考訳(メタデータ) (2023-07-10T13:17:29Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - Directed Acyclic Graph Factorization Machines for CTR Prediction via
Knowledge Distillation [65.62538699160085]
本稿では,既存の複雑な相互作用モデルから,知識蒸留によるCTR予測のための高次特徴相互作用を学習するための非巡回グラフファクトリゼーションマシン(KD-DAGFM)を提案する。
KD-DAGFMは、オンラインとオフラインの両方の実験において、最先端のFLOPの21.5%未満で最高の性能を達成する。
論文 参考訳(メタデータ) (2022-11-21T03:09:42Z) - Learning to Generate Synthetic Training Data using Gradient Matching and
Implicit Differentiation [77.34726150561087]
本稿では,深層ネットワークの訓練に要するデータ量を削減できる各種データ蒸留技術について検討する。
近年の考え方に触発されて, 生成的学習ネットワーク, 勾配マッチング, インプリシット関数理論に基づく新しいデータ蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-03-16T11:45:32Z) - Learning to Augment for Data-Scarce Domain BERT Knowledge Distillation [55.34995029082051]
本稿では,データスカース領域BERT知識蒸留のための拡張学習法を提案する。
提案手法が4つの異なるタスクにおける最先端のベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2021-01-20T13:07:39Z) - Generative Adversarial Simulator [2.3986080077861787]
強化学習における知識蒸留へのシミュレータフリーアプローチを提案する。
重要な課題は、学生に与えられた行動に対応する事例の多様さを学習させることである。
これは教師と学生の政策の間のシミュレータフリーな知識蒸留の初めての実演である。
論文 参考訳(メタデータ) (2020-11-23T15:31:12Z) - Neural Networks Are More Productive Teachers Than Human Raters: Active
Mixup for Data-Efficient Knowledge Distillation from a Blackbox Model [57.41841346459995]
我々は,ブラックボックス教師モデルから知識を抽出し,学生の深層ニューラルネットワークを視覚認識のために訓練する方法を,データ効率のよい方法で研究する。
混合学習とアクティブラーニングを融合した手法を提案する。
論文 参考訳(メタデータ) (2020-03-31T05:44:55Z) - An Efficient Method of Training Small Models for Regression Problems
with Knowledge Distillation [1.433758865948252]
回帰問題に対する知識蒸留の新しい定式化を提案する。
まず,教師モデル予測を用いて,教師モデルを用いた学習サンプルの退学率を下げる新たな損失関数,教師の退学率の減少を提案する。
マルチタスクネットワークを考えることで、学生モデルの特徴抽出の訓練がより効果的になる。
論文 参考訳(メタデータ) (2020-02-28T08:46:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。