論文の概要: Teacher as a Lenient Expert: Teacher-Agnostic Data-Free Knowledge
Distillation
- arxiv url: http://arxiv.org/abs/2402.12406v1
- Date: Sun, 18 Feb 2024 08:13:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 18:50:08.526487
- Title: Teacher as a Lenient Expert: Teacher-Agnostic Data-Free Knowledge
Distillation
- Title(参考訳): 教師としての教師 : 教師非依存のデータフリー知識蒸留
- Authors: Hyunjune Shin, Dong-Wan Choi
- Abstract要約: 教師に依存しないデータフリー知識蒸留法(TA-DFKD)を提案する。
我々の基本的な考え方は、教師モデルに、そのクラスをジェネレータに強制する厳格な監督者ではなく、サンプルを評価するための優れた専門家の役割を割り当てることである。
本手法は,既存のDFKD法よりも優れた性能を示しながら,教師モデル間での堅牢性と訓練安定性の両立を実現している。
- 参考スコア(独自算出の注目度): 5.710971447109951
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data-free knowledge distillation (DFKD) aims to distill pretrained knowledge
to a student model with the help of a generator without using original data. In
such data-free scenarios, achieving stable performance of DFKD is essential due
to the unavailability of validation data. Unfortunately, this paper has
discovered that existing DFKD methods are quite sensitive to different teacher
models, occasionally showing catastrophic failures of distillation, even when
using well-trained teacher models. Our observation is that the generator in
DFKD is not always guaranteed to produce precise yet diverse samples using the
existing representative strategy of minimizing both class-prior and adversarial
losses. Through our empirical study, we focus on the fact that class-prior not
only decreases the diversity of generated samples, but also cannot completely
address the problem of generating unexpectedly low-quality samples depending on
teacher models. In this paper, we propose the teacher-agnostic data-free
knowledge distillation (TA-DFKD) method, with the goal of more robust and
stable performance regardless of teacher models. Our basic idea is to assign
the teacher model a lenient expert role for evaluating samples, rather than a
strict supervisor that enforces its class-prior on the generator. Specifically,
we design a sample selection approach that takes only clean samples verified by
the teacher model without imposing restrictions on the power of generating
diverse samples. Through extensive experiments, we show that our method
successfully achieves both robustness and training stability across various
teacher models, while outperforming the existing DFKD methods.
- Abstract(参考訳): data-free knowledge distillation (dfkd) は、学習済みの知識を、元のデータを使わずに、ジェネレータの助けを借りて学生モデルに蒸留することを目的としている。
このようなデータのないシナリオでは、DFKDの安定した性能を達成することが不可欠である。
残念ながら,既存のDFKD法は様々な教師モデルに非常に敏感であり,よく訓練された教師モデルを用いても,蒸留の破滅的な失敗を示すことがある。
DFKDのジェネレータは,クラスプライアロスと対角損失の最小化という従来の代表的戦略を用いて,正確かつ多様なサンプルを生成することが常に保証されているわけではない。
実験では,クラス優先が生成したサンプルの多様性を減少させるだけでなく,教師モデルによって予期せぬほど低品質なサンプルを生成する問題に完全に対処できないことに着目した。
本稿では,教師モデルによらず,より堅牢で安定した性能を目指して,教師に依存しないデータフリー知識蒸留法(TA-DFKD)を提案する。
私たちの基本的な考え方は、ジェネレータにクラス優先を強制する厳格な監督者ではなく、教師モデルにサンプルを評価するための寛大な専門家の役割を割り当てることです。
具体的には,教師モデルによって検証されたクリーンなサンプルのみを取り出すサンプル選択手法を,多様なサンプル生成のパワーに制約を課さずに設計する。
実験により,既存のDFKD法よりも高い性能を示しながら,様々な教師モデルにおける頑健さと訓練安定性を両立させることができた。
関連論文リスト
- Speculative Knowledge Distillation: Bridging the Teacher-Student Gap Through Interleaved Sampling [81.00825302340984]
本研究では,高品質なトレーニングデータを生成するために,投機的知識蒸留(SKD)を導入する。
SKDでは、学生はトークンを提案し、教師はそれ自身の分布に基づいて低いランクのトークンを置き換える。
翻訳,要約,数学,指示文など,各種テキスト生成タスクにおけるSKDの評価を行った。
論文 参考訳(メタデータ) (2024-10-15T06:51:25Z) - Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - Improve Knowledge Distillation via Label Revision and Data Selection [37.74822443555646]
本稿では,教師の不正確な予測を基礎的真理を用いて修正することを提案する。
後者では,教師が指導する適切なトレーニングサンプルを選択するためのデータ選択手法を提案する。
実験の結果,提案手法の有効性を実証し,他の蒸留法と組み合わせることができることを示した。
論文 参考訳(メタデータ) (2024-04-03T02:41:16Z) - Periodically Exchange Teacher-Student for Source-Free Object Detection [7.222926042027062]
Source-free Object Detection (SFOD) は、ソースドメインデータがない場合に、未ラベルのターゲットドメインデータにソース検出器を適用することを目的としている。
ほとんどのSFOD法は、学生モデルを1つの教師モデルのみで指導する平均教師(MT)フレームワークを用いて、同じ自己学習パラダイムに従っている。
静的教師, 動的教師, 学生モデルからなる複数教師の枠組みを導入する, シンプルながら斬新な手法であるPETS法を提案する。
論文 参考訳(メタデータ) (2023-11-23T11:30:54Z) - Comparative Knowledge Distillation [102.35425896967791]
伝統的な知識蒸留(KD)は、頻繁な推論のために教師モデルに容易にアクセスできることを前提としている。
本稿では,教師モデルにおけるサンプルの解釈の微妙な違いを学生モデルに理解させるための比較知識蒸留(CKD)を提案する。
CKDは、アートデータ拡張とKDテクニックの状態を一貫して上回る。
論文 参考訳(メタデータ) (2023-11-03T21:55:33Z) - Lightweight Self-Knowledge Distillation with Multi-source Information
Fusion [3.107478665474057]
知識蒸留(KD)は、ニューラルネットワークモデル間で知識を伝達する強力な技術である。
マルチソース情報を利用してより情報のある教師を構築する軽量なSKDフレームワークを提案する。
提案するDRG, DSR, およびそれらの組み合わせの性能を, 各種データセットおよびモデルに関する総合的な実験により検証する。
論文 参考訳(メタデータ) (2023-05-16T05:46:31Z) - Exploring Inconsistent Knowledge Distillation for Object Detection with
Data Augmentation [66.25738680429463]
物体検出のための知識蒸留(KD)は、教師モデルから知識を伝達することで、コンパクトな検出器を訓練することを目的としている。
教師モデルの反直感的知覚に固有の知識を蒸留することを目的とした,一貫性のない知識蒸留(IKD)を提案する。
本手法は, 1段, 2段, アンカーフリーの物体検出器において, 最先端のKDベースラインより優れる。
論文 参考訳(メタデータ) (2022-09-20T16:36:28Z) - Anomaly Detection via Reverse Distillation from One-Class Embedding [2.715884199292287]
教師エンコーダと生徒デコーダからなる新しいT-Sモデルを提案する。
生画像を直接受信する代わりに、学生ネットワークは教師モデルの1クラス埋め込みを入力として取り込む。
さらに、T-Sモデルにトレーニング可能な1クラスボトルネック埋め込みモジュールを導入する。
論文 参考訳(メタデータ) (2022-01-26T01:48:37Z) - How and When Adversarial Robustness Transfers in Knowledge Distillation? [137.11016173468457]
本稿では,教師モデルから学生モデルへの知識蒸留(KD)における対向ロバスト性の移行について検討する。
我々は,標準的なKDトレーニングが対向的堅牢性を維持するのに失敗することを示すとともに,KDIGA(入力勾配アライメント)を併用したKDを提案する。
特定の前提の下では、提案したKDIGAを用いた学生モデルは、少なくとも教師モデルと同じ確証された堅牢性を達成することができることを証明している。
論文 参考訳(メタデータ) (2021-10-22T21:30:53Z) - Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文 参考訳(メタデータ) (2020-12-11T08:56:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。