論文の概要: Knowledge Diffusion for Distillation
- arxiv url: http://arxiv.org/abs/2305.15712v2
- Date: Mon, 4 Dec 2023 04:38:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 23:16:55.534269
- Title: Knowledge Diffusion for Distillation
- Title(参考訳): 蒸留における知識拡散
- Authors: Tao Huang, Yuan Zhang, Mingkai Zheng, Shan You, Fei Wang, Chen Qian,
Chang Xu
- Abstract要約: 知識蒸留(KD)における教師と学生の表現ギャップ
これらの手法の本質は、ノイズ情報を捨て、その特徴の貴重な情報を蒸留することである。
DiffKDと呼ばれる新しいKD手法を提案し、拡散モデルを用いて特徴を明示的に識別し一致させる。
- 参考スコア(独自算出の注目度): 53.908314960324915
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The representation gap between teacher and student is an emerging topic in
knowledge distillation (KD). To reduce the gap and improve the performance,
current methods often resort to complicated training schemes, loss functions,
and feature alignments, which are task-specific and feature-specific. In this
paper, we state that the essence of these methods is to discard the noisy
information and distill the valuable information in the feature, and propose a
novel KD method dubbed DiffKD, to explicitly denoise and match features using
diffusion models. Our approach is based on the observation that student
features typically contain more noises than teacher features due to the smaller
capacity of student model. To address this, we propose to denoise student
features using a diffusion model trained by teacher features. This allows us to
perform better distillation between the refined clean feature and teacher
feature. Additionally, we introduce a light-weight diffusion model with a
linear autoencoder to reduce the computation cost and an adaptive noise
matching module to improve the denoising performance. Extensive experiments
demonstrate that DiffKD is effective across various types of features and
achieves state-of-the-art performance consistently on image classification,
object detection, and semantic segmentation tasks. Code is available at
https://github.com/hunto/DiffKD.
- Abstract(参考訳): 教師と学生の表現ギャップは知識蒸留(KD)における新たな話題である。
ギャップを減らし、性能を向上させるため、現在の手法では複雑なトレーニングスキーム、損失関数、タスク固有で特徴特有な機能アライメントを利用することが多い。
本稿では,これらの手法の本質は,ノイズ情報を捨て,その特徴に価値ある情報を蒸留することであり,DiffKDと呼ばれる新しいKD手法を提案し,拡散モデルを用いて特徴を明示的に認識・一致させる。
本研究のアプローチは,学生モデルがより少ないため,学生の特徴が教師の特徴よりも多くのノイズを含んでいるという観察に基づいている。
そこで本研究では,教師の特徴を訓練した拡散モデルを用いて,生徒の特徴を解消する手法を提案する。
これにより、精製されたクリーンな特徴と教師の特徴との間により良い蒸留を行うことができる。
さらに, 線形オートエンコーダを用いた軽量拡散モデルを導入し, 計算コストを低減し, 雑音マッチングモジュールの適応化を行い, 雑音除去性能の向上を図る。
大規模な実験により、DiffKDは様々な種類の特徴に対して有効であり、画像分類、オブジェクト検出、セマンティックセグメンテーションタスクにおいて一貫して最先端のパフォーマンスを実現する。
コードはhttps://github.com/hunto/diffkdで入手できる。
関連論文リスト
- Distilling Privileged Multimodal Information for Expression Recognition
using Optimal Transport [48.93868076986549]
本稿では、エントロピー規則化されたOTが構造的な暗黒知識を蒸留する最適輸送(OT)に基づく新しい構造的KD機構を提案する。
痛み推定と覚醒価予測の2つの異なる問題について実験を行った。
論文 参考訳(メタデータ) (2024-01-27T19:44:15Z) - One-for-All: Bridge the Gap Between Heterogeneous Architectures in
Knowledge Distillation [69.65734716679925]
知識蒸留は,教師が指導する学習手法を通じて,モデル性能を向上させる上で,極めて効果的な手法であることが証明されている。
既存の蒸留法のほとんどは、教師と生徒のモデルが同じモデルファミリーに属するという前提で設計されている。
我々は, ヘテロジニアスアーキテクチャ間の蒸留性能を大幅に向上させる, OFA-KDという, 単純で効果的な一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元
論文 参考訳(メタデータ) (2023-10-30T11:13:02Z) - On-Policy Distillation of Language Models: Learning from Self-Generated
Mistakes [44.97759066341107]
一般知識蒸留(GKD)は、教師からのフィードバックを活用して、学生を自己生成出力シーケンスで訓練する。
本稿では,自動回帰言語モデルの要約,翻訳,算術的推論におけるGKDの有効性を示す。
論文 参考訳(メタデータ) (2023-06-23T17:56:26Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - Improving Knowledge Distillation via Regularizing Feature Norm and
Direction [16.98806338782858]
知識蒸留(KD)は、大きな訓練されたモデル(例えば教師)を利用して、同じタスクのために同じデータセット上で小さな学生モデルを訓練する。
教師の特徴を知識として扱うこと、知識蒸留訓練の学生は、その特徴を教師の特徴と整合させることによって、例えば、ロジット間のKL偏差を最小化し、中間特徴間のL2距離を最小化する。
教師に対する生徒の特徴の整合性の向上は教師の知識をよりよく蒸留すると考えるのは自然なことだが、単にこの整合性を強制することは生徒のパフォーマンスに直接寄与しない。
論文 参考訳(メタデータ) (2023-05-26T15:05:19Z) - Exploring Inconsistent Knowledge Distillation for Object Detection with
Data Augmentation [66.25738680429463]
物体検出のための知識蒸留(KD)は、教師モデルから知識を伝達することで、コンパクトな検出器を訓練することを目的としている。
教師モデルの反直感的知覚に固有の知識を蒸留することを目的とした,一貫性のない知識蒸留(IKD)を提案する。
本手法は, 1段, 2段, アンカーフリーの物体検出器において, 最先端のKDベースラインより優れる。
論文 参考訳(メタデータ) (2022-09-20T16:36:28Z) - Contrastive Supervised Distillation for Continual Representation
Learning [18.864301420659217]
ニューラルネットワークモデルは、視覚検索タスクにおける破滅的な忘れを緩和するために順次学習される。
Contrastive Supervised Distillation (CSD) と呼ばれる本手法は, 識別的特徴を学習しながら, 特徴忘れを減らす。
論文 参考訳(メタデータ) (2022-05-11T13:20:47Z) - Anomaly Detection via Reverse Distillation from One-Class Embedding [2.715884199292287]
教師エンコーダと生徒デコーダからなる新しいT-Sモデルを提案する。
生画像を直接受信する代わりに、学生ネットワークは教師モデルの1クラス埋め込みを入力として取り込む。
さらに、T-Sモデルにトレーニング可能な1クラスボトルネック埋め込みモジュールを導入する。
論文 参考訳(メタデータ) (2022-01-26T01:48:37Z) - Multi-head Knowledge Distillation for Model Compression [65.58705111863814]
そこで本研究では,中間層における特徴マッチングのための補助分類器を用いた簡易実装法を提案する。
提案手法は,本論文で提示された従来手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-05T00:49:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。