論文の概要: Knowledge Diffusion for Distillation
- arxiv url: http://arxiv.org/abs/2305.15712v2
- Date: Mon, 4 Dec 2023 04:38:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 23:16:55.534269
- Title: Knowledge Diffusion for Distillation
- Title(参考訳): 蒸留における知識拡散
- Authors: Tao Huang, Yuan Zhang, Mingkai Zheng, Shan You, Fei Wang, Chen Qian,
Chang Xu
- Abstract要約: 知識蒸留(KD)における教師と学生の表現ギャップ
これらの手法の本質は、ノイズ情報を捨て、その特徴の貴重な情報を蒸留することである。
DiffKDと呼ばれる新しいKD手法を提案し、拡散モデルを用いて特徴を明示的に識別し一致させる。
- 参考スコア(独自算出の注目度): 53.908314960324915
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The representation gap between teacher and student is an emerging topic in
knowledge distillation (KD). To reduce the gap and improve the performance,
current methods often resort to complicated training schemes, loss functions,
and feature alignments, which are task-specific and feature-specific. In this
paper, we state that the essence of these methods is to discard the noisy
information and distill the valuable information in the feature, and propose a
novel KD method dubbed DiffKD, to explicitly denoise and match features using
diffusion models. Our approach is based on the observation that student
features typically contain more noises than teacher features due to the smaller
capacity of student model. To address this, we propose to denoise student
features using a diffusion model trained by teacher features. This allows us to
perform better distillation between the refined clean feature and teacher
feature. Additionally, we introduce a light-weight diffusion model with a
linear autoencoder to reduce the computation cost and an adaptive noise
matching module to improve the denoising performance. Extensive experiments
demonstrate that DiffKD is effective across various types of features and
achieves state-of-the-art performance consistently on image classification,
object detection, and semantic segmentation tasks. Code is available at
https://github.com/hunto/DiffKD.
- Abstract(参考訳): 教師と学生の表現ギャップは知識蒸留(KD)における新たな話題である。
ギャップを減らし、性能を向上させるため、現在の手法では複雑なトレーニングスキーム、損失関数、タスク固有で特徴特有な機能アライメントを利用することが多い。
本稿では,これらの手法の本質は,ノイズ情報を捨て,その特徴に価値ある情報を蒸留することであり,DiffKDと呼ばれる新しいKD手法を提案し,拡散モデルを用いて特徴を明示的に認識・一致させる。
本研究のアプローチは,学生モデルがより少ないため,学生の特徴が教師の特徴よりも多くのノイズを含んでいるという観察に基づいている。
そこで本研究では,教師の特徴を訓練した拡散モデルを用いて,生徒の特徴を解消する手法を提案する。
これにより、精製されたクリーンな特徴と教師の特徴との間により良い蒸留を行うことができる。
さらに, 線形オートエンコーダを用いた軽量拡散モデルを導入し, 計算コストを低減し, 雑音マッチングモジュールの適応化を行い, 雑音除去性能の向上を図る。
大規模な実験により、DiffKDは様々な種類の特徴に対して有効であり、画像分類、オブジェクト検出、セマンティックセグメンテーションタスクにおいて一貫して最先端のパフォーマンスを実現する。
コードはhttps://github.com/hunto/diffkdで入手できる。
関連論文リスト
- Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。
シーケンスレベルでは、シーケンス修正と再生戦略を提案する。
トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。
スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文 参考訳(メタデータ) (2024-07-14T03:51:49Z) - Attention-guided Feature Distillation for Semantic Segmentation [8.344263189293578]
本稿では,改良された特徴写像を用いて注目を伝達するための簡易かつ強力な手法の有効性を示す。
提案手法は, セマンティックセグメンテーションにおける既存手法を高密度な予測課題として優れ, リッチな情報の蒸留に有効であることが証明された。
論文 参考訳(メタデータ) (2024-03-08T16:57:47Z) - On-Policy Distillation of Language Models: Learning from Self-Generated
Mistakes [44.97759066341107]
一般知識蒸留(GKD)は、教師からのフィードバックを活用して、学生を自己生成出力シーケンスで訓練する。
本稿では,自動回帰言語モデルの要約,翻訳,算術的推論におけるGKDの有効性を示す。
論文 参考訳(メタデータ) (2023-06-23T17:56:26Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - Improving Knowledge Distillation via Regularizing Feature Norm and
Direction [16.98806338782858]
知識蒸留(KD)は、大きな訓練されたモデル(例えば教師)を利用して、同じタスクのために同じデータセット上で小さな学生モデルを訓練する。
教師の特徴を知識として扱うこと、知識蒸留訓練の学生は、その特徴を教師の特徴と整合させることによって、例えば、ロジット間のKL偏差を最小化し、中間特徴間のL2距離を最小化する。
教師に対する生徒の特徴の整合性の向上は教師の知識をよりよく蒸留すると考えるのは自然なことだが、単にこの整合性を強制することは生徒のパフォーマンスに直接寄与しない。
論文 参考訳(メタデータ) (2023-05-26T15:05:19Z) - Exploring Inconsistent Knowledge Distillation for Object Detection with
Data Augmentation [66.25738680429463]
物体検出のための知識蒸留(KD)は、教師モデルから知識を伝達することで、コンパクトな検出器を訓練することを目的としている。
教師モデルの反直感的知覚に固有の知識を蒸留することを目的とした,一貫性のない知識蒸留(IKD)を提案する。
本手法は, 1段, 2段, アンカーフリーの物体検出器において, 最先端のKDベースラインより優れる。
論文 参考訳(メタデータ) (2022-09-20T16:36:28Z) - Contrastive Supervised Distillation for Continual Representation
Learning [18.864301420659217]
ニューラルネットワークモデルは、視覚検索タスクにおける破滅的な忘れを緩和するために順次学習される。
Contrastive Supervised Distillation (CSD) と呼ばれる本手法は, 識別的特徴を学習しながら, 特徴忘れを減らす。
論文 参考訳(メタデータ) (2022-05-11T13:20:47Z) - Diffusion-Based Representation Learning [65.55681678004038]
教師付き信号のない表現学習を実現するために,デノナイズスコアマッチングフレームワークを拡張した。
対照的に、拡散に基づく表現学習は、デノナイジングスコアマッチング目的の新しい定式化に依存している。
同じ手法を用いて,半教師付き画像分類における最先端モデルの改善を実現する無限次元潜在符号の学習を提案する。
論文 参考訳(メタデータ) (2021-05-29T09:26:02Z) - Multi-head Knowledge Distillation for Model Compression [65.58705111863814]
そこで本研究では,中間層における特徴マッチングのための補助分類器を用いた簡易実装法を提案する。
提案手法は,本論文で提示された従来手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-05T00:49:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。