論文の概要: Rethinking Decoupled Knowledge Distillation: A Predictive Distribution Perspective
- arxiv url: http://arxiv.org/abs/2512.04625v1
- Date: Thu, 04 Dec 2025 09:56:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.101057
- Title: Rethinking Decoupled Knowledge Distillation: A Predictive Distribution Perspective
- Title(参考訳): 切り離された知識蒸留を再考する:予測的分布の視点
- Authors: Bowen Zheng, Ran Cheng,
- Abstract要約: Decoupled Knowledge Distillation (DKD)は、高度なデカップリングと戦略を通じて、ロジット知識の重要性を再強調する。
汎用デカップリング型知識蒸留(GDKD)の損失を低減した拡張版を導入する。
従来のDKDおよび他の先進的知識蒸留法と比較して,GDKDの優れた性能を示す。
- 参考スコア(独自算出の注目度): 9.10299144143817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the history of knowledge distillation, the focus has once shifted over time from logit-based to feature-based approaches. However, this transition has been revisited with the advent of Decoupled Knowledge Distillation (DKD), which re-emphasizes the importance of logit knowledge through advanced decoupling and weighting strategies. While DKD marks a significant advancement, its underlying mechanisms merit deeper exploration. As a response, we rethink DKD from a predictive distribution perspective. First, we introduce an enhanced version, the Generalized Decoupled Knowledge Distillation (GDKD) loss, which offers a more versatile method for decoupling logits. Then we pay particular attention to the teacher model's predictive distribution and its impact on the gradients of GDKD loss, uncovering two critical insights often overlooked: (1) the partitioning by the top logit considerably improves the interrelationship of non-top logits, and (2) amplifying the focus on the distillation loss of non-top logits enhances the knowledge extraction among them. Utilizing these insights, we further propose a streamlined GDKD algorithm with an efficient partition strategy to handle the multimodality of teacher models' predictive distribution. Our comprehensive experiments conducted on a variety of benchmarks, including CIFAR-100, ImageNet, Tiny-ImageNet, CUB-200-2011, and Cityscapes, demonstrate GDKD's superior performance over both the original DKD and other leading knowledge distillation methods. The code is available at https://github.com/ZaberKo/GDKD.
- Abstract(参考訳): 知識蒸留の歴史において、焦点はかつてロジットベースのアプローチから特徴ベースのアプローチに移行した。
しかし、この移行は、先進的な疎結合と重み付け戦略を通じてロジット知識の重要性を再強調する脱結合知識蒸留(DKD)の出現によって再考されている。
DKDは重要な進歩を示すが、その基盤となるメカニズムはより深い探査に役立つ。
そこで我々は,DKDを予測分布の観点から再考する。
まず,汎用デカップリング型知識蒸留 (GDKD) の損失を減らし,ロジットを脱カップリングするより汎用的な方法を提案する。
次に,教師モデルの予測分布とGDKD損失の勾配への影響に注目し,(1)トップロジットによる分割は非トップロジットの相互関係を著しく改善し,(2)非トップロジットの蒸留損失への焦点を拡大することで,知識抽出を促進するという2つの重要な洞察をしばしば見落としている。
これらの知見を生かして,教師モデルの予測分布の多様性を扱うために,効率的な分割戦略を備えた合理化GDKDアルゴリズムを提案する。
CIFAR-100, ImageNet, Tiny-ImageNet, CUB-200-2011, Cityscapes など,様々なベンチマークで実施した総合的な実験により, GDKD が元の DKD と他の先進的な知識蒸留法よりも優れた性能を示した。
コードはhttps://github.com/ZaberKo/GDKDで入手できる。
関連論文リスト
- TopKD: Top-scaled Knowledge Distillation [12.589031892370809]
Top-scaled Knowledge Distillation (TopKD)は、ロジットベースの蒸留を大幅に強化するシンプルで効率的でアーキテクチャに依存しないフレームワークである。
CIFAR-100、ImageNet、STL-10、Tiny-ImageNetの実験では、TopKDは最先端の蒸留法を一貫して超越している。
論文 参考訳(メタデータ) (2025-08-06T15:26:08Z) - On Distilling the Displacement Knowledge for Few-Shot Class-Incremental Learning [17.819582979803286]
FSCIL(Few-shot Class-Incremental Learning)は、データ分散の進化と、現実のシナリオにおけるデータ取得の難しさに対処する。
FSCILでよく見られる破滅的な忘れ事に対処するために、知識の蒸留は、学習されたデータ分布から知識を維持する方法として用いられる。
論文 参考訳(メタデータ) (2024-12-15T02:10:18Z) - Relative Difficulty Distillation for Semantic Segmentation [54.76143187709987]
我々は,Relative Difficulty Distillation (RDD) というセマンティックセグメンテーションのための画素レベルのKDパラダイムを提案する。
RDDにより、教師ネットワークは、追加の最適化目標を伴わずに、学習焦点に対する効果的なガイダンスを提供することができる。
我々の研究は、RDDが既存のKDメソッドと統合して、上位パフォーマンスバウンダリを改善できることを示します。
論文 参考訳(メタデータ) (2024-07-04T08:08:25Z) - Grouped Knowledge Distillation for Deep Face Recognition [53.57402723008569]
軽量の学生ネットワークは、モデル容量が低いため、ターゲットロジットの適合が困難である。
一次KDと二元KDを保持するが、最終的なKD損失計算では二次KDを省略するグループ知識蒸留(GKD)を提案する。
論文 参考訳(メタデータ) (2023-04-10T09:04:38Z) - Exploring Inconsistent Knowledge Distillation for Object Detection with
Data Augmentation [66.25738680429463]
物体検出のための知識蒸留(KD)は、教師モデルから知識を伝達することで、コンパクトな検出器を訓練することを目的としている。
教師モデルの反直感的知覚に固有の知識を蒸留することを目的とした,一貫性のない知識蒸留(IKD)を提案する。
本手法は, 1段, 2段, アンカーフリーの物体検出器において, 最先端のKDベースラインより優れる。
論文 参考訳(メタデータ) (2022-09-20T16:36:28Z) - Knowledge Distillation Thrives on Data Augmentation [65.58705111863814]
知識蒸留(KD)は、教師モデルを用いて学生モデルをガイドする一般的なディープニューラルネットワークトレーニングフレームワークである。
多くの研究がその成功の根拠を探っているが、データ強化(DA)との相互作用は未だよく認識されていない。
本稿では,KD損失は,クロスエントロピー損失を伴わないが,拡張トレーニングイテレーションの恩恵を受けることができることを示す。
KD損失は、DAがもたらす異なる入力ビューから余分な情報をタップすることができる。
論文 参考訳(メタデータ) (2020-12-05T00:32:04Z) - Residual Knowledge Distillation [96.18815134719975]
本研究は,アシスタント(A)を導入し,さらに知識を蒸留する残留知識蒸留(RKD)を提案する。
このように、S は T の特徴写像を模倣するように訓練され、A はそれらの間の残差を学習することでこの過程を支援する。
提案手法は,CIFAR-100 と ImageNet という,一般的な分類データセットにおいて魅力的な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-02-21T07:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。