論文の概要: TopKD: Top-scaled Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2508.04539v1
- Date: Wed, 06 Aug 2025 15:26:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.785901
- Title: TopKD: Top-scaled Knowledge Distillation
- Title(参考訳): TopKD: トップスケールの知識蒸留
- Authors: Qi Wang, Jinjia Zhou,
- Abstract要約: Top-scaled Knowledge Distillation (TopKD)は、ロジットベースの蒸留を大幅に強化するシンプルで効率的でアーキテクチャに依存しないフレームワークである。
CIFAR-100、ImageNet、STL-10、Tiny-ImageNetの実験では、TopKDは最先端の蒸留法を一貫して超越している。
- 参考スコア(独自算出の注目度): 12.589031892370809
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in knowledge distillation (KD) predominantly emphasize feature-level knowledge transfer, frequently overlooking critical information embedded within the teacher's logit distributions. In this paper, we revisit logit-based distillation and reveal an underexplored yet critical element: Top-K knowledge. Motivated by this insight, we propose Top-scaled Knowledge Distillation (TopKD), a simple, efficient, and architecture-agnostic framework that significantly enhances logit-based distillation. TopKD consists of two main components: (1) a Top-K Scaling Module (TSM), which adaptively amplifies the most informative logits, and (2) a Top-K Decoupled Loss (TDL), which offers targeted and effective supervision. Notably, TopKD integrates seamlessly into existing KD methods without introducing extra modules or requiring architectural changes. Extensive experiments on CIFAR-100, ImageNet, STL-10, and Tiny-ImageNet demonstrate that TopKD consistently surpasses state-of-the-art distillation methods. Moreover, our method demonstrates substantial effectiveness when distilling Vision Transformers, underscoring its versatility across diverse network architectures. These findings highlight the significant potential of logits to advance knowledge distillation.
- Abstract(参考訳): 知識蒸留(KD)の最近の進歩は、主に特徴レベルの知識伝達を強調しており、しばしば教師のロジット分布に埋め込まれた重要な情報を見下ろしている。
本稿では,ロジットをベースとした蒸留法を再検討し,探索されていないが重要な要素であるトップK知識を明らかにする。
この知見により,ロジットに基づく蒸留を著しく向上させるシンプルで効率的かつアーキテクチャに依存しないフレームワークであるTop-scaled Knowledge Distillation (TopKD)を提案する。
TopKD は,(1)Top-K Scaling Module (TSM) と (2)Top-K Decoupled Loss (TDL) の2つのコンポーネントから構成される。
特にTopKDは、モジュールの追加やアーキテクチャの変更を必要とせずに、既存のKDメソッドにシームレスに統合する。
CIFAR-100、ImageNet、STL-10、Tiny-ImageNetの大規模な実験は、TopKDが最先端の蒸留法を一貫して超えることを示した。
さらに,本手法はビジョン変換器を蒸留する際の有効性を示し,多種多様なネットワークアーキテクチャにまたがる汎用性を実証する。
これらの知見は, 知識蒸留を推し進めるロジットの有意な可能性を示している。
関連論文リスト
- MoKD: Multi-Task Optimization for Knowledge Distillation [33.447451819037106]
知識蒸留(KD)における2つの重要な課題は、教師の指導と課題目標からの学習のバランスである。
知識蒸留のためのマルチタスク最適化(MoKD)を提案する。
MoKDはKDを多目的最適化問題として再定義し、目的物間のバランスを改善する。
論文 参考訳(メタデータ) (2025-05-13T02:13:39Z) - Adaptive Explicit Knowledge Transfer for Knowledge Distillation [17.739979156009696]
教師モデルから,非目標クラスの確率分布を効果的に提供することにより,ロジットに基づく知識蒸留の性能を向上させることができることを示す。
本研究では,学習者が暗黙的な知識を適応的に学習できる新たな損失を提案する。
実験結果から, 適応的明示的知識伝達法(AEKT)は, 最先端KD法と比較して性能が向上することが示された。
論文 参考訳(メタデータ) (2024-09-03T07:42:59Z) - One-for-All: Bridge the Gap Between Heterogeneous Architectures in
Knowledge Distillation [69.65734716679925]
知識蒸留は,教師が指導する学習手法を通じて,モデル性能を向上させる上で,極めて効果的な手法であることが証明されている。
既存の蒸留法のほとんどは、教師と生徒のモデルが同じモデルファミリーに属するという前提で設計されている。
我々は, ヘテロジニアスアーキテクチャ間の蒸留性能を大幅に向上させる, OFA-KDという, 単純で効果的な一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元
論文 参考訳(メタデータ) (2023-10-30T11:13:02Z) - Towards Understanding and Improving Knowledge Distillation for Neural Machine Translation [59.31690622031927]
この知識は,教師のトップ1の予測から得られたものである。
我々はtextbfTop-1 textbfInformation textbfEnhanced textbfKnowledge textbfDistillation (TIE-KD) という新しい手法を提案する。
論文 参考訳(メタデータ) (2023-05-14T08:23:03Z) - Grouped Knowledge Distillation for Deep Face Recognition [53.57402723008569]
軽量の学生ネットワークは、モデル容量が低いため、ターゲットロジットの適合が困難である。
一次KDと二元KDを保持するが、最終的なKD損失計算では二次KDを省略するグループ知識蒸留(GKD)を提案する。
論文 参考訳(メタデータ) (2023-04-10T09:04:38Z) - Gradient-Guided Knowledge Distillation for Object Detectors [3.236217153362305]
グラディエント誘導型知識蒸留(GKD)という,物体検出における知識蒸留の新しい手法を提案する。
我々のGKDは勾配情報を用いて、検出損失に大きな影響を及ぼす特徴を識別し、割り当て、生徒が教師から最も関連性の高い特徴を学習できるようにする。
KITTIとCOCO-Trafficデータセットの実験は、対象検出のための知識蒸留における本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-03-07T21:09:09Z) - A Closer Look at Knowledge Distillation with Features, Logits, and
Gradients [81.39206923719455]
知識蒸留(KD)は、学習した知識をあるニューラルネットワークモデルから別のニューラルネットワークモデルに転送するための重要な戦略である。
この研究は、古典的なKL分割基準を異なる知識源で近似することで、一連の知識蒸留戦略を動機付ける新しい視点を提供する。
分析の結果,ロジットは一般的により効率的な知識源であり,十分な特徴次元を持つことがモデル設計に不可欠であることが示唆された。
論文 参考訳(メタデータ) (2022-03-18T21:26:55Z) - Decoupled Knowledge Distillation [7.049113958508325]
我々は、古典的KD損失を、ターゲットクラス知識蒸留(TCKD)と非ターゲットクラス知識蒸留(NCKD)の2つの部分に再構成する。
TCKDはトレーニングサンプルの「難易度」に関する知識を伝達するが、NCKDはロジット蒸留が機能する顕著な理由である。
本稿では,TCKDとNCKDがより効率的かつ柔軟に役割を果たせるためのDKD(Decoupled Knowledge Distillation)を提案する。
論文 参考訳(メタデータ) (2022-03-16T15:07:47Z) - KDExplainer: A Task-oriented Attention Model for Explaining Knowledge
Distillation [59.061835562314066]
KDExplainerと呼ばれる新しいタスク指向の注意モデルを導入し、バニラKDの基礎となる作業メカニズムを明らかにします。
また、仮想注意モジュール(VAM)と呼ばれるポータブルツールを導入し、さまざまなディープニューラルネットワーク(DNN)とシームレスに統合し、KDの下でのパフォーマンスを向上させることができます。
論文 参考訳(メタデータ) (2021-05-10T08:15:26Z) - Knowledge Distillation Thrives on Data Augmentation [65.58705111863814]
知識蒸留(KD)は、教師モデルを用いて学生モデルをガイドする一般的なディープニューラルネットワークトレーニングフレームワークである。
多くの研究がその成功の根拠を探っているが、データ強化(DA)との相互作用は未だよく認識されていない。
本稿では,KD損失は,クロスエントロピー損失を伴わないが,拡張トレーニングイテレーションの恩恵を受けることができることを示す。
KD損失は、DAがもたらす異なる入力ビューから余分な情報をタップすることができる。
論文 参考訳(メタデータ) (2020-12-05T00:32:04Z) - Residual Knowledge Distillation [96.18815134719975]
本研究は,アシスタント(A)を導入し,さらに知識を蒸留する残留知識蒸留(RKD)を提案する。
このように、S は T の特徴写像を模倣するように訓練され、A はそれらの間の残差を学習することでこの過程を支援する。
提案手法は,CIFAR-100 と ImageNet という,一般的な分類データセットにおいて魅力的な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-02-21T07:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。