論文の概要: DeepKD: A Deeply Decoupled and Denoised Knowledge Distillation Trainer
- arxiv url: http://arxiv.org/abs/2505.15133v1
- Date: Wed, 21 May 2025 05:38:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.908614
- Title: DeepKD: A Deeply Decoupled and Denoised Knowledge Distillation Trainer
- Title(参考訳): DeepKD:知識蒸留トレーナー
- Authors: Haiduo Huang, Jiangcheng Song, Yadong Zhang, Pengju Ren,
- Abstract要約: DeepKDは、デュアルレベルのデカップリングと適応的なデヌーシングを統合した、新しいトレーニングフレームワークである。
トレーニングが進むにつれて、Kを小さな初期値から徐々に増加させ、より多くの非ターゲットクラスを組み込む動的トップkマスク(DTM)機構を導入する。
CIFAR-100、ImageNet、MS-COCOの大規模な実験はDeepKDの有効性を示している。
- 参考スコア(独自算出の注目度): 3.917354933232572
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in knowledge distillation have emphasized the importance of decoupling different knowledge components. While existing methods utilize momentum mechanisms to separate task-oriented and distillation gradients, they overlook the inherent conflict between target-class and non-target-class knowledge flows. Furthermore, low-confidence dark knowledge in non-target classes introduces noisy signals that hinder effective knowledge transfer. To address these limitations, we propose DeepKD, a novel training framework that integrates dual-level decoupling with adaptive denoising. First, through theoretical analysis of gradient signal-to-noise ratio (GSNR) characteristics in task-oriented and non-task-oriented knowledge distillation, we design independent momentum updaters for each component to prevent mutual interference. We observe that the optimal momentum coefficients for task-oriented gradient (TOG), target-class gradient (TCG), and non-target-class gradient (NCG) should be positively related to their GSNR. Second, we introduce a dynamic top-k mask (DTM) mechanism that gradually increases K from a small initial value to incorporate more non-target classes as training progresses, following curriculum learning principles. The DTM jointly filters low-confidence logits from both teacher and student models, effectively purifying dark knowledge during early training. Extensive experiments on CIFAR-100, ImageNet, and MS-COCO demonstrate DeepKD's effectiveness. Our code is available at https://github.com/haiduo/DeepKD.
- Abstract(参考訳): 知識蒸留の最近の進歩は、異なる知識成分を分離することの重要性を強調している。
既存の手法では、モーメント機構を利用してタスク指向と蒸留の勾配を分離するが、ターゲットクラスと非ターゲットクラスの知識フローの間に固有の矛盾を見落としている。
さらに、非ターゲットクラスにおける低信頼の暗黒知識は、効果的な知識伝達を妨げるノイズ信号をもたらす。
この制限に対処するため,二段分離と適応型復調を統合した新しいトレーニングフレームワークであるDeepKDを提案する。
まず,タスク指向および非タスク指向の知識蒸留における勾配信号-雑音比(GSNR)特性の理論的解析を通じて,各コンポーネントの独立運動量更新器を設計し,相互干渉を防止する。
タスク指向勾配 (TOG) , ターゲットクラス勾配 (TCG) , 非ターゲットクラス勾配 (NCG) の最適運動量係数は, GSNR と正の相関を示す。
第2に,Kを小さな初期値から徐々に増加させる動的トップマスク(DTM)機構を導入する。
DTMは、教師モデルと学生モデルの両方からの低信頼のロジットを共同でフィルタリングし、初期のトレーニング中に暗黒の知識を効果的に浄化する。
CIFAR-100、ImageNet、MS-COCOの大規模な実験はDeepKDの有効性を示している。
私たちのコードはhttps://github.com/haiduo/DeepKD.comで公開されています。
関連論文リスト
- Relative Difficulty Distillation for Semantic Segmentation [54.76143187709987]
我々は,Relative Difficulty Distillation (RDD) というセマンティックセグメンテーションのための画素レベルのKDパラダイムを提案する。
RDDにより、教師ネットワークは、追加の最適化目標を伴わずに、学習焦点に対する効果的なガイダンスを提供することができる。
我々の研究は、RDDが既存のKDメソッドと統合して、上位パフォーマンスバウンダリを改善できることを示します。
論文 参考訳(メタデータ) (2024-07-04T08:08:25Z) - Knowledge Diffusion for Distillation [53.908314960324915]
知識蒸留(KD)における教師と学生の表現ギャップ
これらの手法の本質は、ノイズ情報を捨て、その特徴の貴重な情報を蒸留することである。
DiffKDと呼ばれる新しいKD手法を提案し、拡散モデルを用いて特徴を明示的に識別し一致させる。
論文 参考訳(メタデータ) (2023-05-25T04:49:34Z) - Unifying Synergies between Self-supervised Learning and Dynamic
Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。
SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。
密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文 参考訳(メタデータ) (2023-01-22T17:12:58Z) - TKIL: Tangent Kernel Approach for Class Balanced Incremental Learning [4.822598110892847]
クラスインクリメンタルな学習方法は、いくつかの経験者の記憶を以前に学んだタスクから守り、そこから知識を抽出することを目的としている。
既存のメソッドは、モデルが最新のタスクに過度に適合するため、クラス間でのパフォーマンスのバランスをとるのに苦労しています。
本稿では,TKIL(Tangent Kernel for Incremental Learning)の新たな手法を提案する。
論文 参考訳(メタデータ) (2022-06-17T00:20:54Z) - Knowledge Distillation with Deep Supervision [6.8080936803807734]
本研究では,教師モデルのクラス予測と特徴マップをフル活用し,浅層学習モデルの指導を監督する深層学習知識蒸留(DSKD)を提案する。
DSKDでは、各浅い層の学習過程を適応的にバランスさせ、学生のパフォーマンスをさらに向上するため、損失に基づく重み付け戦略が開発されている。
論文 参考訳(メタデータ) (2022-02-16T03:58:21Z) - EvDistill: Asynchronous Events to End-task Learning via Bidirectional
Reconstruction-guided Cross-modal Knowledge Distillation [61.33010904301476]
イベントカメラは画素ごとの強度変化を感知し、ダイナミックレンジが高く、動きのぼやけが少ない非同期イベントストリームを生成する。
本稿では,bfEvDistillと呼ばれる新しい手法を提案し,未ラベルのイベントデータから学生ネットワークを学習する。
EvDistillは、イベントとAPSフレームのみのKDよりもはるかに優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-11-24T08:48:16Z) - Annealing Knowledge Distillation [5.396407687999048]
教師のソフトターゲットから得られる豊富な情報を段階的かつ効率的にフィードバックし、知識蒸留法(アニーリングKD)の改善を提案します。
本稿では,Anaaling-KD法の有効性を裏付ける理論的および実証的な証拠と実用的実験を含む。
論文 参考訳(メタデータ) (2021-04-14T23:45:03Z) - On Self-Distilling Graph Neural Network [64.00508355508106]
GNN自己蒸留(GNN-SD)と呼ばれるGNNに対する教師なし知識蒸留法を提案する。
本手法は, 組込みグラフの非平滑性を効率よく定量化する, 提案した近傍不一致率(NDR)に基づいて構築する。
また、他の蒸留戦略の誘導に活用できる汎用的なGNN-SDフレームワークについても要約する。
論文 参考訳(メタデータ) (2020-11-04T12:29:33Z) - Noisy Concurrent Training for Efficient Learning under Label Noise [13.041607703862724]
ディープニューラルネットワーク(DNN)はラベルノイズの下で効果的に学習することができず、その性能に影響を与えるランダムなラベルを記憶することが示されている。
我々は,単独で学習すること,ワンホット符号化ラベルを唯一の監督源として使用すること,および標準訓練手順の主な欠点として記憶を阻害するための正規化の欠如を考察する。
協調学習を活用して2つのモデル間のコンセンサスを新たな監督源として活用するノイズコンカレントトレーニング(NCT)を提案する。
論文 参考訳(メタデータ) (2020-09-17T14:22:17Z) - Self-Knowledge Distillation with Progressive Refinement of Targets [1.1470070927586016]
プログレッシブ自己知識蒸留(PS-KD)という,単純で効果的な正則化法を提案する。
PS-KDは、訓練中にハードターゲットを柔らかくするために、モデルの知識を徐々に蒸留する。
分析の結果,PS-KDは,試料の分類の難しさに応じて勾配を再スケーリングすることで,硬い試料採掘の効果を示すことがわかった。
論文 参考訳(メタデータ) (2020-06-22T04:06:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。