論文の概要: A Dynamic Knowledge Distillation Method Based on the Gompertz Curve
- arxiv url: http://arxiv.org/abs/2510.21649v1
- Date: Fri, 24 Oct 2025 17:07:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.550464
- Title: A Dynamic Knowledge Distillation Method Based on the Gompertz Curve
- Title(参考訳): Gompertz曲線に基づく動的知識蒸留法
- Authors: Han Yang, Guangjun Qin,
- Abstract要約: 本稿では,新しい動的知識蒸留フレームワークであるGompertz-CNNを紹介する。
Gompertz-CNNは、従来の知識蒸留の限界に対処するために、Gompertz成長モデルをトレーニングプロセスに統合する。
- 参考スコア(独自算出の注目度): 4.819618332195035
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a novel dynamic knowledge distillation framework, Gompertz-CNN, which integrates the Gompertz growth model into the training process to address the limitations of traditional knowledge distillation. Conventional methods often fail to capture the evolving cognitive capacity of student models, leading to suboptimal knowledge transfer. To overcome this, we propose a stage-aware distillation strategy that dynamically adjusts the weight of distillation loss based on the Gompertz curve, reflecting the student's learning progression: slow initial growth, rapid mid-phase improvement, and late-stage saturation. Our framework incorporates Wasserstein distance to measure feature-level discrepancies and gradient matching to align backward propagation behaviors between teacher and student models. These components are unified under a multi-loss objective, where the Gompertz curve modulates the influence of distillation losses over time. Extensive experiments on CIFAR-10 and CIFAR-100 using various teacher-student architectures (e.g., ResNet50 and MobileNet_v2) demonstrate that Gompertz-CNN consistently outperforms traditional distillation methods, achieving up to 8% and 4% accuracy gains on CIFAR-10 and CIFAR-100, respectively.
- Abstract(参考訳): 本稿では,従来の知識蒸留の限界に対処するために,Gompertz成長モデルをトレーニングプロセスに統合した新しい動的知識蒸留フレームワークであるGompertz-CNNを紹介する。
従来の手法は、しばしば学生モデルの進化する認知能力を捉えることができず、最適でない知識の伝達につながる。
そこで本研究では,Gompertz曲線に基づいて蒸留損失の重量を動的に調整し,学習の進展を反映した段階別蒸留戦略を提案する。
本フレームワークでは,Wasserstein距離を用いて特徴レベルの不一致と勾配マッチングを計測し,教師モデルと学生モデルとの後方伝播挙動を一致させる。
これらの成分は多孔質の目的の下で統一され、ガンペルツ曲線は時間の経過とともに蒸留損失の影響を変調する。
CIFAR-10とCIFAR-100の多種多様な教師学生アーキテクチャ(例えばResNet50とMobileNet_v2)を用いた大規模な実験により、Gompertz-CNNは従来の蒸留法より一貫して優れており、CIFAR-10とCIFAR-100の精度は最大8%、CIFAR-100は4%向上した。
関連論文リスト
- DeepKD: A Deeply Decoupled and Denoised Knowledge Distillation Trainer [3.917354933232572]
DeepKDは、デュアルレベルのデカップリングと適応的なデヌーシングを統合した、新しいトレーニングフレームワークである。
トレーニングが進むにつれて、Kを小さな初期値から徐々に増加させ、より多くの非ターゲットクラスを組み込む動的トップkマスク(DTM)機構を導入する。
CIFAR-100、ImageNet、MS-COCOの大規模な実験はDeepKDの有効性を示している。
論文 参考訳(メタデータ) (2025-05-21T05:38:57Z) - Gap Preserving Distillation by Building Bidirectional Mappings with A Dynamic Teacher [43.678380057638016]
Gap Preserving Distillation (GPD) 法は、生徒にこのギャップを埋めるように訓練すると共に、スクラッチから追加の動的教師モデルを訓練する。
実験では、GPDはCNNとトランスフォーマーアーキテクチャの両方で既存の蒸留法よりも大幅に優れている。
GPDはまた、スクラッチからのトレーニングや微調整を含む事前訓練を受けた教師なしでシナリオを一般化し、ResNet18では1.80%と0.89%の大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-10-05T12:29:51Z) - Knowledge Distillation with Refined Logits [31.205248790623703]
本稿では,現在のロジット蒸留法の限界に対処するため,Refined Logit Distillation (RLD)を導入する。
我々のアプローチは、高性能な教師モデルでさえ誤った予測をすることができるという観察に動機づけられている。
本手法は,教師からの誤解を招く情報を,重要なクラス相関を保ちながら効果的に排除することができる。
論文 参考訳(メタデータ) (2024-08-14T17:59:32Z) - Dynamic Sub-graph Distillation for Robust Semi-supervised Continual Learning [47.64252639582435]
半教師付き連続学習(SSCL)に焦点をあて、そのモデルが未知のカテゴリを持つ部分ラベル付きデータから徐々に学習する。
半教師付き連続学習のための動的サブグラフ蒸留法(DSGD)を提案する。
論文 参考訳(メタデータ) (2023-12-27T04:40:12Z) - One-for-All: Bridge the Gap Between Heterogeneous Architectures in
Knowledge Distillation [69.65734716679925]
知識蒸留は,教師が指導する学習手法を通じて,モデル性能を向上させる上で,極めて効果的な手法であることが証明されている。
既存の蒸留法のほとんどは、教師と生徒のモデルが同じモデルファミリーに属するという前提で設計されている。
我々は, ヘテロジニアスアーキテクチャ間の蒸留性能を大幅に向上させる, OFA-KDという, 単純で効果的な一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元
論文 参考訳(メタデータ) (2023-10-30T11:13:02Z) - On the benefits of knowledge distillation for adversarial robustness [53.41196727255314]
知識蒸留は, 対向ロバスト性において, 最先端モデルの性能を高めるために直接的に利用できることを示す。
本稿では,モデルの性能向上のための新しいフレームワークであるAdversarial Knowledge Distillation (AKD)を提案する。
論文 参考訳(メタデータ) (2022-03-14T15:02:13Z) - On Self-Distilling Graph Neural Network [64.00508355508106]
GNN自己蒸留(GNN-SD)と呼ばれるGNNに対する教師なし知識蒸留法を提案する。
本手法は, 組込みグラフの非平滑性を効率よく定量化する, 提案した近傍不一致率(NDR)に基づいて構築する。
また、他の蒸留戦略の誘導に活用できる汎用的なGNN-SDフレームワークについても要約する。
論文 参考訳(メタデータ) (2020-11-04T12:29:33Z) - Autoregressive Knowledge Distillation through Imitation Learning [70.12862707908769]
我々は,知識蒸留における模倣学習の観点から駆動される自己回帰モデルに対する圧縮手法を開発した。
本手法は,シーケンスレベルの知識蒸留など,他の蒸留アルゴリズムより一貫して優れている。
また,本手法を訓練した学生は,スクラッチからトレーニングした生徒よりも1.4~4.8BLEU/ROUGEポイント高く,教師モデルと比較して推論速度を最大14倍に向上させた。
論文 参考訳(メタデータ) (2020-09-15T17:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。