論文の概要: Heterogeneous Complementary Distillation
- arxiv url: http://arxiv.org/abs/2511.10942v1
- Date: Fri, 14 Nov 2025 04:06:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.425774
- Title: Heterogeneous Complementary Distillation
- Title(参考訳): 不均一補充蒸留
- Authors: Liuchi Xu, Hao Zheng, Lu Wang, Lisheng Xu, Jun Cheng,
- Abstract要約: Heterogeneous Complementary Distillation (HCD)は、相補的な教師と学生の特徴を統合し、共有ロジットにおける表現の整合を図る。
CIFAR-100、細粒度(例えばCUB200)およびImageNet-1Kデータセットの実験は、HCDが最先端のKD法より優れていることを示した。
- 参考スコア(独自算出の注目度): 16.315256873831064
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation (KD)transfers the dark knowledge from a complex teacher to a compact student. However, heterogeneous architecture distillation, such as Vision Transformer (ViT) to ResNet18, faces challenges due to differences in spatial feature representations.Traditional KD methods are mostly designed for homogeneous architectures and hence struggle to effectively address the disparity. Although heterogeneous KD approaches have been developed recently to solve these issues, they often incur high computational costs and complex designs, or overly rely on logit alignment, which limits their ability to leverage the complementary features. To overcome these limitations, we propose Heterogeneous Complementary Distillation (HCD),a simple yet effective framework that integrates complementary teacher and student features to align representations in shared logits.These logits are decomposed and constrained to facilitate diverse knowledge transfer to the student. Specifically, HCD processes the student's intermediate features through convolutional projector and adaptive pooling, concatenates them with teacher's feature from the penultimate layer and then maps them via the Complementary Feature Mapper (CFM) module, comprising fully connected layer,to produce shared logits.We further introduce Sub-logit Decoupled Distillation (SDD) that partitions the shared logits into n sub-logits, which are fused with teacher's logits to rectify classification.To ensure sub-logit diversity and reduce redundant knowledge transfer, we propose an Orthogonality Loss (OL).By preserving student-specific strengths and leveraging teacher knowledge,HCD enhances robustness and generalization in students.Extensive experiments on the CIFAR-100, Fine-grained (e.g., CUB200)and ImageNet-1K datasets demonstrate that HCD outperforms state-of-the-art KD methods,establishing it as an effective solution for heterogeneous KD.
- Abstract(参考訳): 知識蒸留(KD)は、複雑な教師からコンパクトな学生に暗黒の知識を伝達する。
しかし、視覚変換器(ViT)やResNet18(ResNet18)のような不均一なアーキテクチャ蒸留は、空間的特徴表現の違いによる課題に直面しており、KD法は主に均質なアーキテクチャのために設計されているため、その相違に効果的に対処するのは難しい。
これらの問題を解決するために、最近ヘテロジニアスなKDアプローチが開発されているが、しばしば高い計算コストと複雑な設計を発生させるか、あるいは相補的な特徴を利用する能力を制限するロジットアライメントに過度に依存している。
これらの制約を克服するために, 相補的な教師と学生の特徴を統合し, 共有ロジットの表現を整合させる, シンプルかつ効果的なフレームワークであるヘテロジニアス補充蒸留(HCD)を提案する。
具体的には、HCDは、学習者の中間的特徴を畳み込みプロジェクタと適応的なプーリングを通じて処理し、それらが垂直層から教師の特徴と結合し、それらを完全連結層からなる補足的特徴マッパー(CFM)モジュールを介してマッピングし、共有ロジットを生成する。さらに、共有ロジットを教師のロジットと融合して分類を整合する、共有ロジットをnサブロジットに分割するサブログ分離蒸留(SDD)を導入し、サブログの多様性を確保し、冗長な知識伝達を減らすために、オルソゴン性損失(OL)を提案する。
CIFAR-100, きめ細粒度(例えば CUB200) と ImageNet-1K データセットの大規模な実験により, HCD は最先端 KD 法より優れ, 異種 KD の有効な解法として確立された。
関連論文リスト
- UHKD: A Unified Framework for Heterogeneous Knowledge Distillation via Frequency-Domain Representations [5.382357091398666]
クロスアーキテクチャ転送に周波数領域の中間的特徴を利用するフレームワークとして、統一不均一知識蒸留(UHKD)が提案されている。
CIFAR-100とImageNet-1Kの実験では、最新の手法よりも5.59%、0.83%向上した。
論文 参考訳(メタデータ) (2025-10-28T06:41:43Z) - Perspective-Aware Teaching: Adapting Knowledge for Heterogeneous Distillation [36.18463357719423]
多様なアーキテクチャにまたがる特徴蒸留を可能にするために,視点認識型KDフレームワークを導入した。
まず、学生のフィードバックを取り入れたプロンプトチューニングブロックを設計し、教師が生徒モデルの学習プロセスに適応できるようにする。
論文 参考訳(メタデータ) (2025-01-15T15:56:06Z) - Fuse Before Transfer: Knowledge Fusion for Heterogeneous Distillation [52.0297393822012]
異質な教師と学生間の機能的知識の伝達を容易にするために,橋梁としてアシスタントモデルを導入する。
提案した設計原理の中では, クロスアーキテクチャ帰納バイアスとモジュール関数の利点を組み合わせたアシスタントモデルが提案されている。
提案手法は, CNN, ViT, 空間KDの同種モデルペアと任意の異種組み合わせを用いて評価する。
論文 参考訳(メタデータ) (2024-10-16T08:02:49Z) - Sinkhorn Distance Minimization for Knowledge Distillation [97.64216712016571]
知識蒸留(KD)は大規模言語モデル(LLM)の圧縮に広く採用されている。
本稿では,上述のKL,RKL,JSの発散が,それぞれモード緩和,モード崩壊,モード下推定といった問題に悩まされていることを示す。
本研究では,Sinkhorn 距離を利用した Sinkhorn Knowledge Distillation (SinKD) を提案する。
論文 参考訳(メタデータ) (2024-02-27T01:13:58Z) - Distilling Privileged Multimodal Information for Expression Recognition using Optimal Transport [46.91791643660991]
マルチモーダル表現認識のための深層学習モデルは, 制御された実験室環境において顕著な性能を示した。
これらのモデルは、トレーニングに使用されるモダリティの可用性と品質のために、荒野で苦労する。
実際には、テスト時に利用できるのはトレーニング時モダリティのサブセットのみである。
特権情報による学習により、モデルはトレーニング中にのみ利用できる追加のモダリティからデータを利用することができる。
論文 参考訳(メタデータ) (2024-01-27T19:44:15Z) - One-for-All: Bridge the Gap Between Heterogeneous Architectures in
Knowledge Distillation [69.65734716679925]
知識蒸留は,教師が指導する学習手法を通じて,モデル性能を向上させる上で,極めて効果的な手法であることが証明されている。
既存の蒸留法のほとんどは、教師と生徒のモデルが同じモデルファミリーに属するという前提で設計されている。
我々は, ヘテロジニアスアーキテクチャ間の蒸留性能を大幅に向上させる, OFA-KDという, 単純で効果的な一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元
論文 参考訳(メタデータ) (2023-10-30T11:13:02Z) - Exploring Inter-Channel Correlation for Diversity-preserved
KnowledgeDistillation [91.56643684860062]
ICKD (Inter-Channel correlation for Knowledge Distillation) を開発した。
ICKDは教師ネットワークにおける特徴空間の内在分布と十分な多様性特性をキャプチャする。
我々は,ノウルエッジ蒸留に基づく最初の手法であるResNet18は,ImageNet分類におけるTop-1の精度を72%以上向上させる。
論文 参考訳(メタデータ) (2022-02-08T07:01:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。