論文の概要: One-for-All: Bridge the Gap Between Heterogeneous Architectures in
Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2310.19444v1
- Date: Mon, 30 Oct 2023 11:13:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 20:31:36.161573
- Title: One-for-All: Bridge the Gap Between Heterogeneous Architectures in
Knowledge Distillation
- Title(参考訳): 一対一:知識蒸留における異種アーキテクチャ間のギャップを埋める
- Authors: Zhiwei Hao, Jianyuan Guo, Kai Han, Yehui Tang, Han Hu, Yunhe Wang,
Chang Xu
- Abstract要約: 知識蒸留は,教師が指導する学習手法を通じて,モデル性能を向上させる上で,極めて効果的な手法であることが証明されている。
既存の蒸留法のほとんどは、教師と生徒のモデルが同じモデルファミリーに属するという前提で設計されている。
我々は, ヘテロジニアスアーキテクチャ間の蒸留性能を大幅に向上させる, OFA-KDという, 単純で効果的な一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元
- 参考スコア(独自算出の注目度): 69.65734716679925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation~(KD) has proven to be a highly effective approach for
enhancing model performance through a teacher-student training scheme. However,
most existing distillation methods are designed under the assumption that the
teacher and student models belong to the same model family, particularly the
hint-based approaches. By using centered kernel alignment (CKA) to compare the
learned features between heterogeneous teacher and student models, we observe
significant feature divergence. This divergence illustrates the ineffectiveness
of previous hint-based methods in cross-architecture distillation. To tackle
the challenge in distilling heterogeneous models, we propose a simple yet
effective one-for-all KD framework called OFA-KD, which significantly improves
the distillation performance between heterogeneous architectures. Specifically,
we project intermediate features into an aligned latent space such as the
logits space, where architecture-specific information is discarded.
Additionally, we introduce an adaptive target enhancement scheme to prevent the
student from being disturbed by irrelevant information. Extensive experiments
with various architectures, including CNN, Transformer, and MLP, demonstrate
the superiority of our OFA-KD framework in enabling distillation between
heterogeneous architectures. Specifically, when equipped with our OFA-KD, the
student models achieve notable performance improvements, with a maximum gain of
8.0% on the CIFAR-100 dataset and 0.7% on the ImageNet-1K dataset. PyTorch code
and checkpoints can be found at https://github.com/Hao840/OFAKD.
- Abstract(参考訳): 知識蒸留〜(KD)は,教師-学生の学習手法によるモデル性能向上に有効な手法であることが証明されている。
しかし、既存の蒸留法は、教師と生徒のモデルが同じモデルファミリー、特にヒントに基づくアプローチに属すると仮定して設計されている。
集中型カーネルアライメント(CKA)を用いて、異種教師と学生のモデル間の学習特徴を比較することにより、重要な特徴のばらつきを観察する。
この分散は、クロスアーキテクチャ蒸留における従来のヒントベースの手法の非効率性を示している。
ヘテロジニアスモデルを蒸留する際の課題に対処するため, ヘテロジニアスアーキテクチャ間の蒸留性能を著しく向上させる, OFA-KDという, シンプルで効果的なKDフレームワークを提案する。
具体的には,アーキテクチャ固有の情報を破棄するlogits空間のような,中間機能を整合した潜在空間に投影する。
また,学生が無関係な情報に邪魔されることを防止すべく,適応的目標拡張手法を提案する。
cnn、transformer、mlpを含む様々なアーキテクチャによる広範囲な実験は、異種アーキテクチャ間の蒸留を可能にするofa-kdフレームワークの優位性を示しています。
具体的には、我々のOFA-KDを装着すると、学生モデルは、CIFAR-100データセットで最大8.0%、ImageNet-1Kデータセットで最大0.7%の顕著なパフォーマンス向上を達成する。
PyTorchのコードとチェックポイントはhttps://github.com/Hao840/OFAKDで確認できる。
関連論文リスト
- TAS: Distilling Arbitrary Teacher and Student via a Hybrid Assistant [52.0297393822012]
異質な教師と学生間の機能的知識の伝達を容易にするために,橋梁としてアシスタントモデルを導入する。
提案した設計原理の中では, クロスアーキテクチャ帰納バイアスとモジュール関数の利点を組み合わせたアシスタントモデルが提案されている。
提案手法は, CNN, ViT, 空間KDの同種モデルペアと任意の異種組み合わせを用いて評価する。
論文 参考訳(メタデータ) (2024-10-16T08:02:49Z) - Aligning in a Compact Space: Contrastive Knowledge Distillation between Heterogeneous Architectures [4.119589507611071]
本稿では,低周波成分を用いたコントラスト知識蒸留(Contrastive Knowledge Distillation, LFCC)フレームワークを提案する。
具体的には、教師モデルと学生モデルの両方から中間特徴の低周波成分を抽出するために、マルチスケールの低域通過フィルタを設計する。
本稿では,ImageNet-1K と CIFAR-100 のベンチマークにおいて,LFCC が優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2024-05-28T18:44:42Z) - Boosting the Cross-Architecture Generalization of Dataset Distillation through an Empirical Study [52.83643622795387]
データセット蒸留のクロスアーキテクチャ一般化は、その実用的重要性を弱める。
EvaLuation with distillation Feature (ELF)を提案する。
大規模な実験を行うことで、ALFが現在のDD法のクロスアーキテクチャ一般化を十分に強化できることを示す。
論文 参考訳(メタデータ) (2023-12-09T15:41:42Z) - Robustness-Reinforced Knowledge Distillation with Correlation Distance
and Network Pruning [3.1423836318272773]
知識蒸留(KD)は、効率的で軽量なモデルの性能を向上させる。
既存のKD技術のほとんどは、Kulback-Leibler(KL)の発散に依存している。
相関距離とネットワークプルーニングを利用したロバストネス強化知識蒸留(R2KD)を提案する。
論文 参考訳(メタデータ) (2023-11-23T11:34:48Z) - Knowledge Diffusion for Distillation [53.908314960324915]
知識蒸留(KD)における教師と学生の表現ギャップ
これらの手法の本質は、ノイズ情報を捨て、その特徴の貴重な情報を蒸留することである。
DiffKDと呼ばれる新しいKD手法を提案し、拡散モデルを用いて特徴を明示的に識別し一致させる。
論文 参考訳(メタデータ) (2023-05-25T04:49:34Z) - DisWOT: Student Architecture Search for Distillation WithOut Training [0.0]
我々は,教師にとって最高の学生アーキテクチャを探すための,新しい学習自由フレームワークを探究する。
我々の研究は、バニラトレーニングにおける最適モデルが蒸留の勝者にはならないことを実証的に示している。
CIFAR, ImageNet, NAS-Bench-201 を用いた実験により, 異なる検索空間における最先端の結果が得られた。
論文 参考訳(メタデータ) (2023-03-28T01:58:45Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - Directed Acyclic Graph Factorization Machines for CTR Prediction via
Knowledge Distillation [65.62538699160085]
本稿では,既存の複雑な相互作用モデルから,知識蒸留によるCTR予測のための高次特徴相互作用を学習するための非巡回グラフファクトリゼーションマシン(KD-DAGFM)を提案する。
KD-DAGFMは、オンラインとオフラインの両方の実験において、最先端のFLOPの21.5%未満で最高の性能を達成する。
論文 参考訳(メタデータ) (2022-11-21T03:09:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。