論文の概要: TAS: Distilling Arbitrary Teacher and Student via a Hybrid Assistant
- arxiv url: http://arxiv.org/abs/2410.12342v1
- Date: Wed, 16 Oct 2024 08:02:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:43:58.424371
- Title: TAS: Distilling Arbitrary Teacher and Student via a Hybrid Assistant
- Title(参考訳): TAS:ハイブリッドアシスタントによる任意教師と学生の蒸留
- Authors: Guopeng Li, Qiang Wang, Ke Yan, Shouhong Ding, Yuan Gao, Gui-Song Xia,
- Abstract要約: 異質な教師と学生間の機能的知識の伝達を容易にするために,橋梁としてアシスタントモデルを導入する。
提案した設計原理の中では, クロスアーキテクチャ帰納バイアスとモジュール関数の利点を組み合わせたアシスタントモデルが提案されている。
提案手法は, CNN, ViT, 空間KDの同種モデルペアと任意の異種組み合わせを用いて評価する。
- 参考スコア(独自算出の注目度): 52.0297393822012
- License:
- Abstract: Most knowledge distillation (KD) methodologies predominantly focus on teacher-student pairs with similar architectures, such as both being convolutional neural networks (CNNs). However, the potential and flexibility of KD can be greatly improved by expanding it to novel Cross-Architecture KD (CAKD), where the knowledge of homogeneous and heterogeneous teachers can be transferred flexibly to a given student. The primary challenge in CAKD lies in the substantial feature gaps between heterogeneous models, originating from the distinction of their inherent inductive biases and module functions. To this end, we introduce an assistant model as a bridge to facilitate smooth feature knowledge transfer between heterogeneous teachers and students. More importantly, within our proposed design principle, the assistant model combines the advantages of cross-architecture inductive biases and module functions by merging convolution and attention modules derived from both student and teacher module functions. Furthermore, we observe that heterogeneous features exhibit diverse spatial distributions in CAKD, hindering the effectiveness of conventional pixel-wise mean squared error (MSE) loss. Therefore, we leverage a spatial-agnostic InfoNCE loss to align features after spatial smoothing, thereby improving the feature alignments in CAKD. Our proposed method is evaluated across some homogeneous model pairs and arbitrary heterogeneous combinations of CNNs, ViTs, and MLPs, achieving state-of-the-art performance for distilled models with a maximum gain of 11.47% on CIFAR-100 and 3.67% on ImageNet-1K. Our code and models will be released.
- Abstract(参考訳): ほとんどの知識蒸留(KD)手法は、どちらも畳み込みニューラルネットワーク(CNN)のような類似したアーキテクチャを持つ教師と学生のペアに主に焦点を当てている。
しかし、KDの可能性と柔軟性は、新しいクロスアーキテクチャKD(CAKD)に拡張することで大幅に向上し、同質で異質な教師の知識を学生に柔軟に伝達することができる。
CAKDの最大の課題は、その固有の帰納的バイアスと加群関数の区別から生じる、異種モデルの間の実質的な特徴ギャップにある。
この目的のために,異種教員と学生間の機能的知識の伝達を容易にするために,橋梁としてアシスタントモデルを導入する。
さらに,提案した設計原則の中では,学生と教師の両方のモジュール関数から導出されるコンボリューションとアテンションモジュールを融合することにより,クロスアーキテクチャ帰納的バイアスとモジュール関数の利点を組み合わせる。
さらに, 従来の画素単位の平均二乗誤差(MSE)の損失を抑えるため, 異種特徴がCAKDの空間分布の多様性を示すことが観察された。
そこで我々は,空間的スムース化後の特徴のアライメントに空間非依存なInfoNCE損失を活用し,CAKDの特徴のアライメントを改善する。
提案手法は, CIFAR-100で最大11.47%, ImageNet-1Kで3.67%, CNN, ViT, MLPの同種モデル対, 任意の異種モデルの組み合わせで評価し, 蒸留モデルの最先端性能を最大11.47%, 画像Net-1Kで3.67%向上した。
コードとモデルはリリースされます。
関連論文リスト
- Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - Invariant Causal Knowledge Distillation in Neural Networks [6.24302896438145]
本稿では,知識蒸留の高度化を目的とした新手法であるICDについて紹介する。
ICDは、生徒モデルの表現が教師の出力に関して差別的かつ不変であることを保証する。
CIFAR-100 と ImageNet ILSVRC-2012 の結果,ICD は従来の KD 技術より優れ,最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-07-16T14:53:35Z) - Robustness-Reinforced Knowledge Distillation with Correlation Distance
and Network Pruning [3.1423836318272773]
知識蒸留(KD)は、効率的で軽量なモデルの性能を向上させる。
既存のKD技術のほとんどは、Kulback-Leibler(KL)の発散に依存している。
相関距離とネットワークプルーニングを利用したロバストネス強化知識蒸留(R2KD)を提案する。
論文 参考訳(メタデータ) (2023-11-23T11:34:48Z) - One-for-All: Bridge the Gap Between Heterogeneous Architectures in
Knowledge Distillation [69.65734716679925]
知識蒸留は,教師が指導する学習手法を通じて,モデル性能を向上させる上で,極めて効果的な手法であることが証明されている。
既存の蒸留法のほとんどは、教師と生徒のモデルが同じモデルファミリーに属するという前提で設計されている。
我々は, ヘテロジニアスアーキテクチャ間の蒸留性能を大幅に向上させる, OFA-KDという, 単純で効果的な一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元
論文 参考訳(メタデータ) (2023-10-30T11:13:02Z) - Knowledge Diffusion for Distillation [53.908314960324915]
知識蒸留(KD)における教師と学生の表現ギャップ
これらの手法の本質は、ノイズ情報を捨て、その特徴の貴重な情報を蒸留することである。
DiffKDと呼ばれる新しいKD手法を提案し、拡散モデルを用いて特徴を明示的に識別し一致させる。
論文 参考訳(メタデータ) (2023-05-25T04:49:34Z) - A Lightweight Domain Adversarial Neural Network Based on Knowledge
Distillation for EEG-based Cross-subject Emotion Recognition [8.9104681425275]
脳波(EEG)の個人差は、ドメインシフトを引き起こす可能性があり、これはクロスオブジェクト戦略の性能を著しく低下させる。
本研究では,知識蒸留(KD)に基づく軽量DANNを提案する。
論文 参考訳(メタデータ) (2023-05-12T13:05:12Z) - Structural Knowledge Distillation for Object Detection [2.690687471762886]
構造的類似性(SSIM)に基づく画素単位独立lp-normの置き換えを提案する。
本手法は計算オーバーヘッドが少なく,実装が容易であると同時に,標準の lp-norm を著しく上回っている。
論文 参考訳(メタデータ) (2022-11-23T17:06:52Z) - Exploring Inter-Channel Correlation for Diversity-preserved
KnowledgeDistillation [91.56643684860062]
ICKD (Inter-Channel correlation for Knowledge Distillation) を開発した。
ICKDは教師ネットワークにおける特徴空間の内在分布と十分な多様性特性をキャプチャする。
我々は,ノウルエッジ蒸留に基づく最初の手法であるResNet18は,ImageNet分類におけるTop-1の精度を72%以上向上させる。
論文 参考訳(メタデータ) (2022-02-08T07:01:56Z) - Weakly Supervised Semantic Segmentation via Alternative Self-Dual
Teaching [82.71578668091914]
本稿では,分類とマスク・リファインメント・コンポーネントを統合された深層モデルに組み込む,コンパクトな学習フレームワークを確立する。
本稿では,高品質な知識相互作用を促進するために,新たな自己双対学習(ASDT)機構を提案する。
論文 参考訳(メタデータ) (2021-12-17T11:56:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。