論文の概要: HDKD: Hybrid Data-Efficient Knowledge Distillation Network for Medical Image Classification
- arxiv url: http://arxiv.org/abs/2407.07516v1
- Date: Wed, 10 Jul 2024 10:09:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-11 17:11:48.789091
- Title: HDKD: Hybrid Data-Efficient Knowledge Distillation Network for Medical Image Classification
- Title(参考訳): HDKD:医療画像分類のためのハイブリッドデータ効率の良い知識蒸留ネットワーク
- Authors: Omar S. EL-Assiouti, Ghada Hamed, Dina Khattab, Hala M. Ebied,
- Abstract要約: ビジョントランスフォーマー(ViT)は、強力なモデリング能力のため、コンピュータビジョンタスクにおいて大きな進歩を遂げている。
知識蒸留(KD)への以前のアプローチは、CNNの教師からViTの学生へのロジット分布の蒸留に焦点を絞った2つの主要な経路を追求してきた。
本稿では,CNN教師とハイブリッド学生を併用したHybrid Data- efficient Knowledge Distillation(HDKD)パラダイムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers (ViTs) have achieved significant advancement in computer vision tasks due to their powerful modeling capacity. However, their performance notably degrades when trained with insufficient data due to lack of inherent inductive biases. Distilling knowledge and inductive biases from a Convolutional Neural Network (CNN) teacher has emerged as an effective strategy for enhancing the generalization of ViTs on limited datasets. Previous approaches to Knowledge Distillation (KD) have pursued two primary paths: some focused solely on distilling the logit distribution from CNN teacher to ViT student, neglecting the rich semantic information present in intermediate features due to the structural differences between them. Others integrated feature distillation along with logit distillation, yet this introduced alignment operations that limits the amount of knowledge transferred due to mismatched architectures and increased the computational overhead. To this end, this paper presents Hybrid Data-efficient Knowledge Distillation (HDKD) paradigm which employs a CNN teacher and a hybrid student. The choice of hybrid student serves two main aspects. First, it leverages the strengths of both convolutions and transformers while sharing the convolutional structure with the teacher model. Second, this shared structure enables the direct application of feature distillation without any information loss or additional computational overhead. Additionally, we propose an efficient light-weight convolutional block named Mobile Channel-Spatial Attention (MBCSA), which serves as the primary convolutional block in both teacher and student models. Extensive experiments on two medical public datasets showcase the superiority of HDKD over other state-of-the-art models and its computational efficiency. Source code at: https://github.com/omarsherif200/HDKD
- Abstract(参考訳): ビジョントランスフォーマー(ViT)は、強力なモデリング能力のため、コンピュータビジョンタスクにおいて大きな進歩を遂げている。
しかし、本質的な帰納バイアスの欠如により、データ不足でトレーニングされた場合、パフォーマンスは著しく低下する。
畳み込みニューラルネットワーク(CNN)の教師から知識と帰納バイアスを蒸留することは、限られたデータセット上でのViTの一般化を促進する効果的な戦略として現れている。
その中には、CNNの教師からViTの学生へのロジット分布を蒸留することだけに焦点を絞ったものもあり、それらの構造的な違いから中間的な特徴に存在する豊富な意味情報を無視するものもある。
他のものはロジット蒸留とともに特徴蒸留を統合したが、これはミスマッチアーキテクチャによって伝達される知識の量を制限するアライメント演算を導入し、計算オーバーヘッドを増大させた。
そこで本研究では,CNN教師とハイブリッド学習者を用いたハイブリッドデータ効率知識蒸留(HDKD)パラダイムを提案する。
ハイブリッド学生の選択は2つの主な側面がある。
まず、教師モデルと畳み込み構造を共有しながら、畳み込みと変圧器の強さを利用する。
第2に、この共有構造は、情報損失や計算オーバーヘッドを伴わずに、機能蒸留を直接適用することができる。
さらに,教師モデルと学生モデルの両方で主要な畳み込みブロックとして機能する,Mobile Channel-Spatial Attention (MBCSA) という,効率的な軽量畳み込みブロックを提案する。
2つの医学的な公開データセットに対する大規模な実験は、他の最先端モデルよりもHDKDの方が優れていることを示し、その計算効率を示している。
ソースコード:https://github.com/omarsherif200/HDKD
関連論文リスト
- TAS: Distilling Arbitrary Teacher and Student via a Hybrid Assistant [52.0297393822012]
異質な教師と学生間の機能的知識の伝達を容易にするために,橋梁としてアシスタントモデルを導入する。
提案した設計原理の中では, クロスアーキテクチャ帰納バイアスとモジュール関数の利点を組み合わせたアシスタントモデルが提案されている。
提案手法は, CNN, ViT, 空間KDの同種モデルペアと任意の異種組み合わせを用いて評価する。
論文 参考訳(メタデータ) (2024-10-16T08:02:49Z) - Promoting CNNs with Cross-Architecture Knowledge Distillation for Efficient Monocular Depth Estimation [4.242540533823568]
トランスフォーマーモデルは通常計算に精通し、その軽量モデルにおける有効性は畳み込みと比較して制限される。
本研究では, 最先端変圧器モデルを監督し, 効率的なCNNモデルを構築するために, DisDepth と呼ばれるMDE のクロスアーキテクチャ知識蒸留手法を提案する。
提案手法は, 種々の効率的な背骨に有意な改良を施し, 効率的な単分子深度推定の可能性を示した。
論文 参考訳(メタデータ) (2024-04-25T07:55:47Z) - Align-to-Distill: Trainable Attention Alignment for Knowledge Distillation in Neural Machine Translation [3.759878064139572]
本稿では,機能マッピング問題に対処するためのA2D(Align-to-Distill)戦略を紹介する。
実験の結果,WMT-2022->DsbおよびWMT-2014 En->Deに対して,最大3.61点,+0.63点のBLEU値が得られた。
論文 参考訳(メタデータ) (2024-03-03T11:13:44Z) - One-for-All: Bridge the Gap Between Heterogeneous Architectures in
Knowledge Distillation [69.65734716679925]
知識蒸留は,教師が指導する学習手法を通じて,モデル性能を向上させる上で,極めて効果的な手法であることが証明されている。
既存の蒸留法のほとんどは、教師と生徒のモデルが同じモデルファミリーに属するという前提で設計されている。
我々は, ヘテロジニアスアーキテクチャ間の蒸留性能を大幅に向上させる, OFA-KDという, 単純で効果的な一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元
論文 参考訳(メタデータ) (2023-10-30T11:13:02Z) - Distilling Efficient Vision Transformers from CNNs for Semantic
Segmentation [12.177329445930276]
我々はC2VKDと呼ばれる新しいCNN-to-ViT KDフレームワークを提案する。
まず視覚的特徴蒸留(VLFD)モジュールを提案する。
そこで我々は,ラベルと教師の予測とを併用して学生を監督する,画素ワイド・デカップリング蒸留(PDD)モジュールを提案する。
論文 参考訳(メタデータ) (2023-10-11T07:45:37Z) - Distilling Inductive Bias: Knowledge Distillation Beyond Model
Compression [6.508088032296086]
ViT(Vision Transformers)は、視覚領域とテキスト領域にまたがる統一された情報処理の可能性を提供する。
補足型軽量教師モデルからの帰納バイアスを蒸留する,革新的なアンサンブル型蒸留手法を提案する。
提案するフレームワークでは,前もってロジットの事前計算と保存も行なっており,基本的にはモデルの非正規化予測である。
論文 参考訳(メタデータ) (2023-09-30T13:21:29Z) - Cross Architecture Distillation for Face Recognition [49.55061794917994]
本研究では,教師にプロンプトを組み込むことで,蒸留専門知識の管理を可能にする適応型プロンプト教師ネットワーク(APT)を開発した。
一般的な顔のベンチマークと2つの大規模な検証セットによる実験は,本手法の優位性を実証している。
論文 参考訳(メタデータ) (2023-06-26T12:54:28Z) - Directed Acyclic Graph Factorization Machines for CTR Prediction via
Knowledge Distillation [65.62538699160085]
本稿では,既存の複雑な相互作用モデルから,知識蒸留によるCTR予測のための高次特徴相互作用を学習するための非巡回グラフファクトリゼーションマシン(KD-DAGFM)を提案する。
KD-DAGFMは、オンラインとオフラインの両方の実験において、最先端のFLOPの21.5%未満で最高の性能を達成する。
論文 参考訳(メタデータ) (2022-11-21T03:09:42Z) - Exploring Inter-Channel Correlation for Diversity-preserved
KnowledgeDistillation [91.56643684860062]
ICKD (Inter-Channel correlation for Knowledge Distillation) を開発した。
ICKDは教師ネットワークにおける特徴空間の内在分布と十分な多様性特性をキャプチャする。
我々は,ノウルエッジ蒸留に基づく最初の手法であるResNet18は,ImageNet分類におけるTop-1の精度を72%以上向上させる。
論文 参考訳(メタデータ) (2022-02-08T07:01:56Z) - Dual Discriminator Adversarial Distillation for Data-free Model
Compression [36.49964835173507]
我々は、トレーニングデータやメタデータを使わずにニューラルネットワークを蒸留するために、Dual Discriminator Adversarial Distillation (DDAD)を提案する。
具体的には, 生成器を用いて, 元のトレーニングデータを模倣した二重判別器の対数蒸留法を用いてサンプルを作成する。
提案手法は,教師のネットワークを近い距離で近似する効率的な学生ネットワークである。
論文 参考訳(メタデータ) (2021-04-12T12:01:45Z) - Wasserstein Contrastive Representation Distillation [114.24609306495456]
We propose Wasserstein Contrastive Representation Distillation (WCoRD) which leverages both primal and dual form of Wasserstein distance for knowledge distillation。
二重形式はグローバルな知識伝達に使用され、教師と学生のネットワーク間の相互情報の低い境界を最大化する対照的な学習目標をもたらします。
実験では、提案されたWCoRD法が特権情報蒸留、モデル圧縮およびクロスモーダル転送における最先端のアプローチを上回ることを実証した。
論文 参考訳(メタデータ) (2020-12-15T23:43:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。