論文の概要: Distilling Efficient Vision Transformers from CNNs for Semantic
Segmentation
- arxiv url: http://arxiv.org/abs/2310.07265v1
- Date: Wed, 11 Oct 2023 07:45:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 23:41:44.273239
- Title: Distilling Efficient Vision Transformers from CNNs for Semantic
Segmentation
- Title(参考訳): セマンティックセグメンテーションのためのCNNからの高効率視覚変換器の蒸留
- Authors: Xu Zheng, Yunhao Luo, Pengyuan Zhou, Lin Wang
- Abstract要約: 我々はC2VKDと呼ばれる新しいCNN-to-ViT KDフレームワークを提案する。
まず視覚的特徴蒸留(VLFD)モジュールを提案する。
そこで我々は,ラベルと教師の予測とを併用して学生を監督する,画素ワイド・デカップリング蒸留(PDD)モジュールを提案する。
- 参考スコア(独自算出の注目度): 12.177329445930276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we tackle a new problem: how to transfer knowledge from the
pre-trained cumbersome yet well-performed CNN-based model to learn a compact
Vision Transformer (ViT)-based model while maintaining its learning capacity?
Due to the completely different characteristics of ViT and CNN and the
long-existing capacity gap between teacher and student models in Knowledge
Distillation (KD), directly transferring the cross-model knowledge is
non-trivial. To this end, we subtly leverage the visual and
linguistic-compatible feature character of ViT (i.e., student), and its
capacity gap with the CNN (i.e., teacher) and propose a novel CNN-to-ViT KD
framework, dubbed C2VKD. Importantly, as the teacher's features are
heterogeneous to those of the student, we first propose a novel
visual-linguistic feature distillation (VLFD) module that explores efficient KD
among the aligned visual and linguistic-compatible representations. Moreover,
due to the large capacity gap between the teacher and student and the
inevitable prediction errors of the teacher, we then propose a pixel-wise
decoupled distillation (PDD) module to supervise the student under the
combination of labels and teacher's predictions from the decoupled target and
non-target classes. Experiments on three semantic segmentation benchmark
datasets consistently show that the increment of mIoU of our method is over
200% of the SoTA KD methods
- Abstract(参考訳): 本稿では,学習能力を維持しながら,学習能力を維持しつつ,コンパクトな視覚変換器(ViT)モデルを学ぶために,学習済みの煩雑なCNNモデルから知識を伝達する方法を提案する。
vitとcnnの全く異なる特徴と、教師と生徒の知識蒸留における能力差(kd)により、相互モデルの知識を直接伝達することは自明ではない。
この目的のために、視覚的かつ言語的に互換性のあるViTの特徴と、CNN(教師)との能力格差を微妙に活用し、C2VKDと呼ばれる新しいCNN-to-ViT KDフレームワークを提案する。
重要なのは,教師の特徴が学生のものと異質であるため,まず,協調した視覚・言語対応表現間の効率的なkdを探索する新しい視覚言語機能蒸留(vlfd)モジュールを提案する。
さらに,教師と生徒のキャパシティギャップが大きく,教師の予測エラーが避けられないため,ラベルと教師の予測を対象外クラスと非対象クラスから組み合わせることで,学生を監督する画素ワイド・デカップリング蒸留(PDD)モジュールを提案する。
3つのセマンティックセグメンテーションベンチマークデータセットの実験は、我々の手法のmIoUの増加がSoTA KD法の200%以上であることを一貫して示している。
関連論文リスト
- TAS: Distilling Arbitrary Teacher and Student via a Hybrid Assistant [52.0297393822012]
異質な教師と学生間の機能的知識の伝達を容易にするために,橋梁としてアシスタントモデルを導入する。
提案した設計原理の中では, クロスアーキテクチャ帰納バイアスとモジュール関数の利点を組み合わせたアシスタントモデルが提案されている。
提案手法は, CNN, ViT, 空間KDの同種モデルペアと任意の異種組み合わせを用いて評価する。
論文 参考訳(メタデータ) (2024-10-16T08:02:49Z) - Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - Multi Teacher Privileged Knowledge Distillation for Multimodal Expression Recognition [58.41784639847413]
人間の感情は、表情、声調、ボディランゲージ、生理的信号を通じて伝達され知覚される複雑な現象である。
本稿では, 学生に蒸留する前に, 教師の多様な表現を並べ合わせるために, 自己蒸留による多教師PKD(MT-PKDOT)法を提案する。
その結果,提案手法はSOTA PKD法より優れていることがわかった。
論文 参考訳(メタデータ) (2024-08-16T22:11:01Z) - HDKD: Hybrid Data-Efficient Knowledge Distillation Network for Medical Image Classification [0.0]
ビジョントランスフォーマー(ViT)は、強力なモデリング能力のため、コンピュータビジョンタスクにおいて大きな進歩を遂げている。
知識蒸留(KD)への以前のアプローチは、CNNの教師からViTの学生へのロジット分布の蒸留に焦点を絞った2つの主要な経路を追求してきた。
本稿では,CNN教師とハイブリッド学生を併用したHybrid Data- efficient Knowledge Distillation(HDKD)パラダイムを提案する。
論文 参考訳(メタデータ) (2024-07-10T10:09:12Z) - I2CKD : Intra- and Inter-Class Knowledge Distillation for Semantic Segmentation [1.433758865948252]
本稿では,イメージセマンティックセグメンテーションに適した新しい知識蒸留法を提案する。
本手法の焦点は,教師(面倒なモデル)と生徒(コンパクトモデル)の中間層間の知識の獲得と伝達である。
論文 参考訳(メタデータ) (2024-03-27T12:05:22Z) - PromptKD: Unsupervised Prompt Distillation for Vision-Language Models [40.858721356497085]
本稿では,教師モデルの知識を軽量ターゲットモデルに伝達することを目的とした,教師なしドメインプロンプト蒸留フレームワークを提案する。
本フレームワークは,2つの異なる段階から構成される。初期段階では,ドメイン(フェーショット)ラベルを用いて,大規模なCLIP教師モデルを事前訓練する。
その後の段階では、記憶されたクラスベクトルを教師と生徒の画像エンコーダ間で共有し、予測ロジットを算出する。
論文 参考訳(メタデータ) (2024-03-05T08:53:30Z) - A Good Student is Cooperative and Reliable: CNN-Transformer
Collaborative Learning for Semantic Segmentation [8.110815355364947]
我々は,CNNベースのモデルとViTベースのモデルを同時に学習できるオンライン知識蒸留(KD)フレームワークを提案する。
提案手法は,最先端のオンライン蒸留法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2023-07-24T07:46:06Z) - Cross Architecture Distillation for Face Recognition [49.55061794917994]
本研究では,教師にプロンプトを組み込むことで,蒸留専門知識の管理を可能にする適応型プロンプト教師ネットワーク(APT)を開発した。
一般的な顔のベンチマークと2つの大規模な検証セットによる実験は,本手法の優位性を実証している。
論文 参考訳(メタデータ) (2023-06-26T12:54:28Z) - Exploring Inter-Channel Correlation for Diversity-preserved
KnowledgeDistillation [91.56643684860062]
ICKD (Inter-Channel correlation for Knowledge Distillation) を開発した。
ICKDは教師ネットワークにおける特徴空間の内在分布と十分な多様性特性をキャプチャする。
我々は,ノウルエッジ蒸留に基づく最初の手法であるResNet18は,ImageNet分類におけるTop-1の精度を72%以上向上させる。
論文 参考訳(メタデータ) (2022-02-08T07:01:56Z) - Wasserstein Contrastive Representation Distillation [114.24609306495456]
We propose Wasserstein Contrastive Representation Distillation (WCoRD) which leverages both primal and dual form of Wasserstein distance for knowledge distillation。
二重形式はグローバルな知識伝達に使用され、教師と学生のネットワーク間の相互情報の低い境界を最大化する対照的な学習目標をもたらします。
実験では、提案されたWCoRD法が特権情報蒸留、モデル圧縮およびクロスモーダル転送における最先端のアプローチを上回ることを実証した。
論文 参考訳(メタデータ) (2020-12-15T23:43:28Z) - Distilling Visual Priors from Self-Supervised Learning [24.79633121345066]
畳み込みニューラルネットワーク(CNN)は、小さなトレーニングデータセットに適合する傾向にある。
データ不足条件下での画像分類のためのCNNモデルの一般化能力を向上させるために,自己教師付き学習と知識蒸留を活用した2相パイプラインを提案する。
論文 参考訳(メタデータ) (2020-08-01T13:07:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。