論文の概要: Distilling Efficient Vision Transformers from CNNs for Semantic
Segmentation
- arxiv url: http://arxiv.org/abs/2310.07265v1
- Date: Wed, 11 Oct 2023 07:45:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 23:41:44.273239
- Title: Distilling Efficient Vision Transformers from CNNs for Semantic
Segmentation
- Title(参考訳): セマンティックセグメンテーションのためのCNNからの高効率視覚変換器の蒸留
- Authors: Xu Zheng, Yunhao Luo, Pengyuan Zhou, Lin Wang
- Abstract要約: 我々はC2VKDと呼ばれる新しいCNN-to-ViT KDフレームワークを提案する。
まず視覚的特徴蒸留(VLFD)モジュールを提案する。
そこで我々は,ラベルと教師の予測とを併用して学生を監督する,画素ワイド・デカップリング蒸留(PDD)モジュールを提案する。
- 参考スコア(独自算出の注目度): 12.177329445930276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we tackle a new problem: how to transfer knowledge from the
pre-trained cumbersome yet well-performed CNN-based model to learn a compact
Vision Transformer (ViT)-based model while maintaining its learning capacity?
Due to the completely different characteristics of ViT and CNN and the
long-existing capacity gap between teacher and student models in Knowledge
Distillation (KD), directly transferring the cross-model knowledge is
non-trivial. To this end, we subtly leverage the visual and
linguistic-compatible feature character of ViT (i.e., student), and its
capacity gap with the CNN (i.e., teacher) and propose a novel CNN-to-ViT KD
framework, dubbed C2VKD. Importantly, as the teacher's features are
heterogeneous to those of the student, we first propose a novel
visual-linguistic feature distillation (VLFD) module that explores efficient KD
among the aligned visual and linguistic-compatible representations. Moreover,
due to the large capacity gap between the teacher and student and the
inevitable prediction errors of the teacher, we then propose a pixel-wise
decoupled distillation (PDD) module to supervise the student under the
combination of labels and teacher's predictions from the decoupled target and
non-target classes. Experiments on three semantic segmentation benchmark
datasets consistently show that the increment of mIoU of our method is over
200% of the SoTA KD methods
- Abstract(参考訳): 本稿では,学習能力を維持しながら,学習能力を維持しつつ,コンパクトな視覚変換器(ViT)モデルを学ぶために,学習済みの煩雑なCNNモデルから知識を伝達する方法を提案する。
vitとcnnの全く異なる特徴と、教師と生徒の知識蒸留における能力差(kd)により、相互モデルの知識を直接伝達することは自明ではない。
この目的のために、視覚的かつ言語的に互換性のあるViTの特徴と、CNN(教師)との能力格差を微妙に活用し、C2VKDと呼ばれる新しいCNN-to-ViT KDフレームワークを提案する。
重要なのは,教師の特徴が学生のものと異質であるため,まず,協調した視覚・言語対応表現間の効率的なkdを探索する新しい視覚言語機能蒸留(vlfd)モジュールを提案する。
さらに,教師と生徒のキャパシティギャップが大きく,教師の予測エラーが避けられないため,ラベルと教師の予測を対象外クラスと非対象クラスから組み合わせることで,学生を監督する画素ワイド・デカップリング蒸留(PDD)モジュールを提案する。
3つのセマンティックセグメンテーションベンチマークデータセットの実験は、我々の手法のmIoUの増加がSoTA KD法の200%以上であることを一貫して示している。
関連論文リスト
- PromptKD: Unsupervised Prompt Distillation for Vision-Language Models [42.9076113835733]
本稿では,教師モデルの知識を軽量ターゲットモデルに伝達することを目的とした,教師なしドメインプロンプト蒸留フレームワークを提案する。
本フレームワークは,2つの異なる段階から構成される。初期段階では,ドメイン(フェーショット)ラベルを用いて,大規模なCLIP教師モデルを事前訓練する。
その後の段階では、記憶されたクラスベクトルを教師と生徒の画像エンコーダ間で共有し、予測ロジットを算出する。
論文 参考訳(メタデータ) (2024-03-05T08:53:30Z) - A Good Student is Cooperative and Reliable: CNN-Transformer
Collaborative Learning for Semantic Segmentation [8.110815355364947]
我々は,CNNベースのモデルとViTベースのモデルを同時に学習できるオンライン知識蒸留(KD)フレームワークを提案する。
提案手法は,最先端のオンライン蒸留法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2023-07-24T07:46:06Z) - Cross Architecture Distillation for Face Recognition [49.55061794917994]
本研究では,教師にプロンプトを組み込むことで,蒸留専門知識の管理を可能にする適応型プロンプト教師ネットワーク(APT)を開発した。
一般的な顔のベンチマークと2つの大規模な検証セットによる実験は,本手法の優位性を実証している。
論文 参考訳(メタデータ) (2023-06-26T12:54:28Z) - Improving Knowledge Distillation via Regularizing Feature Norm and
Direction [16.98806338782858]
知識蒸留(KD)は、大きな訓練されたモデル(例えば教師)を利用して、同じタスクのために同じデータセット上で小さな学生モデルを訓練する。
教師の特徴を知識として扱うこと、知識蒸留訓練の学生は、その特徴を教師の特徴と整合させることによって、例えば、ロジット間のKL偏差を最小化し、中間特徴間のL2距離を最小化する。
教師に対する生徒の特徴の整合性の向上は教師の知識をよりよく蒸留すると考えるのは自然なことだが、単にこの整合性を強制することは生徒のパフォーマンスに直接寄与しない。
論文 参考訳(メタデータ) (2023-05-26T15:05:19Z) - Exploring Inter-Channel Correlation for Diversity-preserved
KnowledgeDistillation [91.56643684860062]
ICKD (Inter-Channel correlation for Knowledge Distillation) を開発した。
ICKDは教師ネットワークにおける特徴空間の内在分布と十分な多様性特性をキャプチャする。
我々は,ノウルエッジ蒸留に基づく最初の手法であるResNet18は,ImageNet分類におけるTop-1の精度を72%以上向上させる。
論文 参考訳(メタデータ) (2022-02-08T07:01:56Z) - How and When Adversarial Robustness Transfers in Knowledge Distillation? [137.11016173468457]
本稿では,教師モデルから学生モデルへの知識蒸留(KD)における対向ロバスト性の移行について検討する。
我々は,標準的なKDトレーニングが対向的堅牢性を維持するのに失敗することを示すとともに,KDIGA(入力勾配アライメント)を併用したKDを提案する。
特定の前提の下では、提案したKDIGAを用いた学生モデルは、少なくとも教師モデルと同じ確証された堅牢性を達成することができることを証明している。
論文 参考訳(メタデータ) (2021-10-22T21:30:53Z) - Revisiting Knowledge Distillation: An Inheritance and Exploration
Framework [153.73692961660964]
知識蒸留(KD)は、教師モデルから生徒モデルに知識を伝達する一般的な手法である。
新たな継承・探索知識蒸留フレームワーク(IE-KD)を提案する。
我々のIE-KDフレームワークは汎用的であり、ディープニューラルネットワークを訓練するための既存の蒸留や相互学習手法と簡単に組み合わせることができる。
論文 参考訳(メタデータ) (2021-07-01T02:20:56Z) - Wasserstein Contrastive Representation Distillation [114.24609306495456]
We propose Wasserstein Contrastive Representation Distillation (WCoRD) which leverages both primal and dual form of Wasserstein distance for knowledge distillation。
二重形式はグローバルな知識伝達に使用され、教師と学生のネットワーク間の相互情報の低い境界を最大化する対照的な学習目標をもたらします。
実験では、提案されたWCoRD法が特権情報蒸留、モデル圧縮およびクロスモーダル転送における最先端のアプローチを上回ることを実証した。
論文 参考訳(メタデータ) (2020-12-15T23:43:28Z) - Distilling Visual Priors from Self-Supervised Learning [24.79633121345066]
畳み込みニューラルネットワーク(CNN)は、小さなトレーニングデータセットに適合する傾向にある。
データ不足条件下での画像分類のためのCNNモデルの一般化能力を向上させるために,自己教師付き学習と知識蒸留を活用した2相パイプラインを提案する。
論文 参考訳(メタデータ) (2020-08-01T13:07:18Z) - Distilling Knowledge from Graph Convolutional Networks [146.71503336770886]
既存の知識蒸留法は畳み込みニューラルネットワーク(CNN)に焦点を当てている
本稿では,事前学習したグラフ畳み込みネットワーク(GCN)モデルから知識を抽出する手法を提案する。
提案手法は,GCNモデルに対する最先端の知識蒸留性能を実現する。
論文 参考訳(メタデータ) (2020-03-23T18:23:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。