論文の概要: Cumulative Spatial Knowledge Distillation for Vision Transformers
- arxiv url: http://arxiv.org/abs/2307.08500v1
- Date: Mon, 17 Jul 2023 14:03:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 13:07:32.001305
- Title: Cumulative Spatial Knowledge Distillation for Vision Transformers
- Title(参考訳): 視覚トランスフォーマーのための累積空間知識蒸留
- Authors: Borui Zhao, Renjie Song and Jiajun Liang
- Abstract要約: 畳み込みニューラルネットワーク(CNN)からの知識の希薄化は視覚変換器(ViT)のための二重刃剣である
累積空間知識蒸留(CSKD)について紹介する。
CSKDは、中間特徴を導入することなく、対応するCNNの空間応答からViTのパッチトークンすべてに空間的知識を蒸留する。
- 参考スコア(独自算出の注目度): 5.4319569860934465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distilling knowledge from convolutional neural networks (CNNs) is a
double-edged sword for vision transformers (ViTs). It boosts the performance
since the image-friendly local-inductive bias of CNN helps ViT learn faster and
better, but leading to two problems: (1) Network designs of CNN and ViT are
completely different, which leads to different semantic levels of intermediate
features, making spatial-wise knowledge transfer methods (e.g., feature
mimicking) inefficient. (2) Distilling knowledge from CNN limits the network
convergence in the later training period since ViT's capability of integrating
global information is suppressed by CNN's local-inductive-bias supervision. To
this end, we present Cumulative Spatial Knowledge Distillation (CSKD). CSKD
distills spatial-wise knowledge to all patch tokens of ViT from the
corresponding spatial responses of CNN, without introducing intermediate
features. Furthermore, CSKD exploits a Cumulative Knowledge Fusion (CKF)
module, which introduces the global response of CNN and increasingly emphasizes
its importance during the training. Applying CKF leverages CNN's local
inductive bias in the early training period and gives full play to ViT's global
capability in the later one. Extensive experiments and analysis on ImageNet-1k
and downstream datasets demonstrate the superiority of our CSKD. Code will be
publicly available.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)からの知識を蒸留することは、視覚トランスフォーマー(ViT)のための二重刃の剣である。
画像に親しみやすいCNNの局所帰納バイアスは、ViTがより速くより良く学習するのに役立つが、(1)CNNとViTのネットワーク設計は完全に異なるため、中間機能のセマンティックレベルが異なり、空間的知識伝達法(例えば、機能模倣)を非効率にする、という2つの問題に繋がる。
(2) cnn からの知識の蒸留は,vit のグローバル情報統合能力が cnn の局所的インダクティブバイアス監督によって抑制されるため,後のトレーニング期間におけるネットワーク収束を制限する。
この目的のために,累積空間知識蒸留(CSKD)を提案する。
CSKDは、中間特徴を導入することなく、対応するCNNの空間応答からViTのパッチトークンすべてに空間的知識を蒸留する。
さらにCSKDは、CNNのグローバルな応答を導入し、トレーニング中の重要性をますます強調する累積知識融合(CKF)モジュールを利用している。
CKFの適用は、初期のトレーニング期間におけるCNNの局所的帰納バイアスを活用し、後期のViTのグローバルな能力を完全に発揮する。
ImageNet-1kおよび下流データセットの大規模な実験と分析は、CSKDの優位性を示している。
コードは公開されます。
関連論文リスト
- The Counterattack of CNNs in Self-Supervised Learning: Larger Kernel
Size might be All You Need [103.31261028244782]
視覚変換器は、その卓越したスケーリングトレンドのおかげで、コンピュータビジョンにおいて急速に蜂起し、畳み込みニューラルネットワーク(CNN)を徐々に置き換えている。
自己教師付き学習(SSL)に関する最近の研究は、サイムズ事前学習タスクを導入している。
SSLの文脈では、トランスフォーマーやセルフアテンションモジュールは本質的にCNNよりも適していると考えるようになった。
論文 参考訳(メタデータ) (2023-12-09T22:23:57Z) - SwinV2DNet: Pyramid and Self-Supervision Compounded Feature Learning for
Remote Sensing Images Change Detection [12.727650696327878]
本稿では,変換器とCNNの利点を継承するために,エンドツーエンドの複合ネットワークSwinV2DNetを提案する。
これは、密に接続されたSwin V2バックボーンを通じて、変更関係の機能をキャプチャする。
CNNブランチを通じて、低レベルの事前変更と後変更の機能を提供する。
論文 参考訳(メタデータ) (2023-08-22T03:31:52Z) - Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - SERE: Exploring Feature Self-relation for Self-supervised Transformer [79.5769147071757]
視覚変換器(ViT)は、空間的自己アテンションとチャネルレベルのフィードフォワードネットワークを備えた強力な表現能力を有する。
最近の研究によると、自己教師型学習はViTの大きな可能性を解き放つのに役立つ。
空間次元とチャネル次元のリレーショナルモデリングは、他のネットワークとViTを区別する。
論文 参考訳(メタデータ) (2022-06-10T15:25:00Z) - Transformed CNNs: recasting pre-trained convolutional layers with
self-attention [17.96659165573821]
視覚変換器(ViT)は、畳み込みネットワーク(CNN)の強力な代替手段として登場した。
本研究では、これらレイヤを畳み込み層として初期化することによって、これらのレイヤのトレーニングに要する時間を短縮するアイデアについて検討する。
微調整は50回しか行われず、結果として得られたT-CNNの性能は著しく向上した。
論文 参考訳(メタデータ) (2021-06-10T14:56:10Z) - BreakingBED -- Breaking Binary and Efficient Deep Neural Networks by
Adversarial Attacks [65.2021953284622]
CNNのホワイトボックス攻撃やブラックボックス攻撃に対する堅牢性について検討する。
結果は、蒸留されたCNN、エージェントベースの最新のprunedモデル、およびバイナライズニューラルネットワークのために示されています。
論文 参考訳(メタデータ) (2021-03-14T20:43:19Z) - The Mind's Eye: Visualizing Class-Agnostic Features of CNNs [92.39082696657874]
本稿では,特定のレイヤの最も情報性の高い特徴を表現した対応する画像を作成することにより,画像の集合を視覚的に解釈する手法を提案する。
本手法では, 生成ネットワークを必要とせず, 元のモデルに変更を加えることなく, デュアルオブジェクトのアクティベーションと距離損失を利用する。
論文 参考訳(メタデータ) (2021-01-29T07:46:39Z) - An Information-theoretic Visual Analysis Framework for Convolutional
Neural Networks [11.15523311079383]
CNNモデルから抽出可能なデータを整理するデータモデルを提案する。
次に、異なる状況下でエントロピーを計算する2つの方法を提案する。
我々は,モデル内の情報変化量をインタラクティブに探索する視覚解析システムCNNSlicerを開発した。
論文 参考訳(メタデータ) (2020-05-02T21:36:50Z) - CNN Explainer: Learning Convolutional Neural Networks with Interactive
Visualization [23.369550871258543]
CNN Explainerは、非専門家が畳み込みニューラルネットワーク(CNN)を学習し、検証するために設計されたインタラクティブな可視化ツールである。
我々のツールは、CNNについて学びながら初心者が直面する重要な課題に対処し、インストラクターへのインタビューや過去の学生に対する調査から識別する。
CNN Explainerは、ユーザがCNNの内部動作をより理解しやすくし、興味深く、使いやすくする。
論文 参考訳(メタデータ) (2020-04-30T17:49:44Z) - Curriculum By Smoothing [52.08553521577014]
畳み込みニューラルネットワーク(CNN)は、画像分類、検出、セグメンテーションなどのコンピュータビジョンタスクにおいて顕著な性能を示している。
アンチエイリアスフィルタやローパスフィルタを用いてCNNの機能埋め込みを円滑化するエレガントなカリキュラムベースのスキームを提案する。
トレーニング中に特徴マップ内の情報量が増加するにつれて、ネットワークはデータのより優れた表現を徐々に学習することができる。
論文 参考訳(メタデータ) (2020-03-03T07:27:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。