論文の概要: Cross-Architecture Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2207.05273v1
- Date: Tue, 12 Jul 2022 02:50:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-13 13:52:13.414702
- Title: Cross-Architecture Knowledge Distillation
- Title(参考訳): クロスアーキテクチャ知識蒸留
- Authors: Yufan Liu, Jiajiong Cao, Bing Li, Weiming Hu, Jingting Ding, Liang Li
- Abstract要約: Transformerから畳み込みニューラルネットワーク(CNN)への補完的知識の蒸留は自然である
この問題に対処するために,新しいクロスアーキテクチャ知識蒸留法を提案する。
提案手法は,小規模データセットと大規模データセットの両方において,14の最先端データを出力する。
- 参考スコア(独自算出の注目度): 32.689574589575244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer attracts much attention because of its ability to learn global
relations and superior performance. In order to achieve higher performance, it
is natural to distill complementary knowledge from Transformer to convolutional
neural network (CNN). However, most existing knowledge distillation methods
only consider homologous-architecture distillation, such as distilling
knowledge from CNN to CNN. They may not be suitable when applying to
cross-architecture scenarios, such as from Transformer to CNN. To deal with
this problem, a novel cross-architecture knowledge distillation method is
proposed. Specifically, instead of directly mimicking output/intermediate
features of the teacher, a partially cross attention projector and a group-wise
linear projector are introduced to align the student features with the
teacher's in two projected feature spaces. And a multi-view robust training
scheme is further presented to improve the robustness and stability of the
framework. Extensive experiments show that the proposed method outperforms 14
state-of-the-arts on both small-scale and large-scale datasets.
- Abstract(参考訳): トランスフォーマーは、グローバルな関係と優れたパフォーマンスを学ぶ能力から、多くの注目を集めている。
高い性能を達成するために、Transformerから畳み込みニューラルネットワーク(CNN)への補完的な知識を蒸留するのは自然である。
しかし、既存の知識蒸留法は、cnnからcnnへの知識の蒸留など、相同構造蒸留のみを考慮する。
これらはtransformerからcnnまで、アーキテクチャ横断のシナリオに適用する場合には適さないかもしれない。
この問題に対処するために,新しいクロスアーキテクチャ知識蒸留法を提案する。
具体的には,教師の出力・中間的特徴を直接模倣する代わりに,部分横断的注意プロジェクタとグループ的リニアプロジェクタを導入し,教師の持つ特徴を2つの投影的特徴空間に合わせる。
また、フレームワークの堅牢性と安定性を改善するために、多視点ロバストトレーニングスキームも提示した。
大規模な実験により,提案手法は小規模なデータセットと大規模データセットの両方において,14の最先端を達成できた。
関連論文リスト
- Self-Supervised Pre-Training for Table Structure Recognition Transformer [25.04573593082671]
テーブル構造認識変換器のための自己教師付き事前学習(SSP)手法を提案する。
線形射影変換器とハイブリッドCNN変換器のパフォーマンスギャップは、TSRモデルにおける視覚エンコーダのSSPにより緩和できる。
論文 参考訳(メタデータ) (2024-02-23T19:34:06Z) - Understanding the Effects of Projectors in Knowledge Distillation [31.882356225974632]
学生と教師が同じ特徴次元を持つ場合でも、プロジェクターを追加することで蒸留性能が向上する。
本稿では、プロジェクターが果たす暗黙の役割について検討するが、これまで見過ごされてきた。
プロジェクターの正の効果に感化されて, プロジェクターアンサンブルを用いた特徴蒸留法を提案し, 蒸留性能をさらに向上させる。
論文 参考訳(メタデータ) (2023-10-26T06:30:39Z) - Distilling Inductive Bias: Knowledge Distillation Beyond Model
Compression [6.508088032296086]
ViT(Vision Transformers)は、視覚領域とテキスト領域にまたがる統一された情報処理の可能性を提供する。
補足型軽量教師モデルからの帰納バイアスを蒸留する,革新的なアンサンブル型蒸留手法を提案する。
提案するフレームワークでは,前もってロジットの事前計算と保存も行なっており,基本的にはモデルの非正規化予測である。
論文 参考訳(メタデータ) (2023-09-30T13:21:29Z) - Learning Lightweight Object Detectors via Multi-Teacher Progressive
Distillation [56.053397775016755]
本稿では,教師検出器の知識を学生に段階的に伝達する,知識蒸留への逐次的アプローチを提案する。
私たちの知識を最大限に活用するために、私たちはTransformerベースの教師検出器から、畳み込みベースの学生まで、初めて知識を抽出しました。
論文 参考訳(メタデータ) (2023-08-17T17:17:08Z) - A Good Student is Cooperative and Reliable: CNN-Transformer
Collaborative Learning for Semantic Segmentation [8.110815355364947]
我々は,CNNベースのモデルとViTベースのモデルを同時に学習できるオンライン知識蒸留(KD)フレームワークを提案する。
提案手法は,最先端のオンライン蒸留法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2023-07-24T07:46:06Z) - Cross Architecture Distillation for Face Recognition [49.55061794917994]
本研究では,教師にプロンプトを組み込むことで,蒸留専門知識の管理を可能にする適応型プロンプト教師ネットワーク(APT)を開発した。
一般的な顔のベンチマークと2つの大規模な検証セットによる実験は,本手法の優位性を実証している。
論文 参考訳(メタデータ) (2023-06-26T12:54:28Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - TransKD: Transformer Knowledge Distillation for Efficient Semantic
Segmentation [51.93878604106518]
Transformer-based Knowledge Distillation (TransKD) フレームワークは,大規模教師トランスフォーマーの機能マップとパッチ埋め込みの両方を蒸留することにより,コンパクトな学生トランスフォーマーを学習する。
Cityscapes、ACDC、NYUv2、Pascal VOC2012データセットの実験によると、TransKDは最先端の蒸留フレームワークより優れており、時間を要する事前学習手法に匹敵している。
論文 参考訳(メタデータ) (2022-02-27T16:34:10Z) - Knowledge Distillation Meets Self-Supervision [109.6400639148393]
知識蒸留では、教師ネットワークから「暗黒の知識」を抽出し、学生ネットワークの学習を指導する。
一見異なる自己超越的なタスクが、単純だが強力なソリューションとして機能することを示します。
これらの自己超越信号の類似性を補助的タスクとして活用することにより、隠された情報を教師から生徒に効果的に転送することができる。
論文 参考訳(メタデータ) (2020-06-12T12:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。