論文の概要: Cross-Architecture Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2207.05273v1
- Date: Tue, 12 Jul 2022 02:50:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-13 13:52:13.414702
- Title: Cross-Architecture Knowledge Distillation
- Title(参考訳): クロスアーキテクチャ知識蒸留
- Authors: Yufan Liu, Jiajiong Cao, Bing Li, Weiming Hu, Jingting Ding, Liang Li
- Abstract要約: Transformerから畳み込みニューラルネットワーク(CNN)への補完的知識の蒸留は自然である
この問題に対処するために,新しいクロスアーキテクチャ知識蒸留法を提案する。
提案手法は,小規模データセットと大規模データセットの両方において,14の最先端データを出力する。
- 参考スコア(独自算出の注目度): 32.689574589575244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer attracts much attention because of its ability to learn global
relations and superior performance. In order to achieve higher performance, it
is natural to distill complementary knowledge from Transformer to convolutional
neural network (CNN). However, most existing knowledge distillation methods
only consider homologous-architecture distillation, such as distilling
knowledge from CNN to CNN. They may not be suitable when applying to
cross-architecture scenarios, such as from Transformer to CNN. To deal with
this problem, a novel cross-architecture knowledge distillation method is
proposed. Specifically, instead of directly mimicking output/intermediate
features of the teacher, a partially cross attention projector and a group-wise
linear projector are introduced to align the student features with the
teacher's in two projected feature spaces. And a multi-view robust training
scheme is further presented to improve the robustness and stability of the
framework. Extensive experiments show that the proposed method outperforms 14
state-of-the-arts on both small-scale and large-scale datasets.
- Abstract(参考訳): トランスフォーマーは、グローバルな関係と優れたパフォーマンスを学ぶ能力から、多くの注目を集めている。
高い性能を達成するために、Transformerから畳み込みニューラルネットワーク(CNN)への補完的な知識を蒸留するのは自然である。
しかし、既存の知識蒸留法は、cnnからcnnへの知識の蒸留など、相同構造蒸留のみを考慮する。
これらはtransformerからcnnまで、アーキテクチャ横断のシナリオに適用する場合には適さないかもしれない。
この問題に対処するために,新しいクロスアーキテクチャ知識蒸留法を提案する。
具体的には,教師の出力・中間的特徴を直接模倣する代わりに,部分横断的注意プロジェクタとグループ的リニアプロジェクタを導入し,教師の持つ特徴を2つの投影的特徴空間に合わせる。
また、フレームワークの堅牢性と安定性を改善するために、多視点ロバストトレーニングスキームも提示した。
大規模な実験により,提案手法は小規模なデータセットと大規模データセットの両方において,14の最先端を達成できた。
関連論文リスト
- CNN-Transformer Rectified Collaborative Learning for Medical Image Segmentation [60.08541107831459]
本稿では,医用画像セグメンテーションのための強力なCNNベースモデルとトランスフォーマーベースモデルを学習するための,CNN-Transformer修正協調学習フレームワークを提案する。
具体的には,学生ソフトラベルの誤り領域を適応的に選択・修正する基礎的真理を取り入れた修正ロジット・ワイド・コラボレーティブ・ラーニング(RLCL)戦略を提案する。
また,機能空間におけるCNNベースモデルとTransformerベースモデル間の効果的な知識伝達を実現するために,クラス認識型特徴量協調学習(CFCL)戦略を提案する。
論文 参考訳(メタデータ) (2024-08-25T01:27:35Z) - Visual Prompt Tuning in Null Space for Continual Learning [51.96411454304625]
既存のプロンプトチューニング手法は、継続学習(CL)における印象的な性能を示す。
本稿では,従来のタスクの特徴に代表される部分空間に直交する方向のプロンプトを調整し,各タスクを学習することを目的とする。
実際には、即時勾配予測を実装するために、実効的なヌル空間に基づく近似解が提案されている。
論文 参考訳(メタデータ) (2024-06-09T05:57:40Z) - Promoting CNNs with Cross-Architecture Knowledge Distillation for Efficient Monocular Depth Estimation [4.242540533823568]
トランスフォーマーモデルは通常計算に精通し、その軽量モデルにおける有効性は畳み込みと比較して制限される。
本研究では, 最先端変圧器モデルを監督し, 効率的なCNNモデルを構築するために, DisDepth と呼ばれるMDE のクロスアーキテクチャ知識蒸留手法を提案する。
提案手法は, 種々の効率的な背骨に有意な改良を施し, 効率的な単分子深度推定の可能性を示した。
論文 参考訳(メタデータ) (2024-04-25T07:55:47Z) - Cross-Architecture Transfer Learning for Linear-Cost Inference Transformers [1.1499643186017316]
本稿では,トランスフォーマ言語モデルの効率を向上させるために,クロスアーキテクチャトランスファー学習(XATL)を提案する。
Methodabbrはトレーニング時間を最大2.5倍に削減し、同じ計算予算内でLMベンチマークで最大2.6%より強力なモデルで最小限に収束する。
論文 参考訳(メタデータ) (2024-04-03T12:27:36Z) - Self-Supervised Pre-Training for Table Structure Recognition Transformer [25.04573593082671]
テーブル構造認識変換器のための自己教師付き事前学習(SSP)手法を提案する。
線形射影変換器とハイブリッドCNN変換器のパフォーマンスギャップは、TSRモデルにおける視覚エンコーダのSSPにより緩和できる。
論文 参考訳(メタデータ) (2024-02-23T19:34:06Z) - Distilling Inductive Bias: Knowledge Distillation Beyond Model
Compression [6.508088032296086]
ViT(Vision Transformers)は、視覚領域とテキスト領域にまたがる統一された情報処理の可能性を提供する。
補足型軽量教師モデルからの帰納バイアスを蒸留する,革新的なアンサンブル型蒸留手法を提案する。
提案するフレームワークでは,前もってロジットの事前計算と保存も行なっており,基本的にはモデルの非正規化予測である。
論文 参考訳(メタデータ) (2023-09-30T13:21:29Z) - Learning Lightweight Object Detectors via Multi-Teacher Progressive
Distillation [56.053397775016755]
本稿では,教師検出器の知識を学生に段階的に伝達する,知識蒸留への逐次的アプローチを提案する。
私たちの知識を最大限に活用するために、私たちはTransformerベースの教師検出器から、畳み込みベースの学生まで、初めて知識を抽出しました。
論文 参考訳(メタデータ) (2023-08-17T17:17:08Z) - A Good Student is Cooperative and Reliable: CNN-Transformer
Collaborative Learning for Semantic Segmentation [8.110815355364947]
我々は,CNNベースのモデルとViTベースのモデルを同時に学習できるオンライン知識蒸留(KD)フレームワークを提案する。
提案手法は,最先端のオンライン蒸留法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2023-07-24T07:46:06Z) - Cross Architecture Distillation for Face Recognition [49.55061794917994]
本研究では,教師にプロンプトを組み込むことで,蒸留専門知識の管理を可能にする適応型プロンプト教師ネットワーク(APT)を開発した。
一般的な顔のベンチマークと2つの大規模な検証セットによる実験は,本手法の優位性を実証している。
論文 参考訳(メタデータ) (2023-06-26T12:54:28Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - Knowledge Distillation Meets Self-Supervision [109.6400639148393]
知識蒸留では、教師ネットワークから「暗黒の知識」を抽出し、学生ネットワークの学習を指導する。
一見異なる自己超越的なタスクが、単純だが強力なソリューションとして機能することを示します。
これらの自己超越信号の類似性を補助的タスクとして活用することにより、隠された情報を教師から生徒に効果的に転送することができる。
論文 参考訳(メタデータ) (2020-06-12T12:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。