論文の概要: TransKD: Transformer Knowledge Distillation for Efficient Semantic
Segmentation
- arxiv url: http://arxiv.org/abs/2202.13393v3
- Date: Sun, 24 Dec 2023 07:59:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-28 02:20:04.670511
- Title: TransKD: Transformer Knowledge Distillation for Efficient Semantic
Segmentation
- Title(参考訳): TransKD: 効率的なセマンティックセグメンテーションのためのトランスフォーマー知識蒸留
- Authors: Ruiping Liu, Kailun Yang, Alina Roitberg, Jiaming Zhang, Kunyu Peng,
Huayao Liu, Yaonan Wang, Rainer Stiefelhagen
- Abstract要約: Transformer-based Knowledge Distillation (TransKD) フレームワークは,大規模教師トランスフォーマーの機能マップとパッチ埋め込みの両方を蒸留することにより,コンパクトな学生トランスフォーマーを学習する。
Cityscapes、ACDC、NYUv2、Pascal VOC2012データセットの実験によると、TransKDは最先端の蒸留フレームワークより優れており、時間を要する事前学習手法に匹敵している。
- 参考スコア(独自算出の注目度): 51.93878604106518
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic segmentation benchmarks in the realm of autonomous driving are
dominated by large pre-trained transformers, yet their widespread adoption is
impeded by substantial computational costs and prolonged training durations. To
lift this constraint, we look at efficient semantic segmentation from a
perspective of comprehensive knowledge distillation and consider to bridge the
gap between multi-source knowledge extractions and transformer-specific patch
embeddings. We put forward the Transformer-based Knowledge Distillation
(TransKD) framework which learns compact student transformers by distilling
both feature maps and patch embeddings of large teacher transformers, bypassing
the long pre-training process and reducing the FLOPs by >85.0%. Specifically,
we propose two fundamental and two optimization modules: (1) Cross Selective
Fusion (CSF) enables knowledge transfer between cross-stage features via
channel attention and feature map distillation within hierarchical
transformers; (2) Patch Embedding Alignment (PEA) performs dimensional
transformation within the patchifying process to facilitate the patch embedding
distillation; (3) Global-Local Context Mixer (GL-Mixer) extracts both global
and local information of a representative embedding; (4) Embedding Assistant
(EA) acts as an embedding method to seamlessly bridge teacher and student
models with the teacher's number of channels. Experiments on Cityscapes, ACDC,
NYUv2, and Pascal VOC2012 datasets show that TransKD outperforms
state-of-the-art distillation frameworks and rivals the time-consuming
pre-training method. The source code is publicly available at
https://github.com/RuipingL/TransKD.
- Abstract(参考訳): 自動運転の領域におけるセマンティックセグメンテーションベンチマークは、大きな事前訓練されたトランスフォーマーによって支配されているが、その普及は、かなりの計算コストと長い訓練期間によって妨げられている。
この制約を緩和するために,包括的知識蒸留の観点から,効率的な意味セグメンテーションを考察し,多元的知識抽出とトランスフォーマ特有のパッチ埋め込みのギャップを埋めることを検討する。
そこで我々は,Transformer-based Knowledge Distillation (TransKD) フレームワークを提案する。このフレームワークは,大規模教師トランスフォーマーの特徴マップとパッチ埋め込みを蒸留し,長期間の事前学習プロセスを回避し,FLOPを85.0%削減する。
Specifically, we propose two fundamental and two optimization modules: (1) Cross Selective Fusion (CSF) enables knowledge transfer between cross-stage features via channel attention and feature map distillation within hierarchical transformers; (2) Patch Embedding Alignment (PEA) performs dimensional transformation within the patchifying process to facilitate the patch embedding distillation; (3) Global-Local Context Mixer (GL-Mixer) extracts both global and local information of a representative embedding; (4) Embedding Assistant (EA) acts as an embedding method to seamlessly bridge teacher and student models with the teacher's number of channels.
Cityscapes、ACDC、NYUv2、Pascal VOC2012データセットの実験によると、TransKDは最先端の蒸留フレームワークより優れており、時間を要する事前学習手法に匹敵している。
ソースコードはhttps://github.com/RuipingL/TransKDで公開されている。
関連論文リスト
- CT-MVSNet: Efficient Multi-View Stereo with Cross-scale Transformer [8.962657021133925]
クロススケールトランス(CT)プロセスは、追加計算なしで異なる段階の表現を特徴付ける。
複数のスケールで異なる対話型アテンションの組み合わせを利用する適応型マッチング認識変換器(AMT)を導入する。
また、より細かなコストボリューム構成に大まかにグローバルな意味情報を埋め込む2機能ガイドアグリゲーション(DFGA)も提案する。
論文 参考訳(メタデータ) (2023-12-14T01:33:18Z) - COMEDIAN: Self-Supervised Learning and Knowledge Distillation for Action
Spotting using Transformers [1.894259749028573]
動作スポッティングのためのトランスフォーマーを初期化する新しいパイプラインであるCOMEDIANを提案する。
この結果から,非事前学習モデルと比較して,性能の向上や収束の高速化など,事前学習パイプラインのメリットを浮き彫りにしている。
論文 参考訳(メタデータ) (2023-09-03T20:50:53Z) - kTrans: Knowledge-Aware Transformer for Binary Code Embedding [15.361622199889263]
我々は,知識を意識したバイナリコード埋め込みを生成するために,トランスフォーマーベースの新しいアプローチ,すなわちkTransを提案する。
生成した埋め込みを外部検出と可視化で検査し、kTransを3つの下流タスクに適用する:バイナリコード類似度検出(BCSD)、FTR(Function Type Recovery)、ICR(Indirect Call Recognition)。
評価の結果、kTransは高品質なバイナリコード埋め込みを生成でき、それぞれ5.2%、6.8%、12.6%のダウンストリームタスクに対するSOTA(State-of-the-art)アプローチを上回っている。
論文 参考訳(メタデータ) (2023-08-24T09:07:11Z) - PriorLane: A Prior Knowledge Enhanced Lane Detection Approach Based on
Transformer [10.55399679259444]
PriorLaneはフルビジョントランスのセグメンテーション性能を高めるために使用される。
PriorLaneは、エンコーダのみのトランスフォーマーを使用して、事前学習されたセグメンテーションモデルによって抽出された機能を、事前の知識埋め込みで融合する。
Zjlabデータセットの実験では、Preside-LaneはSOTAレーン検出法を2.82% mIoUで上回っている。
論文 参考訳(メタデータ) (2022-09-15T01:48:08Z) - Cross-Architecture Knowledge Distillation [32.689574589575244]
Transformerから畳み込みニューラルネットワーク(CNN)への補完的知識の蒸留は自然である
この問題に対処するために,新しいクロスアーキテクチャ知識蒸留法を提案する。
提案手法は,小規模データセットと大規模データセットの両方において,14の最先端データを出力する。
論文 参考訳(メタデータ) (2022-07-12T02:50:48Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - DearKD: Data-Efficient Early Knowledge Distillation for Vision
Transformers [91.6129538027725]
本稿では,変換器が必要とするデータ効率を向上させるために,DearKDと呼ばれる早期知識蒸留フレームワークを提案する。
私たちのDearKDは、2段階のフレームワークで、まずCNNの初期中間層から誘導バイアスを蒸留し、その後、蒸留なしでトレーニングによってフルプレイする。
論文 参考訳(メタデータ) (2022-04-27T15:11:04Z) - BatchFormerV2: Exploring Sample Relationships for Dense Representation
Learning [88.82371069668147]
BatchFormerV2はより一般的なバッチトランスフォーマーモジュールである。
BatchFormerV2は、現在のDETRベースの検出方法を1.3%以上改善している。
論文 参考訳(メタデータ) (2022-04-04T05:53:42Z) - XAI for Transformers: Better Explanations through Conservative
Propagation [60.67748036747221]
変換器の勾配は局所的にのみ関数を反映しており、入力特徴の予測への寄与を確実に識別できないことを示す。
我々の提案は、よく確立されたLPP法のトランスフォーマーへの適切な拡張と見なすことができる。
論文 参考訳(メタデータ) (2022-02-15T10:47:11Z) - Efficient Vision Transformers via Fine-Grained Manifold Distillation [96.50513363752836]
視覚変換器のアーキテクチャは多くのコンピュータビジョンタスクで異常な性能を示した。
ネットワーク性能は向上するが、トランスフォーマーはより多くの計算資源を必要とすることが多い。
本稿では,教師のトランスフォーマーから,画像と分割パッチの関係を通して有用な情報を抽出することを提案する。
論文 参考訳(メタデータ) (2021-07-03T08:28:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。