論文の概要: TransKD: Transformer Knowledge Distillation for Efficient Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2202.13393v4
- Date: Thu, 5 Sep 2024 00:18:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-07 07:30:16.607752
- Title: TransKD: Transformer Knowledge Distillation for Efficient Semantic Segmentation
- Title(参考訳): TransKD: 効率的なセマンティックセグメンテーションのためのトランスフォーマー知識蒸留
- Authors: Ruiping Liu, Kailun Yang, Alina Roitberg, Jiaming Zhang, Kunyu Peng, Huayao Liu, Yaonan Wang, Rainer Stiefelhagen,
- Abstract要約: Transformer-based Knowledge Distillation (TransKD) フレームワークは,大規模教師トランスフォーマーの機能マップとパッチ埋め込みの両方を蒸留することにより,コンパクトな学生トランスフォーマーを学習する。
Cityscapes、ACDC、NYUv2、Pascal VOC2012データセットの実験は、TransKDが最先端の蒸留フレームワークより優れていることを示している。
- 参考スコア(独自算出の注目度): 49.794142076551026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic segmentation benchmarks in the realm of autonomous driving are dominated by large pre-trained transformers, yet their widespread adoption is impeded by substantial computational costs and prolonged training durations. To lift this constraint, we look at efficient semantic segmentation from a perspective of comprehensive knowledge distillation and aim to bridge the gap between multi-source knowledge extractions and transformer-specific patch embeddings. We put forward the Transformer-based Knowledge Distillation (TransKD) framework which learns compact student transformers by distilling both feature maps and patch embeddings of large teacher transformers, bypassing the long pre-training process and reducing the FLOPs by >85.0%. Specifically, we propose two fundamental modules to realize feature map distillation and patch embedding distillation, respectively: (1) Cross Selective Fusion (CSF) enables knowledge transfer between cross-stage features via channel attention and feature map distillation within hierarchical transformers; (2) Patch Embedding Alignment (PEA) performs dimensional transformation within the patchifying process to facilitate the patch embedding distillation. Furthermore, we introduce two optimization modules to enhance the patch embedding distillation from different perspectives: (1) Global-Local Context Mixer (GL-Mixer) extracts both global and local information of a representative embedding; (2) Embedding Assistant (EA) acts as an embedding method to seamlessly bridge teacher and student models with the teacher's number of channels. Experiments on Cityscapes, ACDC, NYUv2, and Pascal VOC2012 datasets show that TransKD outperforms state-of-the-art distillation frameworks and rivals the time-consuming pre-training method. The source code is publicly available at https://github.com/RuipingL/TransKD.
- Abstract(参考訳): 自律運転の領域におけるセマンティックセグメンテーションのベンチマークは、大きな事前訓練されたトランスフォーマーによって支配されているが、その普及は、かなりの計算コストと長い訓練期間によって妨げられている。
この制約を緩和するために、包括的知識蒸留の観点から効率的なセマンティックセグメンテーションを検討し、マルチソース知識抽出とトランスフォーマー固有のパッチ埋め込みのギャップを埋めることを目的としている。
そこで我々は,Transformer-based Knowledge Distillation (TransKD) フレームワークを提案する。このフレームワークは,大規模教師トランスフォーマーの特徴マップとパッチ埋め込みを蒸留し,長期間の事前学習プロセスを回避し,FLOPを85.0%削減することで,コンパクトな学生トランスフォーマーを学習する。
具体的には,(1)CSF(Cross Selective Fusion)は,チャネルアテンションと階層トランスフォーマー内の特徴マップ蒸留によるクロスステージ特徴間の知識伝達を可能にし,(2)Patch Embedding Alignment(PEA)はパッチ埋め込み蒸留を容易にするために,パッチ分割プロセス内で次元変換を行う。
さらに,(1)グローバルローカルコンテキストミキサー(GL-Mixer)は,代表埋め込みのグローバル情報とローカル情報の両方を抽出し,(2)埋め込みアシスタント(EA)は,教師のチャネル数で教師と生徒のモデルをシームレスにブリッジする埋め込み方法として機能する。
Cityscapes、ACDC、NYUv2、Pascal VOC2012データセットの実験によると、TransKDは最先端の蒸留フレームワークより優れており、時間を要する事前学習手法に匹敵している。
ソースコードはhttps://github.com/RuipingL/TransKDで公開されている。
関連論文リスト
- CT-MVSNet: Efficient Multi-View Stereo with Cross-scale Transformer [8.962657021133925]
クロススケールトランス(CT)プロセスは、追加計算なしで異なる段階の表現を特徴付ける。
複数のスケールで異なる対話型アテンションの組み合わせを利用する適応型マッチング認識変換器(AMT)を導入する。
また、より細かなコストボリューム構成に大まかにグローバルな意味情報を埋め込む2機能ガイドアグリゲーション(DFGA)も提案する。
論文 参考訳(メタデータ) (2023-12-14T01:33:18Z) - COMEDIAN: Self-Supervised Learning and Knowledge Distillation for Action
Spotting using Transformers [1.894259749028573]
動作スポッティングのためのトランスフォーマーを初期化する新しいパイプラインであるCOMEDIANを提案する。
この結果から,非事前学習モデルと比較して,性能の向上や収束の高速化など,事前学習パイプラインのメリットを浮き彫りにしている。
論文 参考訳(メタデータ) (2023-09-03T20:50:53Z) - kTrans: Knowledge-Aware Transformer for Binary Code Embedding [15.361622199889263]
我々は,知識を意識したバイナリコード埋め込みを生成するために,トランスフォーマーベースの新しいアプローチ,すなわちkTransを提案する。
生成した埋め込みを外部検出と可視化で検査し、kTransを3つの下流タスクに適用する:バイナリコード類似度検出(BCSD)、FTR(Function Type Recovery)、ICR(Indirect Call Recognition)。
評価の結果、kTransは高品質なバイナリコード埋め込みを生成でき、それぞれ5.2%、6.8%、12.6%のダウンストリームタスクに対するSOTA(State-of-the-art)アプローチを上回っている。
論文 参考訳(メタデータ) (2023-08-24T09:07:11Z) - PriorLane: A Prior Knowledge Enhanced Lane Detection Approach Based on
Transformer [10.55399679259444]
PriorLaneはフルビジョントランスのセグメンテーション性能を高めるために使用される。
PriorLaneは、エンコーダのみのトランスフォーマーを使用して、事前学習されたセグメンテーションモデルによって抽出された機能を、事前の知識埋め込みで融合する。
Zjlabデータセットの実験では、Preside-LaneはSOTAレーン検出法を2.82% mIoUで上回っている。
論文 参考訳(メタデータ) (2022-09-15T01:48:08Z) - Cross-Architecture Knowledge Distillation [32.689574589575244]
Transformerから畳み込みニューラルネットワーク(CNN)への補完的知識の蒸留は自然である
この問題に対処するために,新しいクロスアーキテクチャ知識蒸留法を提案する。
提案手法は,小規模データセットと大規模データセットの両方において,14の最先端データを出力する。
論文 参考訳(メタデータ) (2022-07-12T02:50:48Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - DearKD: Data-Efficient Early Knowledge Distillation for Vision
Transformers [91.6129538027725]
本稿では,変換器が必要とするデータ効率を向上させるために,DearKDと呼ばれる早期知識蒸留フレームワークを提案する。
私たちのDearKDは、2段階のフレームワークで、まずCNNの初期中間層から誘導バイアスを蒸留し、その後、蒸留なしでトレーニングによってフルプレイする。
論文 参考訳(メタデータ) (2022-04-27T15:11:04Z) - XAI for Transformers: Better Explanations through Conservative
Propagation [60.67748036747221]
変換器の勾配は局所的にのみ関数を反映しており、入力特徴の予測への寄与を確実に識別できないことを示す。
我々の提案は、よく確立されたLPP法のトランスフォーマーへの適切な拡張と見なすことができる。
論文 参考訳(メタデータ) (2022-02-15T10:47:11Z) - Pixel Distillation: A New Knowledge Distillation Scheme for Low-Resolution Image Recognition [124.80263629921498]
アーキテクチャ制約を同時に破りながら知識蒸留を入力レベルまで拡張するPixel Distillationを提案する。
このようなスキームは、ネットワークアーキテクチャと画像品質の両方をリソースの全体的な要求に応じて調整できるため、展開のための柔軟なコスト制御を実現することができる。
論文 参考訳(メタデータ) (2021-12-17T14:31:40Z) - Efficient Vision Transformers via Fine-Grained Manifold Distillation [96.50513363752836]
視覚変換器のアーキテクチャは多くのコンピュータビジョンタスクで異常な性能を示した。
ネットワーク性能は向上するが、トランスフォーマーはより多くの計算資源を必要とすることが多い。
本稿では,教師のトランスフォーマーから,画像と分割パッチの関係を通して有用な情報を抽出することを提案する。
論文 参考訳(メタデータ) (2021-07-03T08:28:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。