論文の概要: Transformer-based Knowledge Distillation for Efficient Semantic
Segmentation of Road-driving Scenes
- arxiv url: http://arxiv.org/abs/2202.13393v1
- Date: Sun, 27 Feb 2022 16:34:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-01 18:24:28.164285
- Title: Transformer-based Knowledge Distillation for Efficient Semantic
Segmentation of Road-driving Scenes
- Title(参考訳): 道路走行シーンの効率的な意味セグメンテーションのための変圧器型知識蒸留
- Authors: Ruiping Liu, Kailun Yang, Huayao Liu, Jiaming Zhang, Kunyu Peng,
Rainer Stiefelhagen
- Abstract要約: 提案するKDフレームワークは, 変圧器の性質に応じて, 特徴写像から知識を伝達し, 大型変圧器のパッチ埋め込みを施すことにより, コンパクト変圧器の訓練を行う。
提案手法は,最新のKDフレームワークよりも優れており,時間を要する事前学習手法に匹敵するものである。
- 参考スコア(独自算出の注目度): 26.09267582056609
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For scene understanding in robotics and automated driving, there is a growing
interest in solving semantic segmentation tasks with transformer-based methods.
However, effective transformers are always too cumbersome and computationally
expensive to solve semantic segmentation in real time, which is desired for
robotic systems. Moreover, due to the lack of inductive biases compared to
Convolutional Neural Networks (CNNs), pre-training on a large dataset is
essential but it takes a long time. Knowledge Distillation (KD) speeds up
inference and maintains accuracy while transferring knowledge from a
pre-trained cumbersome teacher model to a compact student model. Most
traditional KD methods for CNNs focus on response-based knowledge and
feature-based knowledge. In contrast, we present a novel KD framework according
to the nature of transformers, i.e., training compact transformers by
transferring the knowledge from feature maps and patch embeddings of large
transformers. To this purpose, two modules are proposed: (1) the Selective
Kernel Fusion (SKF) module, which helps to construct an efficient
relation-based KD framework, Selective Kernel Review (SKR); (2) the Patch
Embedding Alignment (PEA) module, which performs the dimensional transformation
of patch embeddings. The combined KD framework is called SKR+PEA. Through
comprehensive experiments on Cityscapes and ACDC datasets, it indicates that
our proposed approach outperforms recent state-of-the-art KD frameworks and
rivals the time-consuming pre-training method. Code will be made publicly
available at https://github.com/RuipingL/SKR_PEA.git
- Abstract(参考訳): ロボット工学のシーン理解と自動運転には,トランスフォーマーベースの手法によるセマンティックセグメンテーションタスクの解決への関心が高まっている。
しかし、効果的なトランスフォーマーはロボットシステムに望ましいセマンティックセグメンテーションをリアルタイムで解くには、常に面倒で計算コストがかかりすぎる。
さらに、畳み込みニューラルネットワーク(cnns)と比較して帰納的バイアスがないため、大規模なデータセットでの事前トレーニングは必須だが、長い時間がかかる。
知識蒸留(KD)は推論を高速化し、事前訓練された教師モデルからコンパクトな学生モデルに知識を伝達しながら精度を維持する。
CNNの伝統的なKD手法は、応答に基づく知識と特徴に基づく知識に重点を置いている。
対照的に,本論文では,変圧器の性質に応じた新しいkdフレームワーク,すなわち,特徴地図からの知識の伝達と大規模変圧器のパッチ埋め込みによるコンパクト変圧器の訓練を提案する。
この目的のために、(1)効率的な関係ベースのKDフレームワークの構築を支援する選択カーネルフュージョン(SKF)モジュール、(2)パッチ埋め込みアライメント(PEA)モジュール、(2)パッチ埋め込みの次元変換を行う選択カーネルレビュー(SKR)モジュールの2つのモジュールを提案する。
組み合わせKDフレームワークはSKR+PEAと呼ばれる。
都市景観とadcデータセットの包括的実験を通じて,提案手法が最新の最先端kdフレームワークを上回り,時間を要する事前学習手法に匹敵することを示す。
コードはhttps://github.com/RuipingL/SKR_PEA.gitで公開される。
関連論文リスト
- CT-MVSNet: Efficient Multi-View Stereo with Cross-scale Transformer [8.962657021133925]
クロススケールトランス(CT)プロセスは、追加計算なしで異なる段階の表現を特徴付ける。
複数のスケールで異なる対話型アテンションの組み合わせを利用する適応型マッチング認識変換器(AMT)を導入する。
また、より細かなコストボリューム構成に大まかにグローバルな意味情報を埋め込む2機能ガイドアグリゲーション(DFGA)も提案する。
論文 参考訳(メタデータ) (2023-12-14T01:33:18Z) - COMEDIAN: Self-Supervised Learning and Knowledge Distillation for Action
Spotting using Transformers [1.894259749028573]
動作スポッティングのためのトランスフォーマーを初期化する新しいパイプラインであるCOMEDIANを提案する。
この結果から,非事前学習モデルと比較して,性能の向上や収束の高速化など,事前学習パイプラインのメリットを浮き彫りにしている。
論文 参考訳(メタデータ) (2023-09-03T20:50:53Z) - kTrans: Knowledge-Aware Transformer for Binary Code Embedding [15.361622199889263]
我々は,知識を意識したバイナリコード埋め込みを生成するために,トランスフォーマーベースの新しいアプローチ,すなわちkTransを提案する。
生成した埋め込みを外部検出と可視化で検査し、kTransを3つの下流タスクに適用する:バイナリコード類似度検出(BCSD)、FTR(Function Type Recovery)、ICR(Indirect Call Recognition)。
評価の結果、kTransは高品質なバイナリコード埋め込みを生成でき、それぞれ5.2%、6.8%、12.6%のダウンストリームタスクに対するSOTA(State-of-the-art)アプローチを上回っている。
論文 参考訳(メタデータ) (2023-08-24T09:07:11Z) - PriorLane: A Prior Knowledge Enhanced Lane Detection Approach Based on
Transformer [10.55399679259444]
PriorLaneはフルビジョントランスのセグメンテーション性能を高めるために使用される。
PriorLaneは、エンコーダのみのトランスフォーマーを使用して、事前学習されたセグメンテーションモデルによって抽出された機能を、事前の知識埋め込みで融合する。
Zjlabデータセットの実験では、Preside-LaneはSOTAレーン検出法を2.82% mIoUで上回っている。
論文 参考訳(メタデータ) (2022-09-15T01:48:08Z) - Cross-Architecture Knowledge Distillation [32.689574589575244]
Transformerから畳み込みニューラルネットワーク(CNN)への補完的知識の蒸留は自然である
この問題に対処するために,新しいクロスアーキテクチャ知識蒸留法を提案する。
提案手法は,小規模データセットと大規模データセットの両方において,14の最先端データを出力する。
論文 参考訳(メタデータ) (2022-07-12T02:50:48Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - DearKD: Data-Efficient Early Knowledge Distillation for Vision
Transformers [91.6129538027725]
本稿では,変換器が必要とするデータ効率を向上させるために,DearKDと呼ばれる早期知識蒸留フレームワークを提案する。
私たちのDearKDは、2段階のフレームワークで、まずCNNの初期中間層から誘導バイアスを蒸留し、その後、蒸留なしでトレーニングによってフルプレイする。
論文 参考訳(メタデータ) (2022-04-27T15:11:04Z) - BatchFormerV2: Exploring Sample Relationships for Dense Representation
Learning [88.82371069668147]
BatchFormerV2はより一般的なバッチトランスフォーマーモジュールである。
BatchFormerV2は、現在のDETRベースの検出方法を1.3%以上改善している。
論文 参考訳(メタデータ) (2022-04-04T05:53:42Z) - XAI for Transformers: Better Explanations through Conservative
Propagation [60.67748036747221]
変換器の勾配は局所的にのみ関数を反映しており、入力特徴の予測への寄与を確実に識別できないことを示す。
我々の提案は、よく確立されたLPP法のトランスフォーマーへの適切な拡張と見なすことができる。
論文 参考訳(メタデータ) (2022-02-15T10:47:11Z) - Efficient Vision Transformers via Fine-Grained Manifold Distillation [96.50513363752836]
視覚変換器のアーキテクチャは多くのコンピュータビジョンタスクで異常な性能を示した。
ネットワーク性能は向上するが、トランスフォーマーはより多くの計算資源を必要とすることが多い。
本稿では,教師のトランスフォーマーから,画像と分割パッチの関係を通して有用な情報を抽出することを提案する。
論文 参考訳(メタデータ) (2021-07-03T08:28:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。