論文の概要: Transformer-based Knowledge Distillation for Efficient Semantic
Segmentation of Road-driving Scenes
- arxiv url: http://arxiv.org/abs/2202.13393v1
- Date: Sun, 27 Feb 2022 16:34:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-01 18:24:28.164285
- Title: Transformer-based Knowledge Distillation for Efficient Semantic
Segmentation of Road-driving Scenes
- Title(参考訳): 道路走行シーンの効率的な意味セグメンテーションのための変圧器型知識蒸留
- Authors: Ruiping Liu, Kailun Yang, Huayao Liu, Jiaming Zhang, Kunyu Peng,
Rainer Stiefelhagen
- Abstract要約: 提案するKDフレームワークは, 変圧器の性質に応じて, 特徴写像から知識を伝達し, 大型変圧器のパッチ埋め込みを施すことにより, コンパクト変圧器の訓練を行う。
提案手法は,最新のKDフレームワークよりも優れており,時間を要する事前学習手法に匹敵するものである。
- 参考スコア(独自算出の注目度): 26.09267582056609
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For scene understanding in robotics and automated driving, there is a growing
interest in solving semantic segmentation tasks with transformer-based methods.
However, effective transformers are always too cumbersome and computationally
expensive to solve semantic segmentation in real time, which is desired for
robotic systems. Moreover, due to the lack of inductive biases compared to
Convolutional Neural Networks (CNNs), pre-training on a large dataset is
essential but it takes a long time. Knowledge Distillation (KD) speeds up
inference and maintains accuracy while transferring knowledge from a
pre-trained cumbersome teacher model to a compact student model. Most
traditional KD methods for CNNs focus on response-based knowledge and
feature-based knowledge. In contrast, we present a novel KD framework according
to the nature of transformers, i.e., training compact transformers by
transferring the knowledge from feature maps and patch embeddings of large
transformers. To this purpose, two modules are proposed: (1) the Selective
Kernel Fusion (SKF) module, which helps to construct an efficient
relation-based KD framework, Selective Kernel Review (SKR); (2) the Patch
Embedding Alignment (PEA) module, which performs the dimensional transformation
of patch embeddings. The combined KD framework is called SKR+PEA. Through
comprehensive experiments on Cityscapes and ACDC datasets, it indicates that
our proposed approach outperforms recent state-of-the-art KD frameworks and
rivals the time-consuming pre-training method. Code will be made publicly
available at https://github.com/RuipingL/SKR_PEA.git
- Abstract(参考訳): ロボット工学のシーン理解と自動運転には,トランスフォーマーベースの手法によるセマンティックセグメンテーションタスクの解決への関心が高まっている。
しかし、効果的なトランスフォーマーはロボットシステムに望ましいセマンティックセグメンテーションをリアルタイムで解くには、常に面倒で計算コストがかかりすぎる。
さらに、畳み込みニューラルネットワーク(cnns)と比較して帰納的バイアスがないため、大規模なデータセットでの事前トレーニングは必須だが、長い時間がかかる。
知識蒸留(KD)は推論を高速化し、事前訓練された教師モデルからコンパクトな学生モデルに知識を伝達しながら精度を維持する。
CNNの伝統的なKD手法は、応答に基づく知識と特徴に基づく知識に重点を置いている。
対照的に,本論文では,変圧器の性質に応じた新しいkdフレームワーク,すなわち,特徴地図からの知識の伝達と大規模変圧器のパッチ埋め込みによるコンパクト変圧器の訓練を提案する。
この目的のために、(1)効率的な関係ベースのKDフレームワークの構築を支援する選択カーネルフュージョン(SKF)モジュール、(2)パッチ埋め込みアライメント(PEA)モジュール、(2)パッチ埋め込みの次元変換を行う選択カーネルレビュー(SKR)モジュールの2つのモジュールを提案する。
組み合わせKDフレームワークはSKR+PEAと呼ばれる。
都市景観とadcデータセットの包括的実験を通じて,提案手法が最新の最先端kdフレームワークを上回り,時間を要する事前学習手法に匹敵することを示す。
コードはhttps://github.com/RuipingL/SKR_PEA.gitで公開される。
関連論文リスト
- Weight Copy and Low-Rank Adaptation for Few-Shot Distillation of Vision Transformers [22.1372572833618]
視覚変換器のための新規な数ショット特徴蒸留手法を提案する。
まず、既存の視覚変換器の断続的な層から、より浅いアーキテクチャ(学生)へと重みをコピーする。
次に、Low-Rank Adaptation (LoRA) の強化版を用いて、数ショットのシナリオで学生に知識を抽出する。
論文 参考訳(メタデータ) (2024-04-14T18:57:38Z) - COMEDIAN: Self-Supervised Learning and Knowledge Distillation for Action
Spotting using Transformers [1.894259749028573]
動作スポッティングのためのトランスフォーマーを初期化する新しいパイプラインであるCOMEDIANを提案する。
この結果から,非事前学習モデルと比較して,性能の向上や収束の高速化など,事前学習パイプラインのメリットを浮き彫りにしている。
論文 参考訳(メタデータ) (2023-09-03T20:50:53Z) - ERNIE-Search: Bridging Cross-Encoder with Dual-Encoder via Self
On-the-fly Distillation for Dense Passage Retrieval [54.54667085792404]
両エンコーダのクロスアーキテクチャ蒸留を著しく向上させる新しい蒸留法を提案する。
本手法は,バニラ二重エンコーダへの遅延相互作用(ColBERT)を効果的に蒸留できる自己オンザフライ蒸留法を導入し,また,クロスエンコーダの教師による性能向上のためにカスケード蒸留プロセスを導入している。
論文 参考訳(メタデータ) (2022-05-18T18:05:13Z) - DearKD: Data-Efficient Early Knowledge Distillation for Vision
Transformers [91.6129538027725]
本稿では,変換器が必要とするデータ効率を向上させるために,DearKDと呼ばれる早期知識蒸留フレームワークを提案する。
私たちのDearKDは、2段階のフレームワークで、まずCNNの初期中間層から誘導バイアスを蒸留し、その後、蒸留なしでトレーニングによってフルプレイする。
論文 参考訳(メタデータ) (2022-04-27T15:11:04Z) - XAI for Transformers: Better Explanations through Conservative
Propagation [60.67748036747221]
変換器の勾配は局所的にのみ関数を反映しており、入力特徴の予測への寄与を確実に識別できないことを示す。
我々の提案は、よく確立されたLPP法のトランスフォーマーへの適切な拡張と見なすことができる。
論文 参考訳(メタデータ) (2022-02-15T10:47:11Z) - Pixel Distillation: A New Knowledge Distillation Scheme for Low-Resolution Image Recognition [124.80263629921498]
アーキテクチャ制約を同時に破りながら知識蒸留を入力レベルまで拡張するPixel Distillationを提案する。
このようなスキームは、ネットワークアーキテクチャと画像品質の両方をリソースの全体的な要求に応じて調整できるため、展開のための柔軟なコスト制御を実現することができる。
論文 参考訳(メタデータ) (2021-12-17T14:31:40Z) - Efficient Vision Transformers via Fine-Grained Manifold Distillation [96.50513363752836]
視覚変換器のアーキテクチャは多くのコンピュータビジョンタスクで異常な性能を示した。
ネットワーク性能は向上するが、トランスフォーマーはより多くの計算資源を必要とすることが多い。
本稿では,教師のトランスフォーマーから,画像と分割パッチの関係を通して有用な情報を抽出することを提案する。
論文 参考訳(メタデータ) (2021-07-03T08:28:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。