Fugu-MT 論文翻訳(概要): Transformer-based Knowledge Distillation for Efficient Semantic Segmentation of Road-driving Scenes

論文の概要: Transformer-based Knowledge Distillation for Efficient Semantic Segmentation of Road-driving Scenes

arxiv url: http://arxiv.org/abs/2202.13393v1
Date: Sun, 27 Feb 2022 16:34:10 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-01 18:24:28.164285
Title: Transformer-based Knowledge Distillation for Efficient Semantic Segmentation of Road-driving Scenes
Title（参考訳）: 道路走行シーンの効率的な意味セグメンテーションのための変圧器型知識蒸留
Authors: Ruiping Liu, Kailun Yang, Huayao Liu, Jiaming Zhang, Kunyu Peng, Rainer Stiefelhagen
Abstract要約: 提案するKDフレームワークは, 変圧器の性質に応じて, 特徴写像から知識を伝達し, 大型変圧器のパッチ埋め込みを施すことにより, コンパクト変圧器の訓練を行う。提案手法は,最新のKDフレームワークよりも優れており,時間を要する事前学習手法に匹敵するものである。
参考スコア（独自算出の注目度）: 26.09267582056609
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: For scene understanding in robotics and automated driving, there is a growing interest in solving semantic segmentation tasks with transformer-based methods. However, effective transformers are always too cumbersome and computationally expensive to solve semantic segmentation in real time, which is desired for robotic systems. Moreover, due to the lack of inductive biases compared to Convolutional Neural Networks (CNNs), pre-training on a large dataset is essential but it takes a long time. Knowledge Distillation (KD) speeds up inference and maintains accuracy while transferring knowledge from a pre-trained cumbersome teacher model to a compact student model. Most traditional KD methods for CNNs focus on response-based knowledge and feature-based knowledge. In contrast, we present a novel KD framework according to the nature of transformers, i.e., training compact transformers by transferring the knowledge from feature maps and patch embeddings of large transformers. To this purpose, two modules are proposed: (1) the Selective Kernel Fusion (SKF) module, which helps to construct an efficient relation-based KD framework, Selective Kernel Review (SKR); (2) the Patch Embedding Alignment (PEA) module, which performs the dimensional transformation of patch embeddings. The combined KD framework is called SKR+PEA. Through comprehensive experiments on Cityscapes and ACDC datasets, it indicates that our proposed approach outperforms recent state-of-the-art KD frameworks and rivals the time-consuming pre-training method. Code will be made publicly available at https://github.com/RuipingL/SKR_PEA.git
Abstract（参考訳）: ロボット工学のシーン理解と自動運転には,トランスフォーマーベースの手法によるセマンティックセグメンテーションタスクの解決への関心が高まっている。しかし、効果的なトランスフォーマーはロボットシステムに望ましいセマンティックセグメンテーションをリアルタイムで解くには、常に面倒で計算コストがかかりすぎる。さらに、畳み込みニューラルネットワーク(cnns)と比較して帰納的バイアスがないため、大規模なデータセットでの事前トレーニングは必須だが、長い時間がかかる。知識蒸留(KD)は推論を高速化し、事前訓練された教師モデルからコンパクトな学生モデルに知識を伝達しながら精度を維持する。 CNNの伝統的なKD手法は、応答に基づく知識と特徴に基づく知識に重点を置いている。対照的に,本論文では,変圧器の性質に応じた新しいkdフレームワーク,すなわち,特徴地図からの知識の伝達と大規模変圧器のパッチ埋め込みによるコンパクト変圧器の訓練を提案する。この目的のために、(1)効率的な関係ベースのKDフレームワークの構築を支援する選択カーネルフュージョン(SKF)モジュール、(2)パッチ埋め込みアライメント(PEA)モジュール、(2)パッチ埋め込みの次元変換を行う選択カーネルレビュー(SKR)モジュールの2つのモジュールを提案する。組み合わせKDフレームワークはSKR+PEAと呼ばれる。都市景観とadcデータセットの包括的実験を通じて,提案手法が最新の最先端kdフレームワークを上回り,時間を要する事前学習手法に匹敵することを示す。コードはhttps://github.com/RuipingL/SKR_PEA.gitで公開される。

関連論文リスト

CLoCKDistill: Consistent Location-and-Context-aware Knowledge Distillation for DETRs [2.7624021966289605]
本稿では,DETR検出器のためのCLoCKDistill(Consistent Location-and-Aware Knowledge Distillation)を提案する。我々は、価値あるグローバルコンテキストと長距離依存関係を含むトランスフォーマーエンコーダ出力(メモリ)を蒸留する。本手法は,学生検出器の性能を2.2%から6.4%向上させる。
論文参考訳（メタデータ） (2025-02-15T06:02:51Z)
BEExformer: A Fast Inferencing Binarized Transformer with Early Exits [2.7651063843287718]
BAT(Binarized Early Exit Transformer)とEE(Early Exit)を統合した最初の選択型学習ベーストランスであるBEExformerを紹介する。 BATは符号関数に微分可能な二階近似を用い、重みの符号と大きさの両方を捉える勾配を可能にする。 EEメカニズムは、ソフトルーティング損失推定を伴う中間変圧器ブロック間のエントロピーの分数還元に係わる。これにより、FLOPを52.08%削減して推論を加速し、深層ネットワークに固有の「過剰な」問題を解くことで精度を2.89%向上させる。
論文参考訳（メタデータ） (2024-12-06T17:58:14Z)
Weight Copy and Low-Rank Adaptation for Few-Shot Distillation of Vision Transformers [22.1372572833618]
視覚変換器のための新規な数ショット特徴蒸留手法を提案する。まず、既存の視覚変換器の断続的な層から、より浅いアーキテクチャ(学生)へと重みをコピーする。次に、Low-Rank Adaptation (LoRA) の強化版を用いて、数ショットのシナリオで学生に知識を抽出する。
論文参考訳（メタデータ） (2024-04-14T18:57:38Z)
COMEDIAN: Self-Supervised Learning and Knowledge Distillation for Action Spotting using Transformers [1.894259749028573]
動作スポッティングのためのトランスフォーマーを初期化する新しいパイプラインであるCOMEDIANを提案する。この結果から,非事前学習モデルと比較して,性能の向上や収束の高速化など,事前学習パイプラインのメリットを浮き彫りにしている。
論文参考訳（メタデータ） (2023-09-03T20:50:53Z)
ERNIE-Search: Bridging Cross-Encoder with Dual-Encoder via Self On-the-fly Distillation for Dense Passage Retrieval [54.54667085792404]
両エンコーダのクロスアーキテクチャ蒸留を著しく向上させる新しい蒸留法を提案する。本手法は,バニラ二重エンコーダへの遅延相互作用(ColBERT)を効果的に蒸留できる自己オンザフライ蒸留法を導入し,また,クロスエンコーダの教師による性能向上のためにカスケード蒸留プロセスを導入している。
論文参考訳（メタデータ） (2022-05-18T18:05:13Z)
DearKD: Data-Efficient Early Knowledge Distillation for Vision Transformers [91.6129538027725]
本稿では,変換器が必要とするデータ効率を向上させるために,DearKDと呼ばれる早期知識蒸留フレームワークを提案する。私たちのDearKDは、2段階のフレームワークで、まずCNNの初期中間層から誘導バイアスを蒸留し、その後、蒸留なしでトレーニングによってフルプレイする。
論文参考訳（メタデータ） (2022-04-27T15:11:04Z)
XAI for Transformers: Better Explanations through Conservative Propagation [60.67748036747221]
変換器の勾配は局所的にのみ関数を反映しており、入力特徴の予測への寄与を確実に識別できないことを示す。我々の提案は、よく確立されたLPP法のトランスフォーマーへの適切な拡張と見なすことができる。
論文参考訳（メタデータ） (2022-02-15T10:47:11Z)
Pixel Distillation: A New Knowledge Distillation Scheme for Low-Resolution Image Recognition [124.80263629921498]
アーキテクチャ制約を同時に破りながら知識蒸留を入力レベルまで拡張するPixel Distillationを提案する。このようなスキームは、ネットワークアーキテクチャと画像品質の両方をリソースの全体的な要求に応じて調整できるため、展開のための柔軟なコスト制御を実現することができる。
論文参考訳（メタデータ） (2021-12-17T14:31:40Z)
Efficient Vision Transformers via Fine-Grained Manifold Distillation [96.50513363752836]
視覚変換器のアーキテクチャは多くのコンピュータビジョンタスクで異常な性能を示した。ネットワーク性能は向上するが、トランスフォーマーはより多くの計算資源を必要とすることが多い。本稿では,教師のトランスフォーマーから,画像と分割パッチの関係を通して有用な情報を抽出することを提案する。
論文参考訳（メタデータ） (2021-07-03T08:28:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。