論文の概要: Faster Inference of Integer SWIN Transformer by Removing the GELU
Activation
- arxiv url: http://arxiv.org/abs/2402.01169v1
- Date: Fri, 2 Feb 2024 06:23:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 16:38:45.222295
- Title: Faster Inference of Integer SWIN Transformer by Removing the GELU
Activation
- Title(参考訳): GELU活性化除去による整数SWIN変換器の高速化
- Authors: Mohammadreza Tayaranian, Seyyed Hasan Mozafari, James J. Clark, Brett
Meyer, Warren Gross
- Abstract要約: SWIN変換器は画像分類タスクにおける最先端の精度を持つ顕著な視覚変換器モデルである。
本研究では,浮動小数点演算を除去することで,最先端手法の推論遅延を改善する。
我々は、画像Net評価データセット上で0.5%以下の精度低下を維持しながら、量子化SWIN変換器の推論遅延を少なくとも11%以上改善できることを示す。
- 参考スコア(独自算出の注目度): 6.043526197249358
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: SWIN transformer is a prominent vision transformer model that has
state-of-the-art accuracy in image classification tasks. Despite this success,
its unique architecture causes slower inference compared with similar deep
neural networks. Integer quantization of the model is one of the methods used
to improve its inference latency. However, state-of-the-art has not been able
to fully quantize the model. In this work, we improve upon the inference
latency of the state-of-the-art methods by removing the floating-point
operations, which are associated with the GELU activation in Swin Transformer.
While previous work proposed to replace the non-integer operations with linear
approximation functions, we propose to replace GELU with ReLU activation. The
advantage of ReLU over previous methods is its low memory and computation
complexity. We use iterative knowledge distillation to compensate for the lost
accuracy due to replacing GELU with ReLU. We quantize our GELU-less SWIN
transformer and show that on an RTX 4090 NVIDIA GPU we can improve the
inference latency of the quantized SWIN transformer by at least $11\%$ while
maintaining an accuracy drop of under $0.5\%$ on the ImageNet evaluation
dataset.
- Abstract(参考訳): swin transformerは、画像分類タスクにおいて最先端の精度を持つ目視トランスフォーマーモデルである。
この成功にもかかわらず、そのユニークなアーキテクチャは、同様のディープニューラルネットワークと比較して推論が遅くなる。
モデルの整数量子化は、推論遅延を改善するために使用される方法の1つである。
しかし、最先端技術ではモデルを完全に定量化することはできない。
本研究では,Swin TransformerのGELUアクティベーションに関連する浮動小数点演算を除去することにより,最先端手法の推論遅延を改善する。
従来,非整数演算を線形近似関数に置き換える提案がなされていたが,GELUをReLUアクティベーションに置き換える提案を行った。
reluの利点は、メモリと計算の複雑さが低いことである。
GELU を ReLU に置き換えることで, 精度の低下を補うため, 反復的知識蒸留を用いる。
我々はGELUのないSWIN変換器を定量化し、RTX 4090 NVIDIA GPUでは、画像Net評価データセット上で0.5 %以下の精度低下を維持しながら、少なくとも11 %の価格で量子化されたSWIN変換器の推論遅延を改善することができることを示す。
関連論文リスト
- WiNet: Wavelet-based Incremental Learning for Efficient Medical Image Registration [68.25711405944239]
深部画像登録は異常な精度と高速な推測を示した。
近年の進歩は、粗大から粗大の方法で密度変形場を推定するために、複数のカスケードまたはピラミッドアーキテクチャを採用している。
本稿では,様々なスケールにわたる変位/速度場に対して,スケールワイブレット係数を漸進的に推定するモデル駆動WiNetを提案する。
論文 参考訳(メタデータ) (2024-07-18T11:51:01Z) - Look-Around Before You Leap: High-Frequency Injected Transformer for Image Restoration [46.96362010335177]
本稿では,画像復元のための簡易かつ効果的な高周波インジェクト変換器HITを提案する。
具体的には,機能マップに高頻度の詳細を組み込んだウィンドウワイドインジェクションモジュール(WIM)を設計し,高品質な画像の復元のための信頼性の高い参照を提供する。
さらに,BIMにおけるチャネル次元の計算によって失われる可能性のある空間的関係を維持するために,空間拡張ユニット(SEU)を導入する。
論文 参考訳(メタデータ) (2024-03-30T08:05:00Z) - SPION: Layer-Wise Sparse Training of Transformer via Convolutional Flood
Filling [1.0128808054306186]
本稿では,畳み込みフィルタとフラッドフィリング法を統合したトランスフォーマーの新しいスペーサー方式を提案する。
我々のスパーシフィケーションアプローチは、トレーニング中のTransformerの計算複雑性とメモリフットプリントを低減する。
New SPIONは、既存の最先端スパーストランスモデルよりも最大3.08倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2023-09-22T02:14:46Z) - CageViT: Convolutional Activation Guided Efficient Vision Transformer [90.69578999760206]
本稿では,CageViTと呼ばれる効率的な視覚変換器を提案する。
私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。
実験の結果,提案したCageViTは最新の最先端のバックボーンよりも効率の面で大きな差があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T03:19:18Z) - Robust representations of oil wells' intervals via sparse attention
mechanism [2.604557228169423]
正規化変換器(Reguformers)と呼ばれる効率的な変換器のクラスを導入する。
私たちの実験の焦点は、石油とガスのデータ、すなわちウェルログにあります。
このような問題に対する我々のモデルを評価するために、20以上の井戸からなるウェルログからなる産業規模のオープンデータセットで作業する。
論文 参考訳(メタデータ) (2022-12-29T09:56:33Z) - Wave-ViT: Unifying Wavelet and Transformers for Visual Representation
Learning [138.29273453811945]
マルチスケールビジョントランス (ViT) はコンピュータビジョンタスクの強力なバックボーンとして登場した。
本稿では,ウェーブレット変換と自己注意学習を用いて,可逆的なダウンサンプリングを定式化する新しいウェーブレットビジョン変換器(textbfWave-ViT)を提案する。
論文 参考訳(メタデータ) (2022-07-11T16:03:51Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z) - FQ-ViT: Fully Quantized Vision Transformer without Retraining [13.82845665713633]
本稿では,量子変換器の性能劣化と推論の複雑さを低減するための系統的手法を提案する。
完全に量子化された視覚変換器上で、我々は初めて精度の劣化(1%)を達成した。
論文 参考訳(メタデータ) (2021-11-27T06:20:53Z) - HRFormer: High-Resolution Transformer for Dense Prediction [99.6060997466614]
本稿では高分解能な予測タスクのための高分解能表現を学習する高分解能変換器(HRFormer)を提案する。
我々は高分解能畳み込みネットワーク(HRNet)で導入された多分解能並列設計を利用する。
人間のポーズ推定とセマンティックセグメンテーションにおける高分解能トランスフォーマの有効性を示す。
論文 参考訳(メタデータ) (2021-10-18T15:37:58Z) - Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。
線形複雑リカレント変種は自己回帰生成に適していることが証明されている。
この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文 参考訳(メタデータ) (2021-03-24T10:50:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。