論文の概要: SLAB: Efficient Transformers with Simplified Linear Attention and Progressive Re-parameterized Batch Normalization
- arxiv url: http://arxiv.org/abs/2405.11582v2
- Date: Mon, 17 Jun 2024 05:59:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 04:28:22.390488
- Title: SLAB: Efficient Transformers with Simplified Linear Attention and Progressive Re-parameterized Batch Normalization
- Title(参考訳): SLAB: 線形注意とプログレッシブ再パラメータ化バッチ正規化を簡略化した効率的な変圧器
- Authors: Jialong Guo, Xinghao Chen, Yehui Tang, Yunhe Wang,
- Abstract要約: 本稿では,効率的な変圧器の計算ボトルネックモジュール,すなわち正規化層とアテンションモジュールについて検討する。
LayerNormはトランスフォーマーアーキテクチャで一般的に使用されるが、推論中の統計計算のために計算に適さない。
本稿では,LayerNorm を再パラメータ化した BatchNorm に段階的に置き換える PRepBN という新しい手法を提案する。
- 参考スコア(独自算出の注目度): 36.84275777364218
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have become foundational architectures for both natural language and computer vision tasks. However, the high computational cost makes it quite challenging to deploy on resource-constraint devices. This paper investigates the computational bottleneck modules of efficient transformer, i.e., normalization layers and attention modules. LayerNorm is commonly used in transformer architectures but is not computational friendly due to statistic calculation during inference. However, replacing LayerNorm with more efficient BatchNorm in transformer often leads to inferior performance and collapse in training. To address this problem, we propose a novel method named PRepBN to progressively replace LayerNorm with re-parameterized BatchNorm in training. Moreover, we propose a simplified linear attention (SLA) module that is simple yet effective to achieve strong performance. Extensive experiments on image classification as well as object detection demonstrate the effectiveness of our proposed method. For example, our SLAB-Swin obtains $83.6\%$ top-1 accuracy on ImageNet-1K with $16.2$ms latency, which is $2.4$ms less than that of Flatten-Swin with $0.1\%$ higher accuracy. We also evaluated our method for language modeling task and obtain comparable performance and lower latency.Codes are publicly available at https://github.com/xinghaochen/SLAB and https://github.com/mindspore-lab/models/tree/master/research/huawei-noah/SLAB.
- Abstract(参考訳): トランスフォーマーは自然言語とコンピュータビジョンの両方のタスクの基盤となるアーキテクチャとなっている。
しかし、計算コストが高いため、リソース制約のあるデバイスへのデプロイは非常に困難である。
本稿では,効率的な変圧器の計算ボトルネックモジュール,すなわち正規化層とアテンションモジュールについて検討する。
LayerNormはトランスフォーマーアーキテクチャで一般的に使用されるが、推論中の統計計算のために計算に適さない。
しかし、トランスフォーマーでLayerNormをより効率的なBatchNormに置き換えると、しばしばパフォーマンスが低下し、トレーニングが崩壊する。
そこで本研究では,LayerNorm を再パラメータ化した BatchNorm に段階的に置き換える PRepBN という新しい手法を提案する。
さらに,単純化された線形アテンション(SLA)モジュールを提案する。
画像分類および物体検出に関する大規模な実験により,提案手法の有効性が示された。
例えば、私たちのSLAB-Swinは、ImageNet-1K上で16.2$msのレイテンシで8,3.6\%のTop-1精度を得ることができ、これはFlatten-Swinよりも2.4$ms安く、精度は0.1$%の精度である。
また、言語モデリングタスクの手法を評価し、同等のパフォーマンスと低レイテンシを得る。コードはhttps://github.com/xinghaochen/SLABとhttps://github.com/mindspore-lab/models/tree/master/research/huawei-noah/SLABで公開されています。
関連論文リスト
- VeLoRA: Memory Efficient Training using Rank-1 Sub-Token Projections [35.133698935322634]
大規模言語モデル(LLM)は、最近、多くの言語処理タスクに対処するための強力なツールとして登場した。
勾配勾配勾配を用いた効率的なモデル収束に必要な重要な成分を同定し,特徴付ける。
この結果から, 微調整と事前学習の両方のための, 安価かつメモリ効率のよいアルゴリズムが得られた。
論文 参考訳(メタデータ) (2024-05-28T09:23:14Z) - The Need for Speed: Pruning Transformers with One Recipe [18.26707877972931]
OPTINは、事前トレーニングされたトランスフォーマーアーキテクチャの効率を向上させるためのツールである。
自然言語、画像分類、トランスファーラーニング、セマンティックセグメンテーションタスクに関する最先端の結果を生成する。
NLPベースラインから$leq 2$%の精度低下と、競合するFLOP削減における画像分類における最先端手法から$0.5$%の改善を示す。
論文 参考訳(メタデータ) (2024-03-26T17:55:58Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Unified Normalization for Accelerating and Stabilizing Transformers [35.07454490355906]
層正規化(LN)は各トークン内のアクティベーションを正規化し、ロバスト性を高める。
LNは推論におけるオンザフライ統計計算と除算および平方根演算を必要とする。
我々は、他の線形演算と融合して推論を高速化するUnified Normalization (UN)を提案する。
論文 参考訳(メタデータ) (2022-08-02T08:41:31Z) - Monarch: Expressive Structured Matrices for Efficient and Accurate
Training [64.6871423399431]
大規模なニューラルネットワークは多くのドメインで優れているが、トレーニングや微調整は高価である。
計算やメモリ要件を減らすための一般的なアプローチは、重み付け行列を構造化行列に置き換えることである。
ハードウェア効率のよい行列(Monarch)のクラスを提案する。
論文 参考訳(メタデータ) (2022-04-01T17:37:29Z) - A Fast Post-Training Pruning Framework for Transformers [74.59556951906468]
プルーニングは、大きなTransformerモデルの巨大な推論コストを削減する効果的な方法である。
モデルプルーニングの以前の作業では、モデルの再トレーニングが必要だった。
本稿では,再学習を必要としないトランスフォーマーのための高速な訓練後プルーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-29T07:41:11Z) - Robust Training of Neural Networks using Scale Invariant Architectures [70.67803417918854]
SGDとは対照的に、Adamのような適応勾配法は、現代のディープネットワークの堅牢なトレーニングを可能にする。
この一般的なアプローチは、パラメータと損失の再スケーリングに頑健であることを示す。
我々は、単にバニラSGDで訓練された場合、Adamのような適応的な手法で訓練されたBERTに匹敵する性能を達成する、SIBERTと呼ばれるスケール不変バージョンのBERTを設計する。
論文 参考訳(メタデータ) (2022-02-02T11:58:56Z) - FQ-ViT: Fully Quantized Vision Transformer without Retraining [13.82845665713633]
本稿では,量子変換器の性能劣化と推論の複雑さを低減するための系統的手法を提案する。
完全に量子化された視覚変換器上で、我々は初めて精度の劣化(1%)を達成した。
論文 参考訳(メタデータ) (2021-11-27T06:20:53Z) - Understanding the Difficulty of Training Transformers [120.99980924577787]
バランスの取れない勾配がトレーニングの不安定性の根本原因ではないことを示す。
我々は,早期段階のトレーニングを安定させ,後期段階においてその潜在能力を最大限に活用するためのアドミンを提案する。
論文 参考訳(メタデータ) (2020-04-17T13:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。