論文の概要: Unified Normalization for Accelerating and Stabilizing Transformers
- arxiv url: http://arxiv.org/abs/2208.01313v1
- Date: Tue, 2 Aug 2022 08:41:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-03 13:38:50.716022
- Title: Unified Normalization for Accelerating and Stabilizing Transformers
- Title(参考訳): 変圧器の加速・安定化のための統一正規化
- Authors: Qiming Yang, Kai Zhang, Chaoxiang Lan, Zhi Yang, Zheyang Li, Wenming
Tan, Jun Xiao, Shiliang Pu
- Abstract要約: 層正規化(LN)は各トークン内のアクティベーションを正規化し、ロバスト性を高める。
LNは推論におけるオンザフライ統計計算と除算および平方根演算を必要とする。
我々は、他の線形演算と融合して推論を高速化するUnified Normalization (UN)を提案する。
- 参考スコア(独自算出の注目度): 35.07454490355906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Solid results from Transformers have made them prevailing architectures in
various natural language and vision tasks. As a default component in
Transformers, Layer Normalization (LN) normalizes activations within each token
to boost the robustness. However, LN requires on-the-fly statistics calculation
in inference as well as division and square root operations, leading to
inefficiency on hardware. What is more, replacing LN with other
hardware-efficient normalization schemes (e.g., Batch Normalization) results in
inferior performance, even collapse in training. We find that this dilemma is
caused by abnormal behaviors of activation statistics, including large
fluctuations over iterations and extreme outliers across layers. To tackle
these issues, we propose Unified Normalization (UN), which can speed up the
inference by being fused with other linear operations and achieve comparable
performance on par with LN. UN strives to boost performance by calibrating the
activation and gradient statistics with a tailored fluctuation smoothing
strategy. Meanwhile, an adaptive outlier filtration strategy is applied to
avoid collapse in training whose effectiveness is theoretically proved and
experimentally verified in this paper. We demonstrate that UN can be an
efficient drop-in alternative to LN by conducting extensive experiments on
language and vision tasks. Besides, we evaluate the efficiency of our method on
GPU. Transformers equipped with UN enjoy about 31% inference speedup and nearly
18% memory reduction. Code will be released at
https://github.com/hikvision-research/Unified-Normalization.
- Abstract(参考訳): Transformersの固い結果により、さまざまな自然言語や視覚タスクのアーキテクチャが普及した。
Transformersのデフォルトコンポーネントとして、レイヤ正規化(LN)は各トークン内のアクティベーションを正規化し、ロバスト性を高める。
しかし、LNは推論のオンザフライ統計計算と除算と平方根演算を必要とし、ハードウェアに非効率をもたらす。
さらに、LNを他のハードウェア効率のよい正規化スキーム(例えば、バッチ正規化)に置き換えると、性能は低下し、訓練時にも崩壊する。
このジレンマは、繰り返しによる大きな変動や層間の極端な外乱を含む、アクティベーション統計の異常な挙動によって引き起こされる。
これらの問題に対処するために、他の線形演算と融合して推論を高速化し、LNと同等の性能を実現するUnified Normalization (UN)を提案する。
国連は、調整された変動平滑化戦略でアクティベーションと勾配統計を調整し、パフォーマンスを向上させる努力をしている。
一方, 本論文では, 有効性を理論的に証明し, 実験的に検証したトレーニングの崩壊を避けるために, 適応型外周濾過法を適用した。
言語および視覚タスクの広範な実験を行うことにより、UNはLNに代わる効率的なドロップインを実現できることを示す。
また,GPU上での手法の効率を評価する。
UNを搭載したトランスフォーマーは約31%の推論スピードアップと18%のメモリ削減を享受している。
コードはhttps://github.com/hikvision-research/Unified-Normalizationでリリースされる。
関連論文リスト
- Fast Graph Sharpness-Aware Minimization for Enhancing and Accelerating Few-Shot Node Classification [53.727688136434345]
グラフニューラルネットワーク(GNN)はノード分類において優れた性能を示している。
高速グラフシャープネス認識最小化(FGSAM)を提案する。
提案アルゴリズムは,FSNCタスクにおいて,計算コストの低い標準SAMよりも優れる。
論文 参考訳(メタデータ) (2024-10-22T09:33:29Z) - Does learning the right latent variables necessarily improve in-context learning? [13.828665019247444]
Transformersのような大規模な自己回帰モデルは、新しい重みを学習することなく、コンテキスト内学習(ICL)によってタスクを解決できる。
本稿では,タスクラテントを明示的に推論する効果について検討する。
タスク関連潜伏変数への偏りは、分配性能を向上させるには至らない。
論文 参考訳(メタデータ) (2024-05-29T15:06:10Z) - On Mesa-Optimization in Autoregressively Trained Transformers: Emergence and Capability [34.43255978863601]
いくつかの説では、トランスフォーマーはオートレアトレーニング中にmesa-optimizerを学習する。
データモーメントに関する強い仮定は、学習されたメザ最適化器が実行可能な十分な必要条件であることを示す。
論文 参考訳(メタデータ) (2024-05-27T05:41:06Z) - Optimizing Non-Autoregressive Transformers with Contrastive Learning [74.46714706658517]
非自己回帰変換器(NAT)は、逐次順序ではなく全ての単語を同時に予測することにより、自動回帰変換器(AT)の推論遅延を低減する。
本稿では,データ分布ではなく,モデル分布からのサンプリングによるモダリティ学習の容易化を提案する。
論文 参考訳(メタデータ) (2023-05-23T04:20:13Z) - FusionFormer: Fusing Operations in Transformer for Efficient Streaming
Speech Recognition [15.408221924741298]
自然言語処理(NLP)タスクを継承したアーキテクチャでは、デフォルトの正規化技術としてレイヤ正規化(LN)を採用している。
LNは、FLOPの0.1%にしか寄与しないにもかかわらず、推測時間の10%を取るかもしれない。
安定トレーニング結果が観測された各線形または畳み込み層にBN層を付加することを提案する。
論文 参考訳(メタデータ) (2022-10-31T06:01:02Z) - Rethinking Normalization Methods in Federated Learning [92.25845185724424]
フェデレートラーニング(FL)は、プライベートデータを明示的に共有しないことでプライバシーリスクを低減できる人気のある分散ラーニングフレームワークである。
我々は、外部共変量シフトが、世界モデルに対する一部のデバイスからの貢献の消滅につながることを示した。
論文 参考訳(メタデータ) (2022-10-07T01:32:24Z) - Understanding the Difficulty of Training Transformers [120.99980924577787]
バランスの取れない勾配がトレーニングの不安定性の根本原因ではないことを示す。
我々は,早期段階のトレーニングを安定させ,後期段階においてその潜在能力を最大限に活用するためのアドミンを提案する。
論文 参考訳(メタデータ) (2020-04-17T13:59:07Z) - PowerNorm: Rethinking Batch Normalization in Transformers [96.14956636022957]
自然言語処理(NLP)におけるニューラルネットワーク(NN)モデルの正規化法は層正規化(LN)である
LN は BN (naive/vanilla) の使用が NLP タスクの大幅な性能低下をもたらすという経験的観察により好まれる。
本稿では,この問題を解決する新しい正規化手法である電力正規化(PN)を提案する。
論文 参考訳(メタデータ) (2020-03-17T17:50:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。