Fugu-MT 論文翻訳(概要): Unified Normalization for Accelerating and Stabilizing Transformers

論文の概要: Unified Normalization for Accelerating and Stabilizing Transformers

arxiv url: http://arxiv.org/abs/2208.01313v1
Date: Tue, 2 Aug 2022 08:41:31 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-03 13:38:50.716022
Title: Unified Normalization for Accelerating and Stabilizing Transformers
Title（参考訳）: 変圧器の加速・安定化のための統一正規化
Authors: Qiming Yang, Kai Zhang, Chaoxiang Lan, Zhi Yang, Zheyang Li, Wenming Tan, Jun Xiao, Shiliang Pu
Abstract要約: 層正規化(LN)は各トークン内のアクティベーションを正規化し、ロバスト性を高める。 LNは推論におけるオンザフライ統計計算と除算および平方根演算を必要とする。我々は、他の線形演算と融合して推論を高速化するUnified Normalization (UN)を提案する。
参考スコア（独自算出の注目度）: 35.07454490355906
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Solid results from Transformers have made them prevailing architectures in various natural language and vision tasks. As a default component in Transformers, Layer Normalization (LN) normalizes activations within each token to boost the robustness. However, LN requires on-the-fly statistics calculation in inference as well as division and square root operations, leading to inefficiency on hardware. What is more, replacing LN with other hardware-efficient normalization schemes (e.g., Batch Normalization) results in inferior performance, even collapse in training. We find that this dilemma is caused by abnormal behaviors of activation statistics, including large fluctuations over iterations and extreme outliers across layers. To tackle these issues, we propose Unified Normalization (UN), which can speed up the inference by being fused with other linear operations and achieve comparable performance on par with LN. UN strives to boost performance by calibrating the activation and gradient statistics with a tailored fluctuation smoothing strategy. Meanwhile, an adaptive outlier filtration strategy is applied to avoid collapse in training whose effectiveness is theoretically proved and experimentally verified in this paper. We demonstrate that UN can be an efficient drop-in alternative to LN by conducting extensive experiments on language and vision tasks. Besides, we evaluate the efficiency of our method on GPU. Transformers equipped with UN enjoy about 31% inference speedup and nearly 18% memory reduction. Code will be released at https://github.com/hikvision-research/Unified-Normalization.
Abstract（参考訳）: Transformersの固い結果により、さまざまな自然言語や視覚タスクのアーキテクチャが普及した。 Transformersのデフォルトコンポーネントとして、レイヤ正規化(LN)は各トークン内のアクティベーションを正規化し、ロバスト性を高める。しかし、LNは推論のオンザフライ統計計算と除算と平方根演算を必要とし、ハードウェアに非効率をもたらす。さらに、LNを他のハードウェア効率のよい正規化スキーム(例えば、バッチ正規化)に置き換えると、性能は低下し、訓練時にも崩壊する。このジレンマは、繰り返しによる大きな変動や層間の極端な外乱を含む、アクティベーション統計の異常な挙動によって引き起こされる。これらの問題に対処するために、他の線形演算と融合して推論を高速化し、LNと同等の性能を実現するUnified Normalization (UN)を提案する。国連は、調整された変動平滑化戦略でアクティベーションと勾配統計を調整し、パフォーマンスを向上させる努力をしている。一方, 本論文では, 有効性を理論的に証明し, 実験的に検証したトレーニングの崩壊を避けるために, 適応型外周濾過法を適用した。言語および視覚タスクの広範な実験を行うことにより、UNはLNに代わる効率的なドロップインを実現できることを示す。また,GPU上での手法の効率を評価する。 UNを搭載したトランスフォーマーは約31%の推論スピードアップと18%のメモリ削減を享受している。コードはhttps://github.com/hikvision-research/Unified-Normalizationでリリースされる。

関連論文リスト

Parameter-Efficient Transformer Embeddings [0.0]
本稿では,トークンの埋め込みベクトルをトークンIDから直接決定的に生成する手法を提案する。自然言語推論タスクで標準トランスフォーマーとアーキテクチャをトレーニングします。提案手法は, パラメータをはるかに少なくし, 高速かつ効果的に動作し, ドロップアウトを必要とせずに性能を向上することを示した。
論文参考訳（メタデータ） (2025-05-04T21:47:18Z)
RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。 RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文参考訳（メタデータ） (2025-02-13T06:44:33Z)
Fast Graph Sharpness-Aware Minimization for Enhancing and Accelerating Few-Shot Node Classification [53.727688136434345]
グラフニューラルネットワーク(GNN)はノード分類において優れた性能を示している。高速グラフシャープネス認識最小化(FGSAM)を提案する。提案アルゴリズムは,FSNCタスクにおいて,計算コストの低い標準SAMよりも優れる。
論文参考訳（メタデータ） (2024-10-22T09:33:29Z)
Does learning the right latent variables necessarily improve in-context learning? [13.828665019247444]
Transformersのような大規模な自己回帰モデルは、新しい重みを学習することなく、コンテキスト内学習(ICL)によってタスクを解決できる。本稿では,タスクラテントを明示的に推論する効果について検討する。タスク関連潜伏変数への偏りは、分配性能を向上させるには至らない。
論文参考訳（メタデータ） (2024-05-29T15:06:10Z)
On Mesa-Optimization in Autoregressively Trained Transformers: Emergence and Capability [34.43255978863601]
いくつかの説では、トランスフォーマーはオートレアトレーニング中にmesa-optimizerを学習する。データモーメントに関する強い仮定は、学習されたメザ最適化器が実行可能な十分な必要条件であることを示す。
論文参考訳（メタデータ） (2024-05-27T05:41:06Z)
Optimizing Non-Autoregressive Transformers with Contrastive Learning [74.46714706658517]
非自己回帰変換器(NAT)は、逐次順序ではなく全ての単語を同時に予測することにより、自動回帰変換器(AT)の推論遅延を低減する。本稿では,データ分布ではなく,モデル分布からのサンプリングによるモダリティ学習の容易化を提案する。
論文参考訳（メタデータ） (2023-05-23T04:20:13Z)
FusionFormer: Fusing Operations in Transformer for Efficient Streaming Speech Recognition [15.408221924741298]
自然言語処理(NLP)タスクを継承したアーキテクチャでは、デフォルトの正規化技術としてレイヤ正規化(LN)を採用している。 LNは、FLOPの0.1%にしか寄与しないにもかかわらず、推測時間の10%を取るかもしれない。安定トレーニング結果が観測された各線形または畳み込み層にBN層を付加することを提案する。
論文参考訳（メタデータ） (2022-10-31T06:01:02Z)
Rethinking Normalization Methods in Federated Learning [92.25845185724424]
フェデレートラーニング(FL)は、プライベートデータを明示的に共有しないことでプライバシーリスクを低減できる人気のある分散ラーニングフレームワークである。我々は、外部共変量シフトが、世界モデルに対する一部のデバイスからの貢献の消滅につながることを示した。
論文参考訳（メタデータ） (2022-10-07T01:32:24Z)
Understanding the Difficulty of Training Transformers [120.99980924577787]
バランスの取れない勾配がトレーニングの不安定性の根本原因ではないことを示す。我々は,早期段階のトレーニングを安定させ,後期段階においてその潜在能力を最大限に活用するためのアドミンを提案する。
論文参考訳（メタデータ） (2020-04-17T13:59:07Z)
PowerNorm: Rethinking Batch Normalization in Transformers [96.14956636022957]
自然言語処理(NLP)におけるニューラルネットワーク(NN)モデルの正規化法は層正規化(LN)である LN は BN (naive/vanilla) の使用が NLP タスクの大幅な性能低下をもたらすという経験的観察により好まれる。本稿では,この問題を解決する新しい正規化手法である電力正規化(PN)を提案する。
論文参考訳（メタデータ） (2020-03-17T17:50:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。