論文の概要: FusionFormer: Fusing Operations in Transformer for Efficient Streaming
Speech Recognition
- arxiv url: http://arxiv.org/abs/2210.17079v1
- Date: Mon, 31 Oct 2022 06:01:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 18:47:47.012470
- Title: FusionFormer: Fusing Operations in Transformer for Efficient Streaming
Speech Recognition
- Title(参考訳): FusionFormer: 効率的なストリーム音声認識のための変換器の融合操作
- Authors: Xingchen Song, Di Wu, Binbin Zhang, Zhiyong Wu, Wenpeng Li, Dongfang
Li, Pengshen Zhang, Zhendong Peng, Fuping Pan, Changbao Zhu, Zhongqin Wu
- Abstract要約: 自然言語処理(NLP)タスクを継承したアーキテクチャでは、デフォルトの正規化技術としてレイヤ正規化(LN)を採用している。
LNは、FLOPの0.1%にしか寄与しないにもかかわらず、推測時間の10%を取るかもしれない。
安定トレーニング結果が観測された各線形または畳み込み層にBN層を付加することを提案する。
- 参考スコア(独自算出の注目度): 15.408221924741298
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recently proposed Conformer architecture which combines convolution with
attention to capture both local and global dependencies has become the
\textit{de facto} backbone model for Automatic Speech Recognition~(ASR).
Inherited from the Natural Language Processing (NLP) tasks, the architecture
takes Layer Normalization~(LN) as a default normalization technique. However,
through a series of systematic studies, we find that LN might take 10\% of the
inference time despite that it only contributes to 0.1\% of the FLOPs. This
motivates us to replace LN with other normalization techniques, e.g., Batch
Normalization~(BN), to speed up inference with the help of operator fusion
methods and the avoidance of calculating the mean and variance statistics
during inference. After examining several plain attempts which directly remove
all LN layers or replace them with BN in the same place, we find that the
divergence issue is mainly caused by the unstable layer output. We therefore
propose to append a BN layer to each linear or convolution layer where
stabilized training results are observed. We also propose to simplify the
activations in Conformer, such as Swish and GLU, by replacing them with ReLU.
All these exchanged modules can be fused into the weights of the adjacent
linear/convolution layers and hence have zero inference cost. Therefore, we
name it FusionFormer. Our experiments indicate that FusionFormer is as
effective as the LN-based Conformer and is about 10\% faster.
- Abstract(参考訳): 畳み込みと注意を組み合わせることでローカルとグローバルの両方の依存関係をキャプチャする、最近提案されたconformerアーキテクチャは、自動音声認識のための \textit{de facto} backboneモデル(asr)となった。
自然言語処理(NLP)タスクを継承し、デフォルトの正規化技術としてレイヤ正規化~(LN)を採用する。
しかし、一連の系統的な研究を通じて、ln はフロップの 0.1\% にしか寄与しないにもかかわらず、推論時間の 10\% を要していることが分かった。
これにより、LN を他の正規化手法、例えば Batch Normalization~(BN) に置き換えて、演算子融合法の助けを借りて推論を高速化し、推論中の平均および分散統計を計算できないようにする。
すべてのLN層を直接取り除いたり、同じ場所でBNで置き換えたりするいくつかの単純な試みを調べた結果、分散問題は主に不安定な層出力に起因することが判明した。
そこで我々は,安定トレーニング結果が観測された各線形あるいは畳み込み層にBN層を付加することを提案する。
また,ReLUに置き換えることで,SwishやGLUといったコンフォーマーのアクティベーションの簡素化も提案する。
これらの交換されたすべてのモジュールは隣接する線形/畳み込み層の重みに融合することができ、したがって推論コストはゼロである。
したがってFusionFormerと名付けます。
実験の結果, fusionformer は ln ベースのコンフォーメータと同じくらい有効であり,約 10\% 高速であることがわかった。
関連論文リスト
- Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - A Framework for Provably Stable and Consistent Training of Deep
Feedforward Networks [4.21061712600981]
本稿では、教師付き(分類と回帰)および教師なし(強化学習)シナリオにおいて、ディープニューラルネットワークを訓練するための新しいアルゴリズムを提案する。
このアルゴリズムは、標準降下勾配と勾配クリッピング法を組み合わせたものである。
理論的および実験を通して、我々のアルゴリズム更新はばらつきが低く、トレーニング損失はスムーズな方法で減少することを示す。
論文 参考訳(メタデータ) (2023-05-20T07:18:06Z) - Rethinking Normalization Methods in Federated Learning [92.25845185724424]
フェデレートラーニング(FL)は、プライベートデータを明示的に共有しないことでプライバシーリスクを低減できる人気のある分散ラーニングフレームワークである。
我々は、外部共変量シフトが、世界モデルに対する一部のデバイスからの貢献の消滅につながることを示した。
論文 参考訳(メタデータ) (2022-10-07T01:32:24Z) - Unified Normalization for Accelerating and Stabilizing Transformers [35.07454490355906]
層正規化(LN)は各トークン内のアクティベーションを正規化し、ロバスト性を高める。
LNは推論におけるオンザフライ統計計算と除算および平方根演算を必要とする。
我々は、他の線形演算と融合して推論を高速化するUnified Normalization (UN)を提案する。
論文 参考訳(メタデータ) (2022-08-02T08:41:31Z) - Distribution Mismatch Correction for Improved Robustness in Deep Neural
Networks [86.42889611784855]
正規化法は ノイズや入力の腐敗に関して 脆弱性を増大させる
本稿では,各層の活性化分布に適応する非教師なし非パラメトリック分布補正法を提案する。
実験により,提案手法は画像劣化の激しい影響を効果的に低減することを示した。
論文 参考訳(メタデータ) (2021-10-05T11:36:25Z) - Orthogonal Jacobian Regularization for Unsupervised Disentanglement in
Image Generation [64.92152574895111]
直交ジャコビアン正規化法(OroJaR)を提案する。
提案手法は, 絡み合った, 制御可能な画像生成に有効であり, 最先端の手法に対して好適に機能する。
論文 参考訳(メタデータ) (2021-08-17T15:01:46Z) - Delving into Variance Transmission and Normalization: Shift of Average
Gradient Makes the Network Collapse [9.848051975417116]
分散伝送の視点からバッチ正規化(BN)の効果を説明します。
平均勾配のシフトを解決するために,PWS(Parametric Weights Standardization)を提案する。
pwsは出力を正規化せずにネットワークを高速に収束させることができる。
論文 参考訳(メタデータ) (2021-03-22T05:40:46Z) - MimicNorm: Weight Mean and Last BN Layer Mimic the Dynamic of Batch
Normalization [60.36100335878855]
ネットワークトレーニングにおける収束と効率を改善するために,MimicNormという新しい正規化手法を提案する。
我々は、神経核(NTK)理論を利用して、我々の重み付けが活性化を弱め、BN層のようなカオス状態にネットワークを移行することを証明する。
MimicNormは、ResNetsやShuffleNetのような軽量ネットワークなど、さまざまなネットワーク構造に対して同様の精度を実現し、約20%のメモリ消費を削減している。
論文 参考訳(メタデータ) (2020-10-19T07:42:41Z) - PowerNorm: Rethinking Batch Normalization in Transformers [96.14956636022957]
自然言語処理(NLP)におけるニューラルネットワーク(NN)モデルの正規化法は層正規化(LN)である
LN は BN (naive/vanilla) の使用が NLP タスクの大幅な性能低下をもたらすという経験的観察により好まれる。
本稿では,この問題を解決する新しい正規化手法である電力正規化(PN)を提案する。
論文 参考訳(メタデータ) (2020-03-17T17:50:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。