論文の概要: Squeezeformer: An Efficient Transformer for Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2206.00888v1
- Date: Thu, 2 Jun 2022 06:06:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-03 15:00:58.097407
- Title: Squeezeformer: An Efficient Transformer for Automatic Speech Recognition
- Title(参考訳): squeezeformer:自動音声認識のための効率的なトランスフォーマー
- Authors: Sehoon Kim, Amir Gholami, Albert Shaw, Nicholas Lee, Karttikeya
Mangalam, Jitendra Malik, Michael W. Mahoney, Kurt Keutzer
- Abstract要約: Conformerは、そのハイブリッドアテンション・コンボリューションアーキテクチャに基づいて、様々な下流音声タスクの事実上のバックボーンモデルである。
Squeezeformerモデルを提案する。これは、同じトレーニングスキームの下で、最先端のASRモデルよりも一貫して優れている。
- 参考スコア(独自算出の注目度): 99.349598600887
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recently proposed Conformer model has become the de facto backbone model
for various downstream speech tasks based on its hybrid attention-convolution
architecture that captures both local and global features. However, through a
series of systematic studies, we find that the Conformer architecture's design
choices are not optimal. After reexamining the design choices for both the
macro and micro-architecture of Conformer, we propose the Squeezeformer model,
which consistently outperforms the state-of-the-art ASR models under the same
training schemes. In particular, for the macro-architecture, Squeezeformer
incorporates (i) the Temporal U-Net structure, which reduces the cost of the
multi-head attention modules on long sequences, and (ii) a simpler block
structure of feed-forward module, followed up by multi-head attention or
convolution modules, instead of the Macaron structure proposed in Conformer.
Furthermore, for the micro-architecture, Squeezeformer (i) simplifies the
activations in the convolutional block, (ii) removes redundant Layer
Normalization operations, and (iii) incorporates an efficient depth-wise
downsampling layer to efficiently sub-sample the input signal. Squeezeformer
achieves state-of-the-art results of 7.5%, 6.5%, and 6.0% word-error-rate on
Librispeech test-other without external language models. This is 3.1%, 1.4%,
and 0.6% better than Conformer-CTC with the same number of FLOPs. Our code is
open-sourced and available online.
- Abstract(参考訳): 最近提案されたConformerモデルは、局所的特徴とグローバル的特徴の両方をキャプチャするハイブリッドアテンション・コンボリューションアーキテクチャに基づいて、様々な下流音声タスクの事実上のバックボーンモデルとなっている。
しかし、一連の系統的な研究により、コンフォーマーアーキテクチャの設計選択が最適ではないことが判明した。
コンフォーマーのマクロおよびマイクロアーキテクチャの両方の設計選択を再検討した後、同じトレーニングスキーム下での最先端のASRモデルよりも一貫して優れたSqueezeformerモデルを提案する。
特にマクロ構造に対して、Squeezeformerは組み込む。
(i)時間的u-net構造は、長いシーケンスにおけるマルチヘッドアテンションモジュールのコストを削減し、また、
(ii) フィードフォワードモジュールの単純なブロック構造であり、コンフォーマーで提案されたマカロン構造の代わりに、マルチヘッドアテンションや畳み込みモジュールが続く。
さらに、マイクロアーキテクチャ、Squeezeformerについて
(i)畳み込みブロックの活性化を単純化する。
(ii)冗長層正規化操作を除去し、
(iii)入力信号を効率よくサブサンプリングするために、効率的な奥行きサンプリング層を組み込む。
Squeezeformerは、外部言語モデルなしでLibrispeechテストで7.5%、6.5%、および6.0%の単語エラー率の最先端結果を達成する。
これは、同じFLOP数のコンフォーマーCTCよりも3.1%、1.4%、0.6%良い。
私たちのコードはオープンソースで、オンラインで利用可能です。
関連論文リスト
- Multi-Convformer: Extending Conformer with Multiple Convolution Kernels [64.4442240213399]
我々は,マルチコンバータを導入し,複数のコンバータカーネルをゲーティングと合わせてコンバータの畳み込みモジュール内で利用する。
我々のモデルは、よりパラメータ効率の良いCgMLPやE-Branchformerといった既存のConformerと性能的に競合する。
我々は4つの異なるデータセットと3つの異なるモデリングパラダイムにまたがって、我々のアプローチをConformerとその変種と経験的に比較し、最大8%の相対的な単語誤り率(WER)の改善を示す。
論文 参考訳(メタデータ) (2024-07-04T08:08:12Z) - Sparse Modular Activation for Efficient Sequence Modeling [94.11125833685583]
線形状態空間モデルと自己アテンション機構を組み合わせた最近のモデルでは、様々なシーケンスモデリングタスクにおいて顕著な結果が示されている。
現在のアプローチでは、アテンションモジュールを静的かつ均一に入力シーケンスのすべての要素に適用し、最適以下の品質効率のトレードオフをもたらす。
SMA(Sparse Modular Activation)は,ニューラルネットワークが配列要素のサブモジュールを異なる方法でスパースに活性化する機構である。
論文 参考訳(メタデータ) (2023-06-19T23:10:02Z) - Systematic Architectural Design of Scale Transformed Attention Condenser
DNNs via Multi-Scale Class Representational Response Similarity Analysis [93.0013343535411]
マルチスケールクラス表現応答類似性分析(ClassRepSim)と呼ばれる新しいタイプの分析法を提案する。
ResNetスタイルのアーキテクチャにSTACモジュールを追加すると、最大1.6%の精度が向上することを示す。
ClassRepSim分析の結果は、STACモジュールの効果的なパラメータ化を選択するために利用することができ、競争性能が向上する。
論文 参考訳(メタデータ) (2023-06-16T18:29:26Z) - 4D ASR: Joint modeling of CTC, Attention, Transducer, and Mask-Predict
decoders [29.799797974513552]
本稿では,CTC,アテンション,RNN-T,マスク予測の4デコーダ共同モデリング(4D)を提案する。
4つのデコーダは、アプリケーションシナリオに応じて簡単に切り替えられるように、共同でトレーニングされている。
実験の結果,提案したモデルが一貫してWERを減少させることがわかった。
論文 参考訳(メタデータ) (2022-12-21T07:15:59Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Local Similarity Pattern and Cost Self-Reassembling for Deep Stereo
Matching Networks [3.7384509727711923]
LSP(Local similarity Pattern)という,深層ステレオマッチングネットワークのためのペア機能を導入する。
隣接する関係を明確に明らかにすることで、LSPはより識別的な特徴記述を支援するために活用できる豊富な構造情報を含んでいる。
第2に,動的自己組み換え改良戦略を設計し,コスト分布と分散マップにそれぞれ適用する。
論文 参考訳(メタデータ) (2021-12-02T06:52:54Z) - Efficient conformer: Progressive downsampling and grouped attention for
automatic speech recognition [2.6346614942667235]
計算予算が限られているコンフォーマーアーキテクチャの複雑さを軽減する方法について検討する。
コンフォーマーエンコーダにプログレッシブダウンサンプリングを導入し,グループアテンションと呼ばれる新しいアテンション機構を提案する。
同じコンピューティング予算内では、提案されたアーキテクチャは、より高速なトレーニングとデコードでより良いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-08-31T07:48:06Z) - X-volution: On the unification of convolution and self-attention [52.80459687846842]
本稿では,畳み込み操作と自己注意操作の両方からなるマルチブランチ基本モジュールを提案する。
提案したX-進化は、非常に競争力のある視覚的理解の改善を実現する。
論文 参考訳(メタデータ) (2021-06-04T04:32:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。