論文の概要: Efficient conformer: Progressive downsampling and grouped attention for
automatic speech recognition
- arxiv url: http://arxiv.org/abs/2109.01163v2
- Date: Wed, 8 Sep 2021 11:47:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-12 10:57:28.395397
- Title: Efficient conformer: Progressive downsampling and grouped attention for
automatic speech recognition
- Title(参考訳): efficient conformer: 自動音声認識のためのプログレッシブダウンサンプリングとグループ化注意
- Authors: Maxime Burchi, Valentin Vielzeuf
- Abstract要約: 計算予算が限られているコンフォーマーアーキテクチャの複雑さを軽減する方法について検討する。
コンフォーマーエンコーダにプログレッシブダウンサンプリングを導入し,グループアテンションと呼ばれる新しいアテンション機構を提案する。
同じコンピューティング予算内では、提案されたアーキテクチャは、より高速なトレーニングとデコードでより良いパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 2.6346614942667235
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recently proposed Conformer architecture has shown state-of-the-art
performances in Automatic Speech Recognition by combining convolution with
attention to model both local and global dependencies. In this paper, we study
how to reduce the Conformer architecture complexity with a limited computing
budget, leading to a more efficient architecture design that we call Efficient
Conformer. We introduce progressive downsampling to the Conformer encoder and
propose a novel attention mechanism named grouped attention, allowing us to
reduce attention complexity from $O(n^{2}d)$ to $O(n^{2}d / g)$ for sequence
length $n$, hidden dimension $d$ and group size parameter $g$. We also
experiment the use of strided multi-head self-attention as a global
downsampling operation. Our experiments are performed on the LibriSpeech
dataset with CTC and RNN-Transducer losses. We show that within the same
computing budget, the proposed architecture achieves better performances with
faster training and decoding compared to the Conformer. Our 13M parameters CTC
model achieves competitive WERs of 3.6%/9.0% without using a language model and
2.7%/6.7% with an external n-gram language model on the test-clean/test-other
sets while being 29% faster than our CTC Conformer baseline at inference and
36% faster to train.
- Abstract(参考訳): 最近提案されたコンフォーマーアーキテクチャは、畳み込みと局所的およびグローバルな依存関係のモデル化を組み合わせることで、自動音声認識における最先端のパフォーマンスを示している。
本稿では,コンフォーメータアーキテクチャの複雑さを少ない計算予算で低減し,効率的なコンフォーメータと呼ぶ効率的なアーキテクチャ設計を実現する方法について検討する。
我々は、コンフォーメータエンコーダにプログレッシブなダウンサンプリングを導入し、grouped attentionと呼ばれる新しい注意機構を提案する。これにより、配列長$n$、隠れ次元$d$、グループサイズパラメータ$g$に対して、注意の複雑さを$o(n^{2}d)$から$o(n^{2}d / g)$に低減することができる。
また,グローバルなダウンサンプリング操作として,ストライド型マルチヘッド自己注意を用いた実験を行った。
CTCとRNN-Transducerの損失を伴うLibriSpeechデータセットを用いて実験を行った。
提案したアーキテクチャは,同じ計算予算内で,コンフォーマーに比べて高速なトレーニングと復号化を実現していることを示す。
13MパラメータCTCモデルは、言語モデルを用いることなく競合WERが3.6%/9.0%、テストクリーン/テスト-他のセットでn-gram言語モデルが2.7%、推論時にCTC Conformerベースラインが29%、トレーニングが36%である。
関連論文リスト
- Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - Uconv-Conformer: High Reduction of Input Sequence Length for End-to-End
Speech Recognition [3.3627327936627416]
この研究は、標準のコンフォーマーモデルに基づく新しいUconv-Conformerアーキテクチャを提案する。
我々は、U-Netアーキテクチャに似たアップサンプリングブロックを用いて、正しいCTC損失計算とネットワークトレーニングの安定化を図る。
Uconv-Conformerアーキテクチャは、トレーニングと推論の点で高速であるだけでなく、ベースラインのConformerよりもWERが優れている。
論文 参考訳(メタデータ) (2022-08-16T10:40:15Z) - Matching Pursuit Based Scheduling for Over-the-Air Federated Learning [67.59503935237676]
本稿では,フェデレートラーニング手法を用いて,オーバー・ザ・エアラーニングのための低複雑さデバイススケジューリングアルゴリズムのクラスを開発する。
最先端の提案方式と比較すると,提案方式は極めて低効率なシステムである。
提案手法の有効性は,CIFARデータセットを用いた実験により確認した。
論文 参考訳(メタデータ) (2022-06-14T08:14:14Z) - Squeezeformer: An Efficient Transformer for Automatic Speech Recognition [99.349598600887]
Conformerは、そのハイブリッドアテンション・コンボリューションアーキテクチャに基づいて、様々な下流音声タスクの事実上のバックボーンモデルである。
Squeezeformerモデルを提案する。これは、同じトレーニングスキームの下で、最先端のASRモデルよりも一貫して優れている。
論文 参考訳(メタデータ) (2022-06-02T06:06:29Z) - SRU++: Pioneering Fast Recurrence with Attention for Speech Recognition [49.42625022146008]
複数のASRベンチマークでコンフォーマーと比較することにより,SRU++をASRタスクに適用する利点を示す。
具体的には,SRU++ が長文音声入力において Conformer を追い越すことができる。
論文 参考訳(メタデータ) (2021-10-11T19:23:50Z) - Improved Mask-CTC for Non-Autoregressive End-to-End ASR [49.192579824582694]
マスク予測とコネクショナリズム時間分類(CTC)に基づく最近提案されたエンドツーエンドASRシステム
我々は、最近提案されたConformerアーキテクチャを用いて、ネットワークアーキテクチャを強化することを提案する。
次に、部分的ターゲットシーケンスの長さを予測する補助的目的を導入することによって、新しいトレーニングと復号化手法を提案する。
論文 参考訳(メタデータ) (2020-10-26T01:22:35Z) - Generating Efficient DNN-Ensembles with Evolutionary Computation [3.28217012194635]
私たちは、より速く、より小さく、より正確なディープラーニングモデルを作成するためのツールとして、アンサンブル学習を活用しています。
EARNを10の画像分類データセット上で実行し、CPUとGPUプラットフォームの両方で32の最先端DCNNを初期プールします。
スピードアップが7.60Times$、パラメータが10times$、精度が6.01%$まで向上したモデルを生成します。
論文 参考訳(メタデータ) (2020-09-18T09:14:56Z) - AANet: Adaptive Aggregation Network for Efficient Stereo Matching [33.39794232337985]
現在の最先端ステレオモデルは、ほとんどが高価な3D畳み込みに基づいている。
エッジフェットング問題を緩和するために,スパースポイントに基づくスケール内コストアグリゲーション手法を提案する。
また、従来のクロススケールなコスト集約アルゴリズムをニューラルネットワーク層に近似して、大きなテクスチャレス領域を処理する。
論文 参考訳(メタデータ) (2020-04-20T18:07:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。