論文の概要: Exploring Transformers for Large-Scale Speech Recognition
- arxiv url: http://arxiv.org/abs/2005.09684v2
- Date: Tue, 11 Aug 2020 18:51:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 14:24:24.189603
- Title: Exploring Transformers for Large-Scale Speech Recognition
- Title(参考訳): 大規模音声認識のためのトランスフォーマーの検討
- Authors: Liang Lu, Changliang Liu, Jinyu Li and Yifan Gong
- Abstract要約: 変換器は,オフライン方式のBLSTMベースラインと比較して,約6%の単語誤り率(WER)削減を実現可能であることを示す。
ストリーミング方式では、Transformer-XLは800ミリ秒のレイテンシ制約を持つLC-BLSTMに匹敵する。
- 参考スコア(独自算出の注目度): 34.645597506707055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While recurrent neural networks still largely define state-of-the-art speech
recognition systems, the Transformer network has been proven to be a
competitive alternative, especially in the offline condition. Most studies with
Transformers have been constrained in a relatively small scale setting, and
some forms of data argumentation approaches are usually applied to combat the
data sparsity issue. In this paper, we aim at understanding the behaviors of
Transformers in the large-scale speech recognition setting, where we have used
around 65,000 hours of training data. We investigated various aspects on
scaling up Transformers, including model initialization, warmup training as
well as different Layer Normalization strategies. In the streaming condition,
we compared the widely used attention mask based future context lookahead
approach to the Transformer-XL network. From our experiments, we show that
Transformers can achieve around 6% relative word error rate (WER) reduction
compared to the BLSTM baseline in the offline fashion, while in the streaming
fashion, Transformer-XL is comparable to LC-BLSTM with 800 millisecond latency
constraint.
- Abstract(参考訳): リカレントニューラルネットワークは依然として最先端の音声認識システムを定義しているが、Transformerネットワークは特にオフライン環境では競争力のある代替手段であることが証明されている。
トランスフォーマーを用いたほとんどの研究は比較的小規模な環境での制約を受けており、データ疎結合問題に対処するためには、いくつかの形式のデータ議論アプローチが適用されている。
本稿では,約65,000時間の訓練データを用いた大規模音声認識環境において,トランスフォーマーの動作を理解することを目的とする。
モデル初期化,ウォームアップトレーニング,レイヤ正規化戦略など,トランスフォーマーのスケールアップに関するさまざまな側面を検討した。
ストリーミング環境では,注目マスクを用いた将来のコンテキストルックアヘッドアプローチとTransformer-XLネットワークを比較した。
実験の結果,Transformer-XLは800ミリ秒の遅延制約でLC-BLSTMに匹敵するが,オフライン方式ではBLSTMベースラインに比べて約6%の単語誤り率(WER)の低減を実現可能であることがわかった。
関連論文リスト
- Error Correction Code Transformer [92.10654749898927]
本稿では,トランスフォーマーアーキテクチャを任意のブロック長で線形符号のソフトデコードに拡張することを提案する。
我々は,各チャネルの出力次元を高次元に符号化し,個別に処理すべきビット情報のより良い表現を行う。
提案手法は、トランスフォーマーの極端なパワーと柔軟性を示し、既存の最先端のニューラルデコーダを、その時間的複雑さのごく一部で大きなマージンで上回る。
論文 参考訳(メタデータ) (2022-03-27T15:25:58Z) - Sparse is Enough in Scaling Transformers [12.561317511514469]
大規模なTransformerモデルは、多くのタスクにおいて印象的な結果をもたらすが、トレーニングや微調整は高価であり、デコードが遅いため、使用と研究が手に入らない。
本稿では,スパース層を用いた次世代トランスフォーマーモデルのファミリーであるScaling Transformerを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:53:46Z) - Scalable Transformers for Neural Machine Translation [86.4530299266897]
トランスフォーマーは、そのキャパシティとシーケンス生成の並列トレーニングのため、ニューラルネットワーク翻訳(NMT)で広く採用されている。
本稿では,異なるスケールのサブトランスフォーマーを自然に含み,パラメータを共有できる,スケーラブルなトランスフォーマーを提案する。
スケーラブルトランスフォーマーのトレーニングの難しさに対処する3段階のトレーニングスキームが提案されている。
論文 参考訳(メタデータ) (2021-06-04T04:04:10Z) - Spatiotemporal Transformer for Video-based Person Re-identification [102.58619642363958]
我々は、強い学習能力にもかかわらず、バニラトランスフォーマーは過剰フィットのリスクの増加に苦しむことを示しています。
そこで本研究では,合成ビデオデータからモデルを事前学習し,下流領域に伝達する新しいパイプラインを提案する。
提案アルゴリズムは,3つの人気ビデオベース人物識別ベンチマークにおいて,精度向上を実現する。
論文 参考訳(メタデータ) (2021-03-30T16:19:27Z) - Wake Word Detection with Streaming Transformers [72.66551640048405]
提案したトランスフォーマーモデルでは,同じ偽アラームレートで,平均25%の誤り拒否率でベースライン畳み込みネットワークを性能的に上回ることを示す。
Mobvoiのウェイクワードデータセットに関する実験により,提案したTransformerモデルはベースライン畳み込みネットワークを25%上回る性能を示した。
論文 参考訳(メタデータ) (2021-02-08T19:14:32Z) - Parameter Efficient Multimodal Transformers for Video Representation
Learning [108.8517364784009]
本研究は,映像表現学習におけるマルチモーダルトランスフォーマーのパラメータの削減に焦点をあてる。
このアプローチではパラメータを80$%まで削減し、モデルのエンドツーエンドをスクラッチからトレーニングできるようにしています。
本研究では,Kinetics-700から30秒のクリップをプレトレーニングし,それを音声視覚分類タスクに転送する。
論文 参考訳(メタデータ) (2020-12-08T00:16:13Z) - Developing Real-time Streaming Transformer Transducer for Speech
Recognition on Large-scale Dataset [37.619200507404145]
Transformer Transducer (T-T) モデルは、大規模なデータセット上で、低レイテンシで高速な高速なフィストパスデコーディングのためのモデルである。
我々はTransformer-XLとチャンクワイドストリーミング処理のアイデアを組み合わせて、ストリーム可能なTransformer Transducerモデルを設計する。
ストリーミングシナリオにおいて、T-Tはハイブリッドモデル、RNNトランスデューサ(RNN-T)、ストリーム可能なトランスフォーマーアテンションベースのエンコーダデコーダモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-10-22T03:01:21Z) - Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。
十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-20T17:25:43Z) - Transformer Networks for Trajectory Forecasting [11.802437934289062]
本稿では,トランスフォーマーネットワークを用いた軌道予測手法を提案する。
これはLSTMの逐次ステップバイステップ処理からトランスフォーマーの唯一のアテンションベースのメモリ機構への根本的な切り替えである。
論文 参考訳(メタデータ) (2020-03-18T09:17:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。