論文の概要: ContextNet: Improving Convolutional Neural Networks for Automatic Speech
Recognition with Global Context
- arxiv url: http://arxiv.org/abs/2005.03191v3
- Date: Sat, 16 May 2020 00:49:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 22:59:13.752789
- Title: ContextNet: Improving Convolutional Neural Networks for Automatic Speech
Recognition with Global Context
- Title(参考訳): ContextNet:グローバルコンテキストによる音声認識のための畳み込みニューラルネットワークの改良
- Authors: Wei Han, Zhengdong Zhang, Yu Zhang, Jiahui Yu, Chung-Cheng Chiu, James
Qin, Anmol Gulati, Ruoming Pang, Yonghui Wu
- Abstract要約: ContextNet と呼ばれる新しい CNN-RNN-Transducer アーキテクチャを提案する。
ContextNetは、グローバルコンテキスト情報を畳み込みレイヤに組み込む、完全な畳み込みエンコーダを備えている。
クリーン/ノイズの多いLibriSpeechテストセット上では、ContextNetは、外部言語モデル(LM)なしで2.1%/4.6%、LMで1.9%/4.1%、および2.9%/7.0%のワードエラー率(WER)を達成した。
- 参考スコア(独自算出の注目度): 58.40112382877868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convolutional neural networks (CNN) have shown promising results for
end-to-end speech recognition, albeit still behind other state-of-the-art
methods in performance. In this paper, we study how to bridge this gap and go
beyond with a novel CNN-RNN-transducer architecture, which we call ContextNet.
ContextNet features a fully convolutional encoder that incorporates global
context information into convolution layers by adding squeeze-and-excitation
modules. In addition, we propose a simple scaling method that scales the widths
of ContextNet that achieves good trade-off between computation and accuracy. We
demonstrate that on the widely used LibriSpeech benchmark, ContextNet achieves
a word error rate (WER) of 2.1%/4.6% without external language model (LM),
1.9%/4.1% with LM and 2.9%/7.0% with only 10M parameters on the clean/noisy
LibriSpeech test sets. This compares to the previous best published system of
2.0%/4.6% with LM and 3.9%/11.3% with 20M parameters. The superiority of the
proposed ContextNet model is also verified on a much larger internal dataset.
- Abstract(参考訳): 畳み込みニューラルネットワーク(convolutional neural networks, cnn)は、エンド・ツー・エンドの音声認識に有望な結果を示している。
本稿では、このギャップを埋めて、ContextNetと呼ばれる新しいCNN-RNN-Transducerアーキテクチャで乗り越える方法について検討する。
ContextNetは、グローバルコンテキスト情報を畳み込みレイヤに組み込む、完全な畳み込みエンコーダを備えている。
さらに,コンテクストネットの幅をスケールし,計算と精度のトレードオフを良好に達成する簡易なスケーリング手法を提案する。
我々は、広く使われているLibriSpeechベンチマークにおいて、ContextNetは、外部言語モデル(LM)なしで2.1%/4.6%のワードエラー率(WER)、LMで1.9%/4.1%、クリーン/ノイズの多いLibriSpeechテストセットで10Mパラメータしか持たない2.9%/7.0%を達成することを示した。
これは、lmで2.0%/4.6%、パラメータ20mで3.9%/11.3%という以前のベストシステムと比較する。
提案するコンテキストネットモデルの優位性は、さらに大きな内部データセットでも検証される。
関連論文リスト
- Exploring SSL Discrete Speech Features for Zipformer-based Contextual ASR [74.38242498079627]
自己教師付き学習(SSL)に基づく離散音声表現は、非常にコンパクトで、ドメイン適応性が高い。
本稿では、Zipformer-Transducer ASRシステムにおいて、WavLMモデルから抽出したSSL離散音声特徴を追加の発話音響コンテキスト特徴として用いた。
論文 参考訳(メタデータ) (2024-09-13T13:01:09Z) - RedBit: An End-to-End Flexible Framework for Evaluating the Accuracy of
Quantized CNNs [9.807687918954763]
畳み込みニューラルネットワーク(CNN)は、画像処理、分類、セグメンテーションタスクのためのディープニューラルネットワークの標準クラスとなっている。
RedBitは、透過的で使いやすいインターフェースを提供するオープンソースのフレームワークで、異なるアルゴリズムの有効性をネットワークの精度で評価する。
論文 参考訳(メタデータ) (2023-01-15T21:27:35Z) - Towards Accurate Binary Neural Networks via Modeling Contextual
Dependencies [52.691032025163175]
既存のバイナリニューラルネットワーク(BNN)は主にバイナライズ機能を備えた局所畳み込みで動作する。
本稿では,二元系ニューラルモジュールの設計を新たに提案し,二元系ニューラルモジュールを大きなマージンで導く。
論文 参考訳(メタデータ) (2022-09-03T11:51:04Z) - Bayesian Neural Network Language Modeling for Speech Recognition [59.681758762712754]
長期記憶リカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端のニューラルネットワーク言語モデル(NNLM)は非常に複雑になりつつある。
本稿では,LSTM-RNN と Transformer LM の基盤となる不確実性を考慮するために,ベイズ学習フレームワークの全体構造を提案する。
論文 参考訳(メタデータ) (2022-08-28T17:50:19Z) - Elastic-Link for Binarized Neural Network [9.83865304744923]
ELモジュールは、その後の畳み込み出力特徴に実値入力特徴を適応的に付加することにより、BNN内の情報フローを豊かにする。
ELは、大規模なImageNetデータセットに挑戦する上で、大幅に改善されている。
ReActNetの統合により、71.9%の精度で新しい最先端結果が得られる。
論文 参考訳(メタデータ) (2021-12-19T13:49:29Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - NeuralScale: Efficient Scaling of Neurons for Resource-Constrained Deep
Neural Networks [16.518667634574026]
精度を最大化する固定ネットワークアーキテクチャのニューロン(フィルタ)構成を探索する。
パラメータの変化に関して各層のニューロン(フィルタ)数の変化をパラメータ化することにより、任意のサイズのアーキテクチャを効率的にスケールすることができる。
論文 参考訳(メタデータ) (2020-06-23T08:14:02Z) - Conformer: Convolution-augmented Transformer for Speech Recognition [60.119604551507805]
最近、トランスフォーマーと畳み込みニューラルネットワーク(CNN)に基づくモデルが、自動音声認識(ASR)の有望な結果を示している。
音声認識のための畳み込み拡張変換器,Conformerを提案する。
広く使われているLibriSpeechベンチマークでは、言語モデルを用いずにWERが2.1%/4.3%、テスト/テストの外部言語モデルで1.9%/3.9%を達成した。
論文 参考訳(メタデータ) (2020-05-16T20:56:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。