論文の概要: Advancing RNN Transducer Technology for Speech Recognition
- arxiv url: http://arxiv.org/abs/2103.09935v1
- Date: Wed, 17 Mar 2021 22:19:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-19 13:55:45.557028
- Title: Advancing RNN Transducer Technology for Speech Recognition
- Title(参考訳): 音声認識のためのRNNトランスデューサ技術
- Authors: George Saon, Zoltan Tueske, Daniel Bolanos and Brian Kingsbury
- Abstract要約: RNNトランスデューサ (RNN-Ts) の3つの異なるタスクにおける単語誤り率の低下に役立つ一連の手法を検討した。
アーキテクチャの変更、話者適応、言語モデル融合、モデルの組み合わせ、一般的なトレーニングレシピに関するテクニック。
我々は、NIST Hub5 2000評価のSwitchboardおよびCallHomeテストセットの5.9%および12.5%ワードエラー率とMozilla CommonVoiceイタリアテストセットの12.7%WERを報告する。
- 参考スコア(独自算出の注目度): 25.265297366014277
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate a set of techniques for RNN Transducers (RNN-Ts) that were
instrumental in lowering the word error rate on three different tasks
(Switchboard 300 hours, conversational Spanish 780 hours and conversational
Italian 900 hours). The techniques pertain to architectural changes, speaker
adaptation, language model fusion, model combination and general training
recipe. First, we introduce a novel multiplicative integration of the encoder
and prediction network vectors in the joint network (as opposed to additive).
Second, we discuss the applicability of i-vector speaker adaptation to RNN-Ts
in conjunction with data perturbation. Third, we explore the effectiveness of
the recently proposed density ratio language model fusion for these tasks. Last
but not least, we describe the other components of our training recipe and
their effect on recognition performance. We report a 5.9% and 12.5% word error
rate on the Switchboard and CallHome test sets of the NIST Hub5 2000 evaluation
and a 12.7% WER on the Mozilla CommonVoice Italian test set.
- Abstract(参考訳): 3つのタスク(Switchboard 300時間, スペイン語 780時間, イタリア語 900時間)における単語誤り率の低下に寄与するRNNトランスデューサ(RNN-Ts)の手法について検討した。
この技術は、アーキテクチャの変更、話者適応、言語モデルの融合、モデルの組み合わせ、一般的なトレーニングレシピに関するものである。
まず、結合ネットワークにおけるエンコーダと予測ネットワークベクトルの(加算とは対照的に)新たな乗算積分を導入する。
第2に、データ摂動を伴うRNN-Tへのi-vector話者適応の適用性について論じる。
第3に,最近提案された密度比言語モデル融合の有効性について検討する。
最後に、トレーニングレシピの他の構成要素とその認識性能への影響について述べる。
我々は、NIST Hub5 2000評価のSwitchboardおよびCallHomeテストセットで5.9%と12.5%のワードエラー率、Mozilla CommonVoice Italyテストセットで12.7%のWERを報告した。
関連論文リスト
- Employing Hybrid Deep Neural Networks on Dari Speech [0.0]
本稿では,Mel- frequency cepstral coefficients (MFCCs) 特徴抽出法を用いて,Dari言語における個々の単語の認識に焦点を当てる。
我々は、畳み込みニューラルネットワーク(CNN)、リカレントニューラルネットワーク(RNN)、多層パーセプトロン(MLP)の3つの異なるディープニューラルネットワークモデルを評価する。
論文 参考訳(メタデータ) (2023-05-04T23:10:53Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - Analyzing And Improving Neural Speaker Embeddings for ASR [54.30093015525726]
本稿では,コンバータをベースとしたハイブリッドHMM ASRシステムに,ニューラルスピーカーの埋め込みを統合するための取り組みについて述べる。
話者埋め込みを用いたコンフォーマーベースハイブリッドASRシステムは, SWB 300hでのトレーニングにより, Hub5'00 と Hub5'01 で 9.0% WER を達成する。
論文 参考訳(メタデータ) (2023-01-11T16:56:03Z) - On the limit of English conversational speech recognition [28.395662280898787]
対話型音声認識において,シングルヘッドアテンションエンコーダ・デコーダモデルが最先端の結果に到達できることを実証する。
Switchboard-300上でのLSTMシステムの認識誤差を4%削減する。
We report 5.9% and 11.5% WER on the SWB and CHM parts of Hub5'00 with very simple LSTM models。
論文 参考訳(メタデータ) (2021-05-03T16:32:38Z) - On Addressing Practical Challenges for RNN-Transduce [72.72132048437751]
オーディオデータを収集することなく、よく訓練されたRNN-Tモデルを新しいドメインに適応します。
復号時に計算された複数の特徴を利用して単語レベルの信頼度を求める。
提案手法では,平均で50ms以下の単語のタイミング差が得られる。
論文 参考訳(メタデータ) (2021-04-27T23:31:43Z) - Arabic Speech Recognition by End-to-End, Modular Systems and Human [56.96327247226586]
我々は、エンドツーエンド変換器ASR、モジュール型HMM-DNN ASR、および人間の音声認識のための包括的なベンチマークを行う。
ASRでは、エンドツーエンドの作業が12.5%、27.5%、23.8%のWERとなり、それぞれMGB2、MGB3、MGB5の新たなパフォーマンスマイルストーンとなった。
以上の結果から,アラビア語における人的パフォーマンスは,平均3.6%のWERギャップを持つ機械に比べて,依然としてかなり優れていたことが示唆された。
論文 参考訳(メタデータ) (2021-01-21T05:55:29Z) - ASTRAL: Adversarial Trained LSTM-CNN for Named Entity Recognition [16.43239147870092]
本稿では,モデル構造とトレーニングプロセスの両方から,現在のNER法を改善するためのLSTM-CNN(ASTRAL)システムを提案する。
提案システムは,CoNLL-03,OntoNotes 5.0,WNUT-17の3つのベンチマークで評価し,最先端の結果を得た。
論文 参考訳(メタデータ) (2020-09-02T13:15:25Z) - Attention-based Transducer for Online Speech Recognition [11.308675771607753]
本稿では,RNN-Tを改良したアテンションベーストランスデューサを提案する。
我々は,共同ネットワークにチャンクワイズアテンションを導入し,エンコーダに自己注意を導入する。
提案モデルでは,トレーニング速度と精度の両方において,RNN-Tよりも優れていた。
論文 参考訳(メタデータ) (2020-05-18T07:26:33Z) - Conformer: Convolution-augmented Transformer for Speech Recognition [60.119604551507805]
最近、トランスフォーマーと畳み込みニューラルネットワーク(CNN)に基づくモデルが、自動音声認識(ASR)の有望な結果を示している。
音声認識のための畳み込み拡張変換器,Conformerを提案する。
広く使われているLibriSpeechベンチマークでは、言語モデルを用いずにWERが2.1%/4.3%、テスト/テストの外部言語モデルで1.9%/3.9%を達成した。
論文 参考訳(メタデータ) (2020-05-16T20:56:25Z) - RNN-T Models Fail to Generalize to Out-of-Domain Audio: Causes and
Solutions [73.45995446500312]
ストリーミングおよび非ストリーミングリカレントニューラルネットワークトランスデューサ(RNN-T)のエンド・ツー・エンドモデルにおける一般化特性を解析した。
トレーニング中に複数の正規化手法を組み合わせる方法と,動的重複推論を用いる方法を提案する。
論文 参考訳(メタデータ) (2020-05-07T06:24:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。