論文の概要: On the limit of English conversational speech recognition
- arxiv url: http://arxiv.org/abs/2105.00982v1
- Date: Mon, 3 May 2021 16:32:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-04 13:53:08.440679
- Title: On the limit of English conversational speech recognition
- Title(参考訳): 英語会話音声認識の限界について
- Authors: Zolt\'an T\"uske, George Saon, Brian Kingsbury
- Abstract要約: 対話型音声認識において,シングルヘッドアテンションエンコーダ・デコーダモデルが最先端の結果に到達できることを実証する。
Switchboard-300上でのLSTMシステムの認識誤差を4%削減する。
We report 5.9% and 11.5% WER on the SWB and CHM parts of Hub5'00 with very simple LSTM models。
- 参考スコア(独自算出の注目度): 28.395662280898787
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In our previous work we demonstrated that a single headed attention
encoder-decoder model is able to reach state-of-the-art results in
conversational speech recognition. In this paper, we further improve the
results for both Switchboard 300 and 2000. Through use of an improved
optimizer, speaker vector embeddings, and alternative speech representations we
reduce the recognition errors of our LSTM system on Switchboard-300 by 4%
relative. Compensation of the decoder model with the probability ratio approach
allows more efficient integration of an external language model, and we report
5.9% and 11.5% WER on the SWB and CHM parts of Hub5'00 with very simple LSTM
models. Our study also considers the recently proposed conformer, and more
advanced self-attention based language models. Overall, the conformer shows
similar performance to the LSTM; nevertheless, their combination and decoding
with an improved LM reaches a new record on Switchboard-300, 5.0% and 10.0% WER
on SWB and CHM. Our findings are also confirmed on Switchboard-2000, and a new
state of the art is reported, practically reaching the limit of the benchmark.
- Abstract(参考訳): これまでの研究で,1つの注目エンコーダ・デコーダモデルが,会話音声認識における最先端結果に到達できることを実証した。
本稿では,スイッチボード300と2000の両方の結果をさらに改善する。
改良されたオプティマイザ,話者ベクトル埋め込み,代用音声表現を用いて,Switchboard-300上でのLSTMシステムの認識誤差を4%削減する。
確率比アプローチによるデコーダモデルの補償により、外部言語モデルのより効率的な統合が可能となり、非常に単純なLSTMモデルを用いて、Hub5'00のSWBおよびCHM部分に5.9%と11.5%のWERを報告した。
本研究は,最近提案されたコンフォーマ,より先進的な自己照応に基づく言語モデルについても考察する。
全体として、コンバータはLSTMと同等の性能を示すが、改良されたLMとの組合せと復号化は、SWBおよびCHMではSwitchboard-300で5.0%、WERで10.0%の新記録に達する。
この結果はSwitchboard-2000でも確認され,新たな技術状況が報告され,ベンチマークの限界に達している。
関連論文リスト
- Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - Analyzing And Improving Neural Speaker Embeddings for ASR [54.30093015525726]
本稿では,コンバータをベースとしたハイブリッドHMM ASRシステムに,ニューラルスピーカーの埋め込みを統合するための取り組みについて述べる。
話者埋め込みを用いたコンフォーマーベースハイブリッドASRシステムは, SWB 300hでのトレーニングにより, Hub5'00 と Hub5'01 で 9.0% WER を達成する。
論文 参考訳(メタデータ) (2023-01-11T16:56:03Z) - Improving the Training Recipe for a Robust Conformer-based Hybrid Model [46.78701739177677]
コンバータベース音響モデル(AM)の特徴空間アプローチに基づく話者適応訓練(SAT)の様々な手法について検討する。
本稿では,コンバータAMのマルチヘッド自己アテンションモジュールの入力に重み付き話者情報ベクトルを追加する重み付きSimple-Addを提案する。
Switchboard 300h Hub5'00データセットのワードエラーレート(WER)で11%の相対的な改善を実現したレシピを拡張して改善する。
論文 参考訳(メタデータ) (2022-06-26T20:01:08Z) - 4-bit Quantization of LSTM-based Speech Recognition Models [40.614677908909705]
LSTMに基づく大規模アーキテクチャの2つのファミリにおける重みとアクティベーションの積極的低精度表現の影響について検討した。
量子化器と初期化器の適切な選択により、最小精度の損失が達成可能であることを示す。
論文 参考訳(メタデータ) (2021-08-27T00:59:52Z) - Advanced Long-context End-to-end Speech Recognition Using
Context-expanded Transformers [56.56220390953412]
コンフォーメータアーキテクチャを導入することで、精度をさらに向上させ、以前の作業を拡張します。
拡張トランスフォーマーは、最先端のエンドツーエンドのASR性能を提供する。
論文 参考訳(メタデータ) (2021-04-19T16:18:00Z) - Advancing RNN Transducer Technology for Speech Recognition [25.265297366014277]
RNNトランスデューサ (RNN-Ts) の3つの異なるタスクにおける単語誤り率の低下に役立つ一連の手法を検討した。
アーキテクチャの変更、話者適応、言語モデル融合、モデルの組み合わせ、一般的なトレーニングレシピに関するテクニック。
我々は、NIST Hub5 2000評価のSwitchboardおよびCallHomeテストセットの5.9%および12.5%ワードエラー率とMozilla CommonVoiceイタリアテストセットの12.7%WERを報告する。
論文 参考訳(メタデータ) (2021-03-17T22:19:11Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z) - Single headed attention based sequence-to-sequence model for
state-of-the-art results on Switchboard [36.06535394840605]
ここでは,Switchboard-300データベース上で,最先端の音声認識性能が実現可能であることを示す。
クロス発話言語モデルを用いて、我々のシングルパス話者独立システムは、Hub5'00のSwitchboardおよびCallHomeサブセットで6.4%、12.5%のワードエラー率(WER)に達する。
論文 参考訳(メタデータ) (2020-01-20T22:03:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。