論文の概要: Arabic Speech Recognition by End-to-End, Modular Systems and Human
- arxiv url: http://arxiv.org/abs/2101.08454v1
- Date: Thu, 21 Jan 2021 05:55:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-21 08:01:55.309978
- Title: Arabic Speech Recognition by End-to-End, Modular Systems and Human
- Title(参考訳): エンドツーエンド・モジュラーシステムと人間によるアラビア語音声認識
- Authors: Amir Hussein, Shinji Watanabe, Ahmed Ali
- Abstract要約: 我々は、エンドツーエンド変換器ASR、モジュール型HMM-DNN ASR、および人間の音声認識のための包括的なベンチマークを行う。
ASRでは、エンドツーエンドの作業が12.5%、27.5%、23.8%のWERとなり、それぞれMGB2、MGB3、MGB5の新たなパフォーマンスマイルストーンとなった。
以上の結果から,アラビア語における人的パフォーマンスは,平均3.6%のWERギャップを持つ機械に比べて,依然としてかなり優れていたことが示唆された。
- 参考スコア(独自算出の注目度): 56.96327247226586
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in automatic speech recognition (ASR) have achieved accuracy
levels comparable to human transcribers, which led researchers to debate if the
machine has reached human performance. Previous work focused on the English
language and modular hidden Markov model-deep neural network (HMM-DNN) systems.
In this paper, we perform a comprehensive benchmarking for end-to-end
transformer ASR, modular HMM-DNN ASR, and human speech recognition (HSR) on the
Arabic language and its dialects. For the HSR, we evaluate linguist performance
and lay-native speaker performance on a new dataset collected as a part of this
study. For ASR the end-to-end work led to 12.5%, 27.5%, 33.8% WER; a new
performance milestone for the MGB2, MGB3, and MGB5 challenges respectively. Our
results suggest that human performance in the Arabic language is still
considerably better than the machine with an absolute WER gap of 3.6% on
average.
- Abstract(参考訳): 自動音声認識(ASR)の最近の進歩は、人間のトランスクリバーに匹敵する精度の水準に達しており、この機械が人間のパフォーマンスに到達したかどうかの議論につながっている。
以前の研究は、英語とモジュール型隠れマルコフモデルディープニューラルネットワーク(HMM-DNN)システムに焦点を当てていた。
本稿では, エンドツーエンドトランスフォーマーASR, モジュール型HMM-DNN ASR, アラビア語とその方言におけるヒューマン音声認識(HSR)の総合的なベンチマークを行う。
本研究では,本研究の一環として収集した新しいデータセットを用いて,言語学者のパフォーマンスと在来話者のパフォーマンスを評価する。
ASRにとって、エンドツーエンドの作業は12.5%、27.5%、33.8% WERとなり、それぞれMGB2、MGB3、MGB5の新たなパフォーマンスのマイルストーンとなった。
以上の結果から,アラビア語における人的パフォーマンスは,平均3.6%のWERギャップを持つ機械に比べて,依然としてかなり優れていたことが示唆された。
関連論文リスト
- Homogeneous Speaker Features for On-the-Fly Dysarthric and Elderly Speaker Adaptation [71.31331402404662]
本稿では, 変形性関節症と高齢者の話者レベルの特徴を学習するための2つの新しいデータ効率手法を提案する。
話者規則化スペクトルベース埋め込み-SBE特徴は、特別な正規化項を利用して適応における話者特徴の均一性を強制する。
テスト時間適応において、話者レベルのデータ量に敏感であることが示されるVR-LH機能に規定されている特徴ベースの学習隠れユニットコントリビューション(f-LHUC)。
論文 参考訳(メタデータ) (2024-07-08T18:20:24Z) - Automatic Speech Recognition Advancements for Indigenous Languages of the Americas [0.0]
The Second Americas (Americas Natural Language Processing) Competition Track 1 of NeurIPS (Neural Information Processing Systems) 2022年、Cechua、Guarani、Brbri、Kotiria、Wa'ikhanaの5つの先住民言語の自動音声認識システムの訓練タスクを提案した。
対象言語毎の最先端のASRモデルの微調整について,データ拡張法に富んだ多種多様な情報源からの音声データの約36.65時間を用いて述べる。
私たちは各言語で最高のモデルをリリースし、Wa'ikhanaとKotiriaの最初のオープンなASRモデルをマークしています。
論文 参考訳(メタデータ) (2024-04-12T10:12:38Z) - Employing Hybrid Deep Neural Networks on Dari Speech [0.0]
本稿では,Mel- frequency cepstral coefficients (MFCCs) 特徴抽出法を用いて,Dari言語における個々の単語の認識に焦点を当てる。
我々は、畳み込みニューラルネットワーク(CNN)、リカレントニューラルネットワーク(RNN)、多層パーセプトロン(MLP)の3つの異なるディープニューラルネットワークモデルを評価する。
論文 参考訳(メタデータ) (2023-05-04T23:10:53Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - Analyzing And Improving Neural Speaker Embeddings for ASR [54.30093015525726]
本稿では,コンバータをベースとしたハイブリッドHMM ASRシステムに,ニューラルスピーカーの埋め込みを統合するための取り組みについて述べる。
話者埋め込みを用いたコンフォーマーベースハイブリッドASRシステムは, SWB 300hでのトレーニングにより, Hub5'00 と Hub5'01 で 9.0% WER を達成する。
論文 参考訳(メタデータ) (2023-01-11T16:56:03Z) - Finnish Parliament ASR corpus - Analysis, benchmarks and statistics [11.94655679070282]
フィンランド議会では、3000時間以上の演説と449人の講演者が参加し、手書きの音声データをフィンランド語で収集した最大規模である。
このコーパスは初期の作業に基づいて構築され、結果としてコーパスは2つの期間から2つのトレーニングサブセットに自然に分割される。
我々は、カルディに基づく完全なデータ準備パイプラインと隠れマルコフモデル(HMM)、ハイブリッドディープニューラルネットワーク(HMM-DNN)、アテンションベースのエンコーダデコーダ(AED)ASRレシピを開発した。
論文 参考訳(メタデータ) (2022-03-28T16:29:49Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Domain Adversarial Neural Networks for Dysarthric Speech Recognition [21.550420336634726]
本研究では、話者に依存しない音声認識のためのドメイン逆ニューラルネットワーク(DANN)について検討する。
10桁の音声の分類タスクは、生音声を入力としてエンドツーエンドのCNNを用いて行われる。
本稿では,DANNが74.91%の絶対認識率を達成し,ベースラインを12.18%上回る結果を得た。
論文 参考訳(メタデータ) (2020-10-07T19:51:41Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。