論文の概要: CORAA: a large corpus of spontaneous and prepared speech manually
validated for speech recognition in Brazilian Portuguese
- arxiv url: http://arxiv.org/abs/2110.15731v1
- Date: Thu, 14 Oct 2021 13:50:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-07 11:38:50.659030
- Title: CORAA: a large corpus of spontaneous and prepared speech manually
validated for speech recognition in Brazilian Portuguese
- Title(参考訳): CORAA:ブラジルポルトガル語における音声認識のための手作業による自発・準備音声の大規模コーパス
- Authors: Arnaldo Candido Junior, Edresson Casanova, Anderson Soares, Frederico
Santos de Oliveira, Lucas Oliveira, Ricardo Corso Fernandes Junior, Daniel
Peixoto Pinto da Silva, Fernando Gorgulho Fayet, Bruno Baldissera Carlotto,
Lucas Rafael Stefanel Gris, Sandra Maria Alu\'isio
- Abstract要約: ブラジルポルトガル語 (BP) における ASR のデータセットである CORAA (Corpus of Annotated Audios) v1。
We present two public ASR model based on Wav2Vec 2.0 XLSR-53 and fine-tuned over CORAA。
CORAAコーパスは、自然発声による現象を伴うBPのASRモデルの改善と、ポルトガルでのASR研究を開始するための若い研究者のモチベーションの両方のために組み立てられた。
- 参考スコア(独自算出の注目度): 42.64153341338408
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic Speech recognition (ASR) is a complex and challenging task. In
recent years, there have been significant advances in the area. In particular,
for the Brazilian Portuguese (BP) language, there were about 376 hours public
available for ASR task until the second half of 2020. With the release of new
datasets in early 2021, this number increased to 574 hours. The existing
resources, however, are composed of audios containing only read and prepared
speech. There is a lack of datasets including spontaneous speech, which are
essential in different ASR applications. This paper presents CORAA (Corpus of
Annotated Audios) v1. with 291 hours, a publicly available dataset for ASR in
BP containing validated pairs (audio-transcription). CORAA also contains
European Portuguese audios (4.69 hours). We also present two public ASR models
based on Wav2Vec 2.0 XLSR-53 and fine-tuned over CORAA. Our best model achieved
a Word Error Rate of 27.35% on CORAA test set and 16.01% on Common Voice test
set. When measuring the Character Error Rate, we obtained 14.26% and 5.45% for
CORAA and Common Voice, respectively. CORAA corpora were assembled to both
improve ASR models in BP with phenomena from spontaneous speech and motivate
young researchers to start their studies on ASR for Portuguese. All the corpora
are publicly available at https://github.com/nilc-nlp/CORAA under the CC
BY-NC-ND 4.0 license.
- Abstract(参考訳): 音声認識(ASR)は複雑で困難な課題である。
近年、この地域には大きな進歩があった。
特にブラジルポルトガル語(bp)言語では、2020年後半まで約376時間のasrタスクが利用可能であった。
2021年初頭に新しいデータセットがリリースされると、この数は574時間に増加した。
しかし、既存のリソースは読み書きと準備された音声のみを含む音声で構成されている。
自然発話を含むデータセットの欠如は、異なるASRアプリケーションに必須である。
本稿では,CORAA (Corpus of Annotated Audios) v1について述べる。
291時間で、検証済みのペア(オーディオ書き起こし)を含むBPのASR用データセットが公開されている。
CORAAにはヨーロッパのポルトガル語の音声(4.69時間)も含まれている。
We present two public ASR model based on Wav2Vec 2.0 XLSR-53 and fine-tuned over CORAA。
我々の最良のモデルは、CORAAテストセットで27.35%、Common Voiceテストセットで16.01%のワードエラー率を達成した。
文字誤り率の測定では, CORAA と Common Voice でそれぞれ 14.26% と 5.45% を得た。
CORAAコーパスは、自然発声による現象を伴うBPのASRモデルの改善と、ポルトガルでのASR研究の動機付けのために組み立てられた。
すべてのコーパスはCC BY-NC-ND 4.0ライセンスの下でhttps://github.com/nilc-nlp/CORAAで公開されている。
関連論文リスト
- A Large Dataset of Spontaneous Speech with the Accent Spoken in São Paulo for Automatic Speech Recognition Evaluation [0.8929537856623965]
ブラジルポルトガル語の自発音声コーパスについて紹介する。
本稿では,Wav2Vec2-XLSR-53モデルとDistil-Whisperモデルを用いて,予備的な自動音声認識(ASR)結果について報告する。
私たちの知る限りでは、ポルトガルのASRタスクに捧げられた最初の大規模パウリスターノアクセントによる自然発声コーパスである。
論文 参考訳(メタデータ) (2024-09-10T21:45:06Z) - MSR-86K: An Evolving, Multilingual Corpus with 86,300 Hours of Transcribed Audio for Speech Recognition Research [18.282566545836705]
本稿では,音声認識研究のための大規模多言語コーパスであるMSR-86Kを紹介する。
コーパスは15の言語と86,300時間の転写されたASRデータからなるYouTube上の公開ビデオに由来する。
MSR-86K は HuggingFace 上で公開され,多言語 ASR 研究のための新たな道が開かれると我々は信じている。
論文 参考訳(メタデータ) (2024-06-26T12:35:12Z) - Automatic Speech Recognition Advancements for Indigenous Languages of the Americas [0.0]
The Second Americas (Americas Natural Language Processing) Competition Track 1 of NeurIPS (Neural Information Processing Systems) 2022年、Cechua、Guarani、Brbri、Kotiria、Wa'ikhanaの5つの先住民言語の自動音声認識システムの訓練タスクを提案した。
対象言語毎の最先端のASRモデルの微調整について,データ拡張法に富んだ多種多様な情報源からの音声データの約36.65時間を用いて述べる。
私たちは各言語で最高のモデルをリリースし、Wa'ikhanaとKotiriaの最初のオープンなASRモデルをマークしています。
論文 参考訳(メタデータ) (2024-04-12T10:12:38Z) - OOD-Speech: A Large Bengali Speech Recognition Dataset for
Out-of-Distribution Benchmarking [1.277758355297812]
OOD-Speechはベンガル語自動音声認識(ASR)のための最初のアウト・オブ・ディストリビューション・ベンチマークデータセットである
私たちのトレーニングデータセットは、大規模なオンラインクラウドソーシングキャンペーンを通じて収集され、1177.94時間、南アジアから22,645ドルのベンガル語話者から収集され、キュレートされた。
論文 参考訳(メタデータ) (2023-05-15T18:00:39Z) - Domain Specific Wav2vec 2.0 Fine-tuning For The SE&R 2022 Challenge [0.0]
本稿では,ポルトガル語における自発・準備音声・音声感情認識のための共有タスク音声認識のための頑健なASRモデルの構築について述べる(SE&R2022)。
この課題の目標は、異なる方言で準備された、自発的なスピーチを考慮して、ポルトガル語のためのASR研究を進めることである。
論文 参考訳(メタデータ) (2022-07-29T00:48:40Z) - XLS-R: Self-supervised Cross-lingual Speech Representation Learning at
Scale [48.0390317915984]
XLS-Rはwav2vec 2.0に基づく言語間音声表現学習のための大規模モデルである。
128の言語で50万時間近く、最大2Bパラメータを持つモデルをトレーニングします。
論文 参考訳(メタデータ) (2021-11-17T18:49:42Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Arabic Speech Recognition by End-to-End, Modular Systems and Human [56.96327247226586]
我々は、エンドツーエンド変換器ASR、モジュール型HMM-DNN ASR、および人間の音声認識のための包括的なベンチマークを行う。
ASRでは、エンドツーエンドの作業が12.5%、27.5%、23.8%のWERとなり、それぞれMGB2、MGB3、MGB5の新たなパフォーマンスマイルストーンとなった。
以上の結果から,アラビア語における人的パフォーマンスは,平均3.6%のWERギャップを持つ機械に比べて,依然としてかなり優れていたことが示唆された。
論文 参考訳(メタデータ) (2021-01-21T05:55:29Z) - LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition [148.43282526983637]
データコストの低い言語のためのTLSおよびASRシステムであるLSpeechを開発した。
実験言語(英語)と真の低リソース言語(リトアニア語)で実験を行い,LRSpeechの有効性を検証する。
現在、より稀な言語でTSをサポートするために、商用のクラウド音声サービスにLSpeechをデプロイしています。
論文 参考訳(メタデータ) (2020-08-09T08:16:33Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。