論文の概要: A Large Dataset of Spontaneous Speech with the Accent Spoken in São Paulo for Automatic Speech Recognition Evaluation
- arxiv url: http://arxiv.org/abs/2409.15350v1
- Date: Tue, 10 Sep 2024 21:45:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 19:43:38.435636
- Title: A Large Dataset of Spontaneous Speech with the Accent Spoken in São Paulo for Automatic Speech Recognition Evaluation
- Title(参考訳): サンパウロにおけるアクセント発声音声の音声認識評価のための大規模データセット
- Authors: Rodrigo Lima, Sidney Evaldo Leal, Arnaldo Candido Junior, Sandra Maria Aluísio,
- Abstract要約: ブラジルポルトガル語の自発音声コーパスについて紹介する。
本稿では,Wav2Vec2-XLSR-53モデルとDistil-Whisperモデルを用いて,予備的な自動音声認識(ASR)結果について報告する。
私たちの知る限りでは、ポルトガルのASRタスクに捧げられた最初の大規模パウリスターノアクセントによる自然発声コーパスである。
- 参考スコア(独自算出の注目度): 0.8929537856623965
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present a freely available spontaneous speech corpus for the Brazilian Portuguese language and report preliminary automatic speech recognition (ASR) results, using both the Wav2Vec2-XLSR-53 and Distil-Whisper models fine-tuned and trained on our corpus. The NURC-SP Audio Corpus comprises 401 different speakers (204 females, 197 males) with a total of 239.30 hours of transcribed audio recordings. To the best of our knowledge, this is the first large Paulistano accented spontaneous speech corpus dedicated to the ASR task in Portuguese. We first present the design and development procedures of the NURC-SP Audio Corpus, and then describe four ASR experiments in detail. The experiments demonstrated promising results for the applicability of the corpus for ASR. Specifically, we fine-tuned two versions of Wav2Vec2-XLSR-53 model, trained a Distil-Whisper model using our dataset with labels determined by Whisper Large-V3 model, and fine-tuned this Distil-Whisper model with our corpus. Our best results were the Distil-Whisper fine-tuned over NURC-SP Audio Corpus with a WER of 24.22% followed by a fine-tuned versions of Wav2Vec2-XLSR-53 model with a WER of 33.73%, that is almost 10% point worse than Distil-Whisper's. To enable experiment reproducibility, we share the NURC-SP Audio Corpus dataset, pre-trained models, and training recipes in Hugging-Face and Github repositories.
- Abstract(参考訳): ブラジルポルトガル語の自発音声コーパスを無償で提供し,Wav2Vec2-XLSR-53とDistil-Whisperモデルを用いた予備的自動音声認識(ASR)結果を報告した。
NURC-SPオーディオコーパスは401人の異なる話者(204人の女性、197人の男性)で構成され、合計239.30時間の録音が記録されている。
私たちの知る限りでは、ポルトガルのASRタスクに捧げられた最初の大規模パウリスターノアクセントによる自然発声コーパスである。
まず, NURC-SPオーディオコーパスの設計・開発手順について述べる。
実験は、ASR用コーパスの適用性を示す有望な結果を示した。
具体的には、2種類のWav2Vec2-XLSR-53モデルを微調整し、Whisper Large-V3モデルを用いてデータセットを用いて Distil-Whisperモデルを訓練し、この Distil-Whisperモデルをコーパスで微調整した。
我々の最良の成果は、WERが24.22%のNURC-SPオーディオコーパスに、WERが33.73%のWav2Vec2-XLSR-53モデルに微調整された。
実験再現性を実現するために、NURC-SP Audio Corpusデータセット、事前訓練されたモデル、およびレシピをHugging-FaceとGithubリポジトリで共有する。
関連論文リスト
- GigaSpeech 2: An Evolving, Large-Scale and Multi-domain ASR Corpus for Low-Resource Languages with Automated Crawling, Transcription and Refinement [36.29371629234269]
GigaSpeech 2は大規模多言語音声認識コーパスである。
タイ語、インドネシア語、ベトナム語を含む約3万時間の音声が自動で書き起こされる。
論文 参考訳(メタデータ) (2024-06-17T13:44:20Z) - Prompting the Hidden Talent of Web-Scale Speech Models for Zero-Shot
Task Generalization [61.60501633397704]
本稿では,最近提案されたWebスケール音声モデルのWhisperの創発的能力について検討する。
タスク固有のプロンプトを、別の大規模モデルを活用するか、あるいはデフォルトのプロンプトで特別なトークンを操作するだけで設計する。
実験の結果,提案手法は3つのゼロショットタスクで10%から45%向上し,SotAの教師付きモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-05-18T16:32:58Z) - Hearing voices at the National Library -- a speech corpus and acoustic
model for the Swedish language [0.0]
スウェーデン国立図書館(KB)における音声認識のための新しい音響モデル(ASR)を開発した。
我々は,wav2vec 2.0アーキテクチャを用いて,スウェーデン語における音声視覚リソースのための音声からテキストへのパイプラインを実現するための様々なアプローチを評価する。
文化遺産機関におけるこのような技術の可能性を明らかにすることで、これまでにないオーディオヴィジュアルデータを大量に収集することで、我々は結論づける。
論文 参考訳(メタデータ) (2022-05-06T06:06:00Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - Scenario Aware Speech Recognition: Advancements for Apollo Fearless
Steps & CHiME-4 Corpora [70.46867541361982]
本稿では、TRILLと呼ばれる三重項損失に基づく自己監督基準で訓練された一般的な非意味的音声表現について考察する。
我々は、Fearless Stepsの開発と評価のために、+5.42%と+3.18%の相対的なWER改善を観察した。
論文 参考訳(メタデータ) (2021-09-23T00:43:32Z) - USC: An Open-Source Uzbek Speech Corpus and Initial Speech Recognition
Experiments [3.8673738158945326]
ウズベク語のための無料の音声コーパスを提示する。
本稿では、ディープニューラルネットワーク隠れマルコフモデル(DNN-HMM)とエンド・ツー・エンド(E2E)アーキテクチャの両方を用いて、予備的な自動音声認識(ASR)結果について報告する。
論文 参考訳(メタデータ) (2021-07-30T03:39:39Z) - Large-Scale Self- and Semi-Supervised Learning for Speech Translation [48.06478781295623]
大規模なLibri-Light音声コーパスとCommonCrawlを用いた言語モデリングを用いて,事前学習と自己学習の両方について検討する。
私たちの実験は、CoVoST 2言語ペアの4つすべてで平均2.6 BLEUで以前の状態よりも改善されました。
論文 参考訳(メタデータ) (2021-04-14T07:44:52Z) - Talk, Don't Write: A Study of Direct Speech-Based Image Retrieval [13.40010612226968]
共同表現学習のプロキシとして,音声に基づく画像検索が研究されている。
音声に基づく検索が実際にどれだけうまく機能するかは不明だ。
音声の自発的,アクセント的,あるいは自動書き起こしが難しい場合には,asr-to-textエンコーディングのカスケードを克服できる。
論文 参考訳(メタデータ) (2021-04-05T13:11:40Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z) - End-to-end Whispered Speech Recognition with Frequency-weighted
Approaches and Pseudo Whisper Pre-training [130.56878980058966]
発声音声のエンド・ツー・エンド(E2E)認識に対するいくつかのアプローチを提案する。
我々は,比較的小型のTIMITコーパスを用いて,PER19.8%,CER44.4%の相対的な削減を実現した。
正規または擬似発声音声で事前訓練された優れたE2Eモデルがある限り、比較的小さな発声音声は、合理的に優れたE2E発声音声認識器を得るのに十分である。
論文 参考訳(メタデータ) (2020-05-05T07:08:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。