論文の概要: GigaSpeech 2: An Evolving, Large-Scale and Multi-domain ASR Corpus for Low-Resource Languages with Automated Crawling, Transcription and Refinement
- arxiv url: http://arxiv.org/abs/2406.11546v1
- Date: Mon, 17 Jun 2024 13:44:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 14:32:20.300946
- Title: GigaSpeech 2: An Evolving, Large-Scale and Multi-domain ASR Corpus for Low-Resource Languages with Automated Crawling, Transcription and Refinement
- Title(参考訳): GigaSpeech 2: 自動クロール、転写、リファインメントを備えた低リソース言語のための進化型、大規模、マルチドメインのASRコーパス
- Authors: Yifan Yang, Zheshu Song, Jianheng Zhuo, Mingyu Cui, Jinpeng Li, Bo Yang, Yexing Du, Ziyang Ma, Xunying Liu, Ziyuan Wang, Ke Li, Shuai Fan, Kai Yu, Wei-Qiang Zhang, Guoguo Chen, Xie Chen,
- Abstract要約: GigaSpeech 2は大規模多言語音声認識コーパスである。
タイ語、インドネシア語、ベトナム語を含む約3万時間の音声が自動で書き起こされる。
- 参考スコア(独自算出の注目度): 36.29371629234269
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The evolution of speech technology has been spurred by the rapid increase in dataset sizes. Traditional speech models generally depend on a large amount of labeled training data, which is scarce for low-resource languages. This paper presents GigaSpeech 2, a large-scale, multi-domain, multilingual speech recognition corpus. It is designed for low-resource languages and does not rely on paired speech and text data. GigaSpeech 2 comprises about 30,000 hours of automatically transcribed speech, including Thai, Indonesian, and Vietnamese, gathered from unlabeled YouTube videos. We also introduce an automated pipeline for data crawling, transcription, and label refinement. Specifically, this pipeline uses Whisper for initial transcription and TorchAudio for forced alignment, combined with multi-dimensional filtering for data quality assurance. A modified Noisy Student Training is developed to further refine flawed pseudo labels iteratively, thus enhancing model performance. Experimental results on our manually transcribed evaluation set and two public test sets from Common Voice and FLEURS confirm our corpus's high quality and broad applicability. Notably, ASR models trained on GigaSpeech 2 can reduce the word error rate for Thai, Indonesian, and Vietnamese on our challenging and realistic YouTube test set by 25% to 40% compared to the Whisper large-v3 model, with merely 10% model parameters. Furthermore, our ASR models trained on Gigaspeech 2 yield superior performance compared to commercial services. We believe that our newly introduced corpus and pipeline will open a new avenue for low-resource speech recognition and significantly facilitate research in this area.
- Abstract(参考訳): 音声技術の進化は、データセットサイズが急速に増加することに拍車を掛けている。
従来の音声モデルは一般に大量のラベル付きトレーニングデータに依存しており、低リソース言語では不十分である。
本稿では,大規模多言語音声認識コーパスであるGigaSpeech 2について述べる。
低リソース言語用に設計されており、ペアリングされた音声とテキストデータに依存しない。
GigaSpeech 2は、タイ語、インドネシア語、ベトナム語を含む3万時間の自動書き起こし音声で構成され、未ラベルのYouTubeビデオから集められている。
また、データクローリング、書き起こし、ラベルリファインメントのための自動パイプラインも導入しています。
具体的には、このパイプラインは初期転写にWhisperを使用し、強制アライメントにはTorchAudioを使用し、データ品質保証には多次元フィルタリングを併用する。
修正ノイズ学生訓練は、欠陥のある擬似ラベルを反復的に洗練し、モデル性能を向上させるために開発された。
手書きによる評価セットと,Common Voice と FLEURS の2つの公開テストセットによる実験結果から,我々のコーパスの高品質かつ広範囲な適用性が確認された。
特に、GigaSpeech 2でトレーニングされたASRモデルは、Whisperの大規模v3モデルと比較して、タイ、インドネシア、ベトナムの挑戦的で現実的なYouTubeテストにおいて、単語エラー率を25%から40%削減することができる。
さらに、Gigaspeech 2でトレーニングしたASRモデルでは、商用サービスよりも優れた性能が得られる。
当社が新たに導入したコーパスとパイプラインは,低リソース音声認識のための新たな道を開き,この分野の研究を著しく促進すると考えている。
関連論文リスト
- Multi-modal Adversarial Training for Zero-Shot Voice Cloning [9.823246184635103]
実音声特徴と生成音声特徴を条件付きで識別するトランスフォーマーエンコーダデコーダアーキテクチャを提案する。
我々は、FastSpeech2音響モデルに適用し、大規模マルチスピーカーデータセットであるLibriheavyのトレーニングを行うことにより、新しい対角訓練手法を導入する。
本モデルは,音声品質と話者類似度の観点から,ベースラインに対する改善を実現する。
論文 参考訳(メタデータ) (2024-08-28T16:30:41Z) - SeamlessM4T: Massively Multilingual & Multimodal Machine Translation [90.71078166159295]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。
我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。
FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文 参考訳(メタデータ) (2023-08-22T17:44:18Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z) - A Weakly-Supervised Streaming Multilingual Speech Model with Truly
Zero-Shot Capability [32.524627464837636]
Streaming Multilingual Speech Model (SM2) は、複数の言語を対象言語のテキストに書き起こしたり、翻訳することができる。
SM2モデルは、音声認識コーパスの転写を機械翻訳サービスに変換することで、弱い教師付きデータを用いて訓練される。
SM2モデルは、25言語から匿名化された音声訓練データに35万時間を費やしており、最近の一般的な大規模非ストリーミング音声モデルと比較すると、同等またはそれ以上のST品質を実現している。
論文 参考訳(メタデータ) (2022-11-04T14:59:55Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Applying Wav2vec2.0 to Speech Recognition in Various Low-resource
Languages [16.001329145018687]
音声領域では、wav2vec2.0は、その強力な表現能力とLibrispeechコーパス上で超低リソース音声認識の実現性を示す。
しかし、wav2vec2.0は英語以外の実際の話シナリオや言語については検討されていない。
様々な言語の低リソース音声認識タスクを解決するために、事前学習モデルを適用します。
論文 参考訳(メタデータ) (2020-12-22T15:59:44Z) - LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition [148.43282526983637]
データコストの低い言語のためのTLSおよびASRシステムであるLSpeechを開発した。
実験言語(英語)と真の低リソース言語(リトアニア語)で実験を行い,LRSpeechの有効性を検証する。
現在、より稀な言語でTSをサポートするために、商用のクラウド音声サービスにLSpeechをデプロイしています。
論文 参考訳(メタデータ) (2020-08-09T08:16:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。