論文の概要: GigaSpeech: An Evolving, Multi-domain ASR Corpus with 10,000 Hours of
Transcribed Audio
- arxiv url: http://arxiv.org/abs/2106.06909v1
- Date: Sun, 13 Jun 2021 04:09:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-18 12:59:35.362846
- Title: GigaSpeech: An Evolving, Multi-domain ASR Corpus with 10,000 Hours of
Transcribed Audio
- Title(参考訳): gigaspeech: 1万時間の書き起こしオーディオを備えた進化するマルチドメインasrコーパス
- Authors: Guoguo Chen, Shuzhou Chai, Guanbo Wang, Jiayu Du, Wei-Qiang Zhang,
Chao Weng, Dan Su, Daniel Povey, Jan Trmal, Junbo Zhang, Mingjie Jin, Sanjeev
Khudanpur, Shinji Watanabe, Shuaijiang Zhao, Wei Zou, Xiangang Li, Xuchen
Yao, Yongqing Wang, Yujun Wang, Zhao You, Zhiyong Yan
- Abstract要約: GigaSpeechは英語の多分野音声認識コーパスで、教師あり訓練に適した高品質なラベル付きオーディオが1万時間ある。
約4万時間の音声が、まずオーディオブック、ポッドキャスト、YouTubeから収集され、読み書きと自発的な話し方の両方をカバーする。
システムトレーニングのために、GigaSpeechは10h, 250h, 1000h, 2500h, 10000hの5つのサブセットを提供する。
- 参考スコア(独自算出の注目度): 88.20960848885575
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces GigaSpeech, an evolving, multi-domain English speech
recognition corpus with 10,000 hours of high quality labeled audio suitable for
supervised training, and 40,000 hours of total audio suitable for
semi-supervised and unsupervised training. Around 40,000 hours of transcribed
audio is first collected from audiobooks, podcasts and YouTube, covering both
read and spontaneous speaking styles, and a variety of topics, such as arts,
science, sports, etc. A new forced alignment and segmentation pipeline is
proposed to create sentence segments suitable for speech recognition training,
and to filter out segments with low-quality transcription. For system training,
GigaSpeech provides five subsets of different sizes, 10h, 250h, 1000h, 2500h,
and 10000h. For our 10,000-hour XL training subset, we cap the word error rate
at 4% during the filtering/validation stage, and for all our other smaller
training subsets, we cap it at 0%. The DEV and TEST evaluation sets, on the
other hand, are re-processed by professional human transcribers to ensure high
transcription quality. Baseline systems are provided for popular speech
recognition toolkits, namely Athena, ESPnet, Kaldi and Pika.
- Abstract(参考訳): 本稿では,GigaSpeechについて紹介する。GigaSpeechは,教師あり訓練に適した高品質ラベル付き音声1万時間,半教師なし訓練に適した総音声4万時間を備えた,多分野英語音声認識コーパスである。
約4万時間に及ぶ録音された音声は、まずオーディオブック、ポッドキャスト、youtubeから収集され、読み書きと自発的な話し方、そして芸術、科学、スポーツなど様々なトピックをカバーしている。
音声認識訓練に適した文セグメントを作成し,低品質の書き起こしでセグメントをフィルタする新たな強制アライメントとセグメント化パイプラインを提案する。
システムトレーニングのために、GigaSpeechは10h, 250h, 1000h, 2500h, 10000hの5つのサブセットを提供する。
1万時間のxlトレーニングサブセットでは、フィルタリング/バリデーション段階で単語エラー率を4%に、他の小さなトレーニングサブセットでは0%にキャプチャしています。
一方、開発と評価セットとテスト評価セットは、高い転写品質を確保するために、プロのヒューマントランスクリバーによって再処理される。
一般的な音声認識ツールキット(athena、espnet、kaldi、pika)にはベースラインシステムが提供されている。
関連論文リスト
- GigaSpeech 2: An Evolving, Large-Scale and Multi-domain ASR Corpus for Low-Resource Languages with Automated Crawling, Transcription and Refinement [36.29371629234269]
GigaSpeech 2は大規模多言語音声認識コーパスである。
タイ語、インドネシア語、ベトナム語を含む約3万時間の音声が自動で書き起こされる。
論文 参考訳(メタデータ) (2024-06-17T13:44:20Z) - EARS: An Anechoic Fullband Speech Dataset Benchmarked for Speech Enhancement and Dereverberation [83.29199726650899]
EARSデータセットは、さまざまなバックグラウンドから107人の話者で構成され、100時間のクリーンで無響な音声データである。
データセットには、感情的なスピーチ、異なる読み方、非言語音、会話の自由なスピーチなど、幅広い種類の話し方が含まれている。
提案手法は,データセット上での音声強調とデバーベレーションのための様々な手法をベンチマークし,その性能を測定値を用いて評価する。
論文 参考訳(メタデータ) (2024-06-10T11:28:29Z) - SeamlessM4T: Massively Multilingual & Multimodal Machine Translation [90.71078166159295]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。
我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。
FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文 参考訳(メタデータ) (2023-08-22T17:44:18Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。
WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。
トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文 参考訳(メタデータ) (2021-10-26T17:55:19Z) - WenetSpeech: A 10000+ Hours Multi-domain Mandarin Corpus for Speech
Recognition [25.31180901037065]
WenetSpeechは、10000時間以上の高品質なラベル付き音声からなる多ドメインマンダリンコーパスである。
YouTubeとPodcastから収集したデータは、さまざまな話し方、シナリオ、ドメイン、トピック、騒々しい条件をカバーしています。
論文 参考訳(メタデータ) (2021-10-07T12:05:29Z) - Injecting Text in Self-Supervised Speech Pretraining [33.676479965610774]
我々は,2つの異なるモーダル(音声とテキスト)から事前学習中の表現を共同学習することを提案する。
tts4pretrainは自己スーパービジョンにおけるコントラスト学習のパワーを補完する。
We demonstrate Word Error Rate (WER) reductions of 10% relative on the well-benchmarked, Librispeech task。
論文 参考訳(メタデータ) (2021-08-27T11:36:40Z) - QASR: QCRI Aljazeera Speech Resource -- A Large Scale Annotated Arabic
Speech Corpus [11.113497373432411]
本稿では,放送領域から収集したアラビア語音声コーパス,QASRについて紹介する。
この多言語音声データセットは、アルジャジーラのニュースチャンネルからクロールされた16kHzでサンプリングされた2000時間の音声を含む。
論文 参考訳(メタデータ) (2021-06-24T13:20:40Z) - Unsupervised Speech Recognition [55.864459085947345]
wav2vec-Uは、ラベル付きデータなしで音声認識モデルを訓練する方法である。
我々は、自己教師付き音声表現を活用して、ラベルなし音声をセグメント化し、これらの表現から相手の訓練を通して音素へのマッピングを学習する。
より大きな英語のLibrispeechベンチマークでは、wav2vec-Uは、わずか2年前の960時間のラベル付きデータに基づいてトレーニングされた最も優れたシステムに匹敵する、他のテストで5.9の単語エラー率を達成した。
論文 参考訳(メタデータ) (2021-05-24T04:10:47Z) - SPGISpeech: 5,000 hours of transcribed financial audio for fully
formatted end-to-end speech recognition [38.96077127913159]
英語の音声テキスト(STT)機械学習タスクでは、音響モデルは伝統的に未解決のラテン文字で訓練される。
本稿では,対象ラベルに対する完全フォーマットテキストを用いたエンドツーエンドのニューラルトランスクリプションを提案する。
CER1.7を達成し、5000時間のコーパスで訓練されたベースラインのコンフォーマーベースのモデルを提示します。
論文 参考訳(メタデータ) (2021-04-05T17:05:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。