論文の概要: Loquacious Set: 25,000 Hours of Transcribed and Diverse English Speech Recognition Data for Research and Commercial Use
- arxiv url: http://arxiv.org/abs/2505.21578v1
- Date: Tue, 27 May 2025 08:40:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.181719
- Title: Loquacious Set: 25,000 Hours of Transcribed and Diverse English Speech Recognition Data for Research and Commercial Use
- Title(参考訳): 有名なセット:研究・商業利用のための25,000時間英文音声認識データ
- Authors: Titouan Parcollet, Yuan Tseng, Shucong Zhang, Rogier van Dalen,
- Abstract要約: この作品では、商業的に使用可能な英語のスピーチを25,000時間かけて収集した『Loquacious Set』が紹介されている。
Loquacious Setは、業界の学者や研究者が現実世界のシナリオでASRシステムを構築するのに役立つように設計されている。
- 参考スコア(独自算出の注目度): 15.302106458232878
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic speech recognition (ASR) research is driven by the availability of common datasets between industrial researchers and academics, encouraging comparisons and evaluations. LibriSpeech, despite its long success as an ASR benchmark, is now limited by its size and focus on clean, read speech, leading to near-zero word error rates. More recent datasets, including MOSEL, YODAS, Gigaspeech, OWSM, Libriheavy or People's Speech suffer from major limitations including licenses that researchers in the industry cannot use, unreliable transcriptions, incorrect audio data, or the lack of evaluation sets. This work presents the Loquacious Set, a 25,000-hour curated collection of commercially usable English speech. Featuring hundreds of thousands of speakers with diverse accents and a wide range of speech types (read, spontaneous, talks, clean, noisy), the Loquacious Set is designed to work for academics and researchers in the industry to build ASR systems in real-world scenarios.
- Abstract(参考訳): 自動音声認識(ASR)研究は、産業研究者と学者の間で共通のデータセットが利用可能であることによって推進され、比較と評価が奨励される。
LibriSpeechは、ASRベンチマークとして長く成功したにもかかわらず、サイズによって制限され、クリーンで読みやすい音声に焦点が当てられ、ほぼゼロのワードエラー率に繋がった。
MOSEL, YODAS, Gigaspeech, OWSM, Libriheavy, People's Speechといった最近のデータセットでは、業界研究者が使用できないライセンス、信頼性の低い書き起こし、不正なオーディオデータ、評価セットの欠如など、大きな制限が課されている。
この作品では、商業的に使用可能な英語のスピーチを25,000時間かけて収集した『Loquacious Set』が紹介されている。
Loquacious Setは、多様なアクセントを持つ数十万の話者と、幅広い種類の音声タイプ(読み、自発的、話し、清潔、騒々しい)を備えており、業界内の学者や研究者が実際のシナリオでASRシステムを構築するために機能するよう設計されている。
関連論文リスト
- BERSting at the Screams: A Benchmark for Distanced, Emotional and Shouted Speech Recognition [0.5224038339798622]
本稿では,B(asic) E(motion) R(andom phrase) S(hou)t(s) (BERSt) データセットを提案する。
データセットには、地域のアクセントと非ネイティブアクセントの異なる98人のアクターから約4時間の英会話が含まれている。
ASRタスクとSERタスクの初期ベンチマークを行い、ASRは距離とシャウトレベルの増大とともに劣化し、意図した感情に応じて様々なパフォーマンスを示す。
論文 参考訳(メタデータ) (2025-04-30T14:08:14Z) - GigaSpeech 2: An Evolving, Large-Scale and Multi-domain ASR Corpus for Low-Resource Languages with Automated Crawling, Transcription and Refinement [36.29371629234269]
GigaSpeech 2は大規模多言語音声認識コーパスである。
タイ語、インドネシア語、ベトナム語を含む約3万時間の音声が自動で書き起こされる。
論文 参考訳(メタデータ) (2024-06-17T13:44:20Z) - Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
本稿では,ペア音声とテキストコーパスを使わずにASRシステムを開発するという課題に取り組む。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
この革新的なモデルは、レキシコンフリー環境下での以前の教師なしASRモデルの性能を上回る。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - Exploring Speech Recognition, Translation, and Understanding with
Discrete Speech Units: A Comparative Study [68.88536866933038]
音声信号は、通常、毎秒数万のレートでサンプリングされ、冗長性を含んでいる。
近年の研究では、自己教師型学習表現から派生した離散音声単位の使用が提案されている。
復号化やサブワードモデリングなどの様々な手法を適用することで、さらに音声列の長さを圧縮することができる。
論文 参考訳(メタデータ) (2023-09-27T17:21:13Z) - SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented
Dialogue Agents [72.42049370297849]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。
SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文 参考訳(メタデータ) (2023-05-22T13:47:51Z) - Earnings-22: A Practical Benchmark for Accents in the Wild [0.8039067099377079]
Earnings-22は125のファイルで、119時間に119回の英語による決算報告を世界企業から集めています。
個々の単語誤り率(IWER)を調べることで、重要な音声特徴が特定のアクセントに対して、他のアクセントよりもモデル性能に影響を及ぼすことが分かる。
論文 参考訳(メタデータ) (2022-03-29T14:02:57Z) - The People's Speech: A Large-Scale Diverse English Speech Recognition
Dataset for Commercial Usage [1.5213617014998604]
このデータセットでトレーニングされたモデルは、Librispeechのテストクリーンテストセット上で9.98%のワードエラー率を達成する。
本稿では,大規模機械学習コーパスの作成に伴う法的・倫理的問題について論じる。
論文 参考訳(メタデータ) (2021-11-17T19:14:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。