論文の概要: The People's Speech: A Large-Scale Diverse English Speech Recognition
Dataset for Commercial Usage
- arxiv url: http://arxiv.org/abs/2111.09344v1
- Date: Wed, 17 Nov 2021 19:14:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-19 14:00:24.685123
- Title: The People's Speech: A Large-Scale Diverse English Speech Recognition
Dataset for Commercial Usage
- Title(参考訳): the people's speech: a large-scale diverse english speech recognition dataset for commercial use
- Authors: Daniel Galvez, Greg Diamos, Juan Ciro, Juan Felipe Cer\'on, Keith
Achorn, Anjali Gopi, David Kanter, Maximilian Lam, Mark Mazumder, Vijay
Janapa Reddi
- Abstract要約: このデータセットでトレーニングされたモデルは、Librispeechのテストクリーンテストセット上で9.98%のワードエラー率を達成する。
本稿では,大規模機械学習コーパスの作成に伴う法的・倫理的問題について論じる。
- 参考スコア(独自算出の注目度): 1.5213617014998604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The People's Speech is a free-to-download 30,000-hour and growing supervised
conversational English speech recognition dataset licensed for academic and
commercial usage under CC-BY-SA (with a CC-BY subset). The data is collected
via searching the Internet for appropriately licensed audio data with existing
transcriptions. We describe our data collection methodology and release our
data collection system under the Apache 2.0 license. We show that a model
trained on this dataset achieves a 9.98% word error rate on Librispeech's
test-clean test set.Finally, we discuss the legal and ethical issues
surrounding the creation of a sizable machine learning corpora and plans for
continued maintenance of the project under MLCommons's sponsorship.
- Abstract(参考訳): People's Speechは、CC-BY-SA(CC-BYサブセット)の下での学術的および商業的使用のためにライセンスされた、3万時間の無料ダウンロードと教師付き会話型英語音声認識データセットである。
データはインターネットを介して収集され、既存の書き起こしで適切なライセンスされたオーディオデータを取得する。
当社のデータ収集方法論を説明し,apache 2.0ライセンスの下でデータ収集システムをリリースする。
このデータセットでトレーニングされたモデルは、librispeechのテストクリーンテストセット上で9.98%の単語誤り率を達成していることを示し、最後に、大規模な機械学習コーパスの作成に関する法的および倫理的問題と、mlcommonsのスポンサーの下でプロジェクトの継続的なメンテナンス計画について論じる。
関連論文リスト
- EARS: An Anechoic Fullband Speech Dataset Benchmarked for Speech Enhancement and Dereverberation [83.29199726650899]
EARSデータセットは、さまざまなバックグラウンドから107人の話者で構成され、100時間のクリーンで無響な音声データである。
データセットには、感情的なスピーチ、異なる読み方、非言語音、会話の自由なスピーチなど、幅広い種類の話し方が含まれている。
提案手法は,データセット上での音声強調とデバーベレーションのための様々な手法をベンチマークし,その性能を測定値を用いて評価する。
論文 参考訳(メタデータ) (2024-06-10T11:28:29Z) - YODAS: Youtube-Oriented Dataset for Audio and Speech [47.60574092241447]
YODASは100以上の言語で500k時間以上の音声データからなる大規模多言語データセットである。
手動または自動の字幕を含むラベル付きサブセットは、教師付きモデルトレーニングを促進する。
YODASはその規模で最初に公開されたデータセットであり、Creative Commonsライセンスの下で配布されている。
論文 参考訳(メタデータ) (2024-06-02T23:43:27Z) - Zambezi Voice: A Multilingual Speech Corpus for Zambian Languages [20.25236081418051]
Zambezi Voiceはザンビア語のためのオープンソースの多言語音声リソースである。
我々の知る限り、ザンビア語で作成された最初の多言語音声データセットである。
論文 参考訳(メタデータ) (2023-06-07T13:36:37Z) - Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。
我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文 参考訳(メタデータ) (2022-11-11T20:21:38Z) - Automatic Speech Recognition Datasets in Cantonese Language: A Survey
and a New Dataset [85.52036362232688]
私たちのデータセットは、香港のCandoneseオーディオブックから収集された、73.6時間のクリーンな読み上げ音声と書き起こしとの組み合わせで構成されています。
哲学、政治、教育、文化、ライフスタイル、家族の領域を組み合わせて、幅広いトピックをカバーしている。
MDCC と Common Voice zh-HK にマルチデータセット学習を適用することで,強力で堅牢な Cantonese ASR モデルを作成する。
論文 参考訳(メタデータ) (2022-01-07T12:09:15Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - QASR: QCRI Aljazeera Speech Resource -- A Large Scale Annotated Arabic
Speech Corpus [11.113497373432411]
本稿では,放送領域から収集したアラビア語音声コーパス,QASRについて紹介する。
この多言語音声データセットは、アルジャジーラのニュースチャンネルからクロールされた16kHzでサンプリングされた2000時間の音声を含む。
論文 参考訳(メタデータ) (2021-06-24T13:20:40Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。