論文の概要: The People's Speech: A Large-Scale Diverse English Speech Recognition
Dataset for Commercial Usage
- arxiv url: http://arxiv.org/abs/2111.09344v1
- Date: Wed, 17 Nov 2021 19:14:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-19 14:00:24.685123
- Title: The People's Speech: A Large-Scale Diverse English Speech Recognition
Dataset for Commercial Usage
- Title(参考訳): the people's speech: a large-scale diverse english speech recognition dataset for commercial use
- Authors: Daniel Galvez, Greg Diamos, Juan Ciro, Juan Felipe Cer\'on, Keith
Achorn, Anjali Gopi, David Kanter, Maximilian Lam, Mark Mazumder, Vijay
Janapa Reddi
- Abstract要約: このデータセットでトレーニングされたモデルは、Librispeechのテストクリーンテストセット上で9.98%のワードエラー率を達成する。
本稿では,大規模機械学習コーパスの作成に伴う法的・倫理的問題について論じる。
- 参考スコア(独自算出の注目度): 1.5213617014998604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The People's Speech is a free-to-download 30,000-hour and growing supervised
conversational English speech recognition dataset licensed for academic and
commercial usage under CC-BY-SA (with a CC-BY subset). The data is collected
via searching the Internet for appropriately licensed audio data with existing
transcriptions. We describe our data collection methodology and release our
data collection system under the Apache 2.0 license. We show that a model
trained on this dataset achieves a 9.98% word error rate on Librispeech's
test-clean test set.Finally, we discuss the legal and ethical issues
surrounding the creation of a sizable machine learning corpora and plans for
continued maintenance of the project under MLCommons's sponsorship.
- Abstract(参考訳): People's Speechは、CC-BY-SA(CC-BYサブセット)の下での学術的および商業的使用のためにライセンスされた、3万時間の無料ダウンロードと教師付き会話型英語音声認識データセットである。
データはインターネットを介して収集され、既存の書き起こしで適切なライセンスされたオーディオデータを取得する。
当社のデータ収集方法論を説明し,apache 2.0ライセンスの下でデータ収集システムをリリースする。
このデータセットでトレーニングされたモデルは、librispeechのテストクリーンテストセット上で9.98%の単語誤り率を達成していることを示し、最後に、大規模な機械学習コーパスの作成に関する法的および倫理的問題と、mlcommonsのスポンサーの下でプロジェクトの継続的なメンテナンス計画について論じる。
関連論文リスト
- Zambezi Voice: A Multilingual Speech Corpus for Zambian Languages [20.25236081418051]
Zambezi Voiceはザンビア語のためのオープンソースの多言語音声リソースである。
我々の知る限り、ザンビア語で作成された最初の多言語音声データセットである。
論文 参考訳(メタデータ) (2023-06-07T13:36:37Z) - Textless Low-Resource Speech-to-Speech Translation With Unit Language
Models [56.1058530241461]
本稿では,テキストレス低音源音声合成システム(S2ST)を学習するための新しいフレームワークを提案する。
我々はS2STを単位から単位へのセク2セク翻訳タスクとして微調整し、大規模単言語音声データに対する事前学習から始める。
3つのドメインで英語、ドイツ語、マラティー語、英語の翻訳をトレーニングし、評価する。
論文 参考訳(メタデータ) (2023-05-24T17:59:05Z) - WavCaps: A ChatGPT-Assisted Weakly-Labelled Audio Captioning Dataset for
Audio-Language Multimodal Research [90.01270531446059]
約400kの音声クリップとペアキャプションを組み合わせた,大規模な音声キャプションデータセットであるWavCapsを紹介した。
オンラインハーベストな生の記述は非常にうるさいし、自動音声キャプションなどのタスクで直接使うには適さない。
本稿では,大規模な言語モデルであるChatGPTを用いて,ノイズの多いデータをフィルタリングし,高品質なキャプションを生成するための3段階処理パイプラインを提案する。
論文 参考訳(メタデータ) (2023-03-30T14:07:47Z) - Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。
我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文 参考訳(メタデータ) (2022-11-11T20:21:38Z) - SpeechMatrix: A Large-Scale Mined Corpus of Multilingual
Speech-to-Speech Translations [38.058120432870126]
SpeechMatrixは、音声から音声への翻訳の大規模多言語コーパスである。
136言語対の音声アライメントと、合計418万時間の音声を含む。
論文 参考訳(メタデータ) (2022-11-08T19:09:27Z) - Automatic Speech Recognition Datasets in Cantonese Language: A Survey
and a New Dataset [85.52036362232688]
私たちのデータセットは、香港のCandoneseオーディオブックから収集された、73.6時間のクリーンな読み上げ音声と書き起こしとの組み合わせで構成されています。
哲学、政治、教育、文化、ライフスタイル、家族の領域を組み合わせて、幅広いトピックをカバーしている。
MDCC と Common Voice zh-HK にマルチデータセット学習を適用することで,強力で堅牢な Cantonese ASR モデルを作成する。
論文 参考訳(メタデータ) (2022-01-07T12:09:15Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - WenetSpeech: A 10000+ Hours Multi-domain Mandarin Corpus for Speech
Recognition [25.31180901037065]
WenetSpeechは、10000時間以上の高品質なラベル付き音声からなる多ドメインマンダリンコーパスである。
YouTubeとPodcastから収集したデータは、さまざまな話し方、シナリオ、ドメイン、トピック、騒々しい条件をカバーしています。
論文 参考訳(メタデータ) (2021-10-07T12:05:29Z) - QASR: QCRI Aljazeera Speech Resource -- A Large Scale Annotated Arabic
Speech Corpus [11.113497373432411]
本稿では,放送領域から収集したアラビア語音声コーパス,QASRについて紹介する。
この多言語音声データセットは、アルジャジーラのニュースチャンネルからクロールされた16kHzでサンプリングされた2000時間の音声を含む。
論文 参考訳(メタデータ) (2021-06-24T13:20:40Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。