Fugu-MT 論文翻訳(概要): The People's Speech: A Large-Scale Diverse English Speech Recognition Dataset for Commercial Usage

論文の概要: The People's Speech: A Large-Scale Diverse English Speech Recognition Dataset for Commercial Usage

arxiv url: http://arxiv.org/abs/2111.09344v1
Date: Wed, 17 Nov 2021 19:14:40 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-19 14:00:24.685123
Title: The People's Speech: A Large-Scale Diverse English Speech Recognition Dataset for Commercial Usage
Title（参考訳）: the people's speech: a large-scale diverse english speech recognition dataset for commercial use
Authors: Daniel Galvez, Greg Diamos, Juan Ciro, Juan Felipe Cer\'on, Keith Achorn, Anjali Gopi, David Kanter, Maximilian Lam, Mark Mazumder, Vijay Janapa Reddi
Abstract要約: このデータセットでトレーニングされたモデルは、Librispeechのテストクリーンテストセット上で9.98%のワードエラー率を達成する。本稿では,大規模機械学習コーパスの作成に伴う法的・倫理的問題について論じる。
参考スコア（独自算出の注目度）: 1.5213617014998604
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The People's Speech is a free-to-download 30,000-hour and growing supervised conversational English speech recognition dataset licensed for academic and commercial usage under CC-BY-SA (with a CC-BY subset). The data is collected via searching the Internet for appropriately licensed audio data with existing transcriptions. We describe our data collection methodology and release our data collection system under the Apache 2.0 license. We show that a model trained on this dataset achieves a 9.98% word error rate on Librispeech's test-clean test set.Finally, we discuss the legal and ethical issues surrounding the creation of a sizable machine learning corpora and plans for continued maintenance of the project under MLCommons's sponsorship.
Abstract（参考訳）: People's Speechは、CC-BY-SA(CC-BYサブセット)の下での学術的および商業的使用のためにライセンスされた、3万時間の無料ダウンロードと教師付き会話型英語音声認識データセットである。データはインターネットを介して収集され、既存の書き起こしで適切なライセンスされたオーディオデータを取得する。当社のデータ収集方法論を説明し,apache 2.0ライセンスの下でデータ収集システムをリリースする。このデータセットでトレーニングされたモデルは、librispeechのテストクリーンテストセット上で9.98%の単語誤り率を達成していることを示し、最後に、大規模な機械学習コーパスの作成に関する法的および倫理的問題と、mlcommonsのスポンサーの下でプロジェクトの継続的なメンテナンス計画について論じる。

関連論文リスト

Loquacious Set: 25,000 Hours of Transcribed and Diverse English Speech Recognition Data for Research and Commercial Use [15.302106458232878]
この作品では、商業的に使用可能な英語のスピーチを25,000時間かけて収集した『Loquacious Set』が紹介されている。 Loquacious Setは、業界の学者や研究者が現実世界のシナリオでASRシステムを構築するのに役立つように設計されている。
論文参考訳（メタデータ） (2025-05-27T08:40:28Z)
EARS: An Anechoic Fullband Speech Dataset Benchmarked for Speech Enhancement and Dereverberation [83.29199726650899]
EARSデータセットは、さまざまなバックグラウンドから107人の話者で構成され、100時間のクリーンで無響な音声データである。データセットには、感情的なスピーチ、異なる読み方、非言語音、会話の自由なスピーチなど、幅広い種類の話し方が含まれている。提案手法は,データセット上での音声強調とデバーベレーションのための様々な手法をベンチマークし,その性能を測定値を用いて評価する。
論文参考訳（メタデータ） (2024-06-10T11:28:29Z)
YODAS: Youtube-Oriented Dataset for Audio and Speech [47.60574092241447]
YODASは100以上の言語で500k時間以上の音声データからなる大規模多言語データセットである。手動または自動の字幕を含むラベル付きサブセットは、教師付きモデルトレーニングを促進する。 YODASはその規模で最初に公開されたデータセットであり、Creative Commonsライセンスの下で配布されている。
論文参考訳（メタデータ） (2024-06-02T23:43:27Z)
Zambezi Voice: A Multilingual Speech Corpus for Zambian Languages [20.25236081418051]
Zambezi Voiceはザンビア語のためのオープンソースの多言語音声リソースである。我々の知る限り、ザンビア語で作成された最初の多言語音声データセットである。
論文参考訳（メタデータ） (2023-06-07T13:36:37Z)
Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文参考訳（メタデータ） (2022-11-11T20:21:38Z)
Automatic Speech Recognition Datasets in Cantonese Language: A Survey and a New Dataset [85.52036362232688]
私たちのデータセットは、香港のCandoneseオーディオブックから収集された、73.6時間のクリーンな読み上げ音声と書き起こしとの組み合わせで構成されています。哲学、政治、教育、文化、ライフスタイル、家族の領域を組み合わせて、幅広いトピックをカバーしている。 MDCC と Common Voice zh-HK にマルチデータセット学習を適用することで,強力で堅牢な Cantonese ASR モデルを作成する。
論文参考訳（メタデータ） (2022-01-07T12:09:15Z)
Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文参考訳（メタデータ） (2021-12-15T18:56:35Z)
QASR: QCRI Aljazeera Speech Resource -- A Large Scale Annotated Arabic Speech Corpus [11.113497373432411]
本稿では,放送領域から収集したアラビア語音声コーパス,QASRについて紹介する。この多言語音声データセットは、アルジャジーラのニュースチャンネルからクロールされた16kHzでサンプリングされた2000時間の音声を含む。
論文参考訳（メタデータ） (2021-06-24T13:20:40Z)
CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。 11,000人以上の話者と60以上のアクセントで多様化した。 CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文参考訳（メタデータ） (2020-02-04T14:35:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。