論文の概要: My Science Tutor (MyST) -- A Large Corpus of Children's Conversational
Speech
- arxiv url: http://arxiv.org/abs/2309.13347v1
- Date: Sat, 23 Sep 2023 11:52:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 20:33:23.195247
- Title: My Science Tutor (MyST) -- A Large Corpus of Children's Conversational
Speech
- Title(参考訳): MyScience Tutor (MyST) - 子どもの会話音声の大規模コーパス
- Authors: Sameer S. Pradhan and Ronald A. Cole and Wayne H. Ward
- Abstract要約: MySTは、子供たちの会話の最大のコレクションの1つです。
これまでに1万の発声が書き起こされている。
10の組織がこのコーパスを商業用途にライセンスしている。
- 参考スコア(独自算出の注目度): 0.27624021966289597
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This article describes the MyST corpus developed as part of the My Science
Tutor project -- one of the largest collections of children's conversational
speech comprising approximately 400 hours, spanning some 230K utterances across
about 10.5K virtual tutor sessions by around 1.3K third, fourth and fifth grade
students. 100K of all utterances have been transcribed thus far. The corpus is
freely available (https://myst.cemantix.org) for non-commercial use using a
creative commons license. It is also available for commercial use
(https://boulderlearning.com/resources/myst-corpus/). To date, ten
organizations have licensed the corpus for commercial use, and approximately 40
university and other not-for-profit research groups have downloaded the corpus.
It is our hope that the corpus can be used to improve automatic speech
recognition algorithms, build and evaluate conversational AI agents for
education, and together help accelerate development of multimodal applications
to improve children's excitement and learning about science, and help them
learn remotely.
- Abstract(参考訳): この記事では、My Science Tutorプロジェクトの一環として開発されたMySTコーパスについて説明する。これは、約400時間からなる子供の会話音声の最大コレクションの1つで、約10.5Kのバーチャルチューターセッションで約1.3K、第4、第5の学生によって約230Kの発話にまたがる。
これまでに、すべての発話の100万が転写されている。
コーパスは(https://myst.cemantix.org)フリーで、クリエイティブコモンズライセンスを使用して商用利用することができる。
商用利用も可能である(https://boulderlearning.com/resources/myst-corpus/)。
現在までに10の団体がこのコーパスを商業利用のためにライセンスしており、約40の大学や他の非営利の研究グループがコーパスをダウンロードしている。
このコーパスは、自動音声認識アルゴリズムの改善、教育のための会話型aiエージェントの構築と評価に利用し、子どもの興奮と科学の学習を改善するマルチモーダルアプリケーションの開発を加速し、遠隔で学ぶのに役立つことを期待している。
関連論文リスト
- Towards Robust Speech Representation Learning for Thousands of Languages [77.2890285555615]
自己教師付き学習(SSL)は、ラベル付きデータの必要性を減らすことで、音声技術をより多くの言語に拡張するのに役立つ。
我々は4057言語にまたがる100万時間以上のデータに基づいて訓練された、ユニバーサル音声のための言語横断言語であるXEUSを提案する。
論文 参考訳(メタデータ) (2024-06-30T21:40:26Z) - MSR-86K: An Evolving, Multilingual Corpus with 86,300 Hours of Transcribed Audio for Speech Recognition Research [18.282566545836705]
本稿では,音声認識研究のための大規模多言語コーパスであるMSR-86Kを紹介する。
コーパスは15の言語と86,300時間の転写されたASRデータからなるYouTube上の公開ビデオに由来する。
MSR-86K は HuggingFace 上で公開され,多言語 ASR 研究のための新たな道が開かれると我々は信じている。
論文 参考訳(メタデータ) (2024-06-26T12:35:12Z) - Scaling Speech Technology to 1,000+ Languages [66.31120979098483]
MMS(Massively Multilingual Speech)プロジェクトは、タスクに応じてサポート言語を10~40倍増やす。
主な材料は、一般に公開されている宗教文書の読解に基づく新しいデータセットである。
我々は,1,406言語,1,107言語用1つの多言語自動音声認識モデル,同一言語用音声合成モデル,4,017言語用言語識別モデルについて,事前学習したwav2vec 2.0モデルを構築した。
論文 参考訳(メタデータ) (2023-05-22T22:09:41Z) - Building African Voices [125.92214914982753]
本稿では,低リソースのアフリカ言語を対象とした音声合成について述べる。
我々は,最小限の技術資源で音声合成システムを構築するための汎用的な指示セットを作成する。
研究者や開発者を支援するために、12のアフリカ言語のための音声データ、コード、訓練された音声をリリースします。
論文 参考訳(メタデータ) (2022-07-01T23:28:16Z) - Toward a realistic model of speech processing in the brain with
self-supervised learning [67.7130239674153]
生波形で訓練された自己教師型アルゴリズムは有望な候補である。
We show that Wav2Vec 2.0 learns brain-like representations with little as 600 hours of unlabelled speech。
論文 参考訳(メタデータ) (2022-06-03T17:01:46Z) - Lahjoita puhetta -- a large-scale corpus of spoken Finnish with some
benchmarks [9.160401226886947]
ドナート・スピーチ・キャンペーンはフィンランドの通常の口頭で約3600時間のスピーチを収集することに成功している。
収集の主な目的は、フィンランド語を自発的に研究するための代表的かつ大規模な資源を作成し、言語技術と音声ベースのサービスの開発を加速することであった。
収集プロセスと収集コーパスを示し,その汎用性を複数のユースケースで示す。
論文 参考訳(メタデータ) (2022-03-24T07:50:25Z) - KazakhTTS2: Extending the Open-Source Kazakh TTS Corpus With More Data,
Speakers, and Topics [4.859986264602551]
我々は、以前リリースした Kazakh text-to-speech (KazakhTTS) 合成コーパスの拡張版を提示する。
新しいKazakhTTS2コーパスでは、全体的なサイズは93時間から271時間に向上した。
講演者の数は2人から5人(女性3人、男性2人)に増えた。
論文 参考訳(メタデータ) (2022-01-15T06:54:30Z) - GigaSpeech: An Evolving, Multi-domain ASR Corpus with 10,000 Hours of
Transcribed Audio [88.20960848885575]
GigaSpeechは英語の多分野音声認識コーパスで、教師あり訓練に適した高品質なラベル付きオーディオが1万時間ある。
約4万時間の音声が、まずオーディオブック、ポッドキャスト、YouTubeから収集され、読み書きと自発的な話し方の両方をカバーする。
システムトレーニングのために、GigaSpeechは10h, 250h, 1000h, 2500h, 10000hの5つのサブセットを提供する。
論文 参考訳(メタデータ) (2021-06-13T04:09:16Z) - FT Speech: Danish Parliament Speech Corpus [21.190182627955817]
本稿では,デンマーク議会の会議記録から作成した音声コーパスであるFT Speechを紹介する。
コーパスには、合計434人の話者による1,800時間以上の音声の書き起こしが含まれている。
これは、デンマークの既存の公用語コーパスよりも、持続時間、語彙、自然発話の量において著しく大きい。
論文 参考訳(メタデータ) (2020-05-25T19:51:18Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。