論文の概要: speechocean762: An Open-Source Non-native English Speech Corpus For
Pronunciation Assessment
- arxiv url: http://arxiv.org/abs/2104.01378v1
- Date: Sat, 3 Apr 2021 11:31:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-07 13:14:45.820421
- Title: speechocean762: An Open-Source Non-native English Speech Corpus For
Pronunciation Assessment
- Title(参考訳): speechocean762: 発音評価のためのオープンソースの非ネイティブ音声コーパス
- Authors: Junbo Zhang, Zhiwen Zhang, Yongqing Wang, Zhiyong Yan, Qiong Song,
Yukai Huang, Ke Li, Daniel Povey and Yujun Wang
- Abstract要約: 本稿では,オープンソースの音声コーパス「speechocean762」を提案する。
250人の非母語話者からなる5000の英語発話からなり、その半数が子供である。
5名の専門家が各発話を文レベル,単語レベル,音素レベルで注釈した。
- 参考スコア(独自算出の注目度): 36.384236523098956
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces a new open-source speech corpus named "speechocean762"
designed for pronunciation assessment use, consisting of 5000 English
utterances from 250 non-native speakers, where half of the speakers are
children. Five experts annotated each of the utterances at sentence-level,
word-level and phoneme-level. A baseline system is released in open source to
illustrate the phoneme-level pronunciation assessment workflow on this corpus.
This corpus is allowed to be used freely for commercial and non-commercial
purposes. It is available for free download from OpenSLR, and the corresponding
baseline system is published in the Kaldi speech recognition toolkit.
- Abstract(参考訳): 本稿では, 話者の半数が子供である250人の非母語話者から5,000人の英語を話すことで, 発音評価のためのオープンソースの音声コーパス「speechocean762」を提案する。
5名の専門家が各発話を文レベル,単語レベル,音素レベルで注釈した。
ベースラインシステムはオープンソースでリリースされ、このコーパスの音素レベルの発音評価ワークフローを説明する。
このコーパスは、商業および非商業目的で自由に使用することができる。
OpenSLRから無料でダウンロードでき、対応するベースラインシステムはKaldi音声認識ツールキットで公開されている。
関連論文リスト
- SpokesBiz -- an Open Corpus of Conversational Polish [0.0]
本稿では,CLARIN-BIZプロジェクト内で開発された対話型ポーランド語コーパスであるSpokesBizの初期リリースについて述べる。
本稿では,コーパスの一般的な構造と内容について概説し,言語研究,自動音声認識(ASR)システムの評価と改善における選択された応用を示す。
論文 参考訳(メタデータ) (2023-12-19T17:48:26Z) - One model to rule them all ? Towards End-to-End Joint Speaker
Diarization and Speech Recognition [50.055765860343286]
本稿では,共同話者ダイアリゼーションと音声認識のための新しい枠組みを提案する。
このフレームワークはSLIDARと呼ばれ、任意の長さの入力を処理でき、任意の数の話者を処理できる。
AMIコーパスからの単調録音実験により, 近接話者と遠距離話者の両方の発話シナリオにおける手法の有効性が確認された。
論文 参考訳(メタデータ) (2023-10-02T23:03:30Z) - DiariST: Streaming Speech Translation with Speaker Diarization [53.595990270899414]
本稿では,最初のストリーミングSTとSDソリューションであるDiariSTを提案する。
ニューラルトランスデューサベースのストリーミングSTシステム上に構築され、トークンレベルのシリアライズされた出力トレーニングとtベクタを統合している。
重なり合う音声のストリーミング推論を行いながら,Whisperに基づくオフラインシステムと比較して強いSTとSD能力を実現する。
論文 参考訳(メタデータ) (2023-09-14T19:33:27Z) - ClArTTS: An Open-Source Classical Arabic Text-to-Speech Corpus [3.1925030748447747]
本稿では,古典アラビア語テキスト・トゥ・スペーチ(ClArTTS)のための音声コーパスについて述べる。
音声は、LibriVoxオーディオブックから抽出され、処理され、セグメンテーションされ、手動で書き起こされ、注釈付けされる。
最後のClArTTSコーパスは、40100kHzでサンプリングされた1人の男性スピーカーから約12時間の音声を含む。
論文 参考訳(メタデータ) (2023-02-28T20:18:59Z) - Introducing Semantics into Speech Encoders [91.37001512418111]
本研究では,大言語モデルからの意味情報をラベル付き音声書き起こしのない自己教師付き音声エンコーダに組み込む教師なしの手法を提案する。
提案手法は,100時間以上のラベル付き音声書き起こしにおける教師あり手法と類似した性能を実現する。
論文 参考訳(メタデータ) (2022-11-15T18:44:28Z) - TALCS: An Open-Source Mandarin-English Code-Switching Corpus and a
Speech Recognition Baseline [0.0]
本稿では,mandarin- English code-switching speech recognition--TALCS corpus の新たなコーパスを提案する。
TALCSコーパス(TALCS corpus)は、TAL教育グループにおけるオンラインの1対1の英語教育シーンに由来する。
私たちの知る限りでは、TALCS corpusは、マンダリン英語のコードスイッチングオープンソース自動音声認識データセットとして世界最大である。
論文 参考訳(メタデータ) (2022-06-27T09:30:25Z) - Lahjoita puhetta -- a large-scale corpus of spoken Finnish with some
benchmarks [9.160401226886947]
ドナート・スピーチ・キャンペーンはフィンランドの通常の口頭で約3600時間のスピーチを収集することに成功している。
収集の主な目的は、フィンランド語を自発的に研究するための代表的かつ大規模な資源を作成し、言語技術と音声ベースのサービスの開発を加速することであった。
収集プロセスと収集コーパスを示し,その汎用性を複数のユースケースで示す。
論文 参考訳(メタデータ) (2022-03-24T07:50:25Z) - Jira: a Kurdish Speech Recognition System Designing and Building Speech
Corpus and Pronunciation Lexicon [4.226093500082746]
中央クルド語のための最初の大規模な語彙音声認識システム(LVSR)、Jiraを紹介します。
クルド語(クルド語)は、複数の国で3000万人以上が話しているインド・ヨーロッパ語である。
音声コーパスについて、我々は、コレクション内のダイフォンの比率が中央クルド語の実際のデータに似ている文集を設計しました。
11の異なる文書トピックを含むテストセットは、2つの対応する音声条件で設計および記録される。
論文 参考訳(メタデータ) (2021-02-15T09:27:54Z) - A Corpus for Large-Scale Phonetic Typology [112.19288631037055]
本稿では,VoxClamantis v1.0について紹介する。
635言語にまたがる690の音素レベルラベルと690の音素レベルラベルと母音とシビラントの音響・音韻測定を行った。
論文 参考訳(メタデータ) (2020-05-28T13:03:51Z) - Speaker Diarization with Lexical Information [59.983797884955]
本研究では,音声認識による語彙情報を活用した話者ダイアリゼーション手法を提案する。
本稿では,話者クラスタリングプロセスに単語レベルの話者回転確率を組み込んだ話者ダイアリゼーションシステムを提案し,全体的なダイアリゼーション精度を向上させる。
論文 参考訳(メタデータ) (2020-04-13T17:16:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。