論文の概要: TALCS: An Open-Source Mandarin-English Code-Switching Corpus and a
Speech Recognition Baseline
- arxiv url: http://arxiv.org/abs/2206.13135v1
- Date: Mon, 27 Jun 2022 09:30:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-28 16:04:27.213464
- Title: TALCS: An Open-Source Mandarin-English Code-Switching Corpus and a
Speech Recognition Baseline
- Title(参考訳): TALCS: オープンソースのマンダリン英語コードスイッチングコーパスと音声認識ベースライン
- Authors: Chengfei Li, Shuhao Deng, Yaoping Wang, Guangjing Wang, Yaguang Gong,
Changbin Chen and Jinfeng Bai
- Abstract要約: 本稿では,mandarin- English code-switching speech recognition--TALCS corpus の新たなコーパスを提案する。
TALCSコーパス(TALCS corpus)は、TAL教育グループにおけるオンラインの1対1の英語教育シーンに由来する。
私たちの知る限りでは、TALCS corpusは、マンダリン英語のコードスイッチングオープンソース自動音声認識データセットとして世界最大である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a new corpus of Mandarin-English code-switching speech
recognition--TALCS corpus, suitable for training and evaluating code-switching
speech recognition systems. TALCS corpus is derived from real online one-to-one
English teaching scenes in TAL education group, which contains roughly 587
hours of speech sampled at 16 kHz. To our best knowledge, TALCS corpus is the
largest well labeled Mandarin-English code-switching open source automatic
speech recognition (ASR) dataset in the world. In this paper, we will introduce
the recording procedure in detail, including audio capturing devices and corpus
environments. And the TALCS corpus is freely available for download under the
permissive license1. Using TALCS corpus, we conduct ASR experiments in two
popular speech recognition toolkits to make a baseline system, including ESPnet
and Wenet. The Mixture Error Rate (MER) performance in the two speech
recognition toolkits is compared in TALCS corpus. The experimental results
implies that the quality of audio recordings and transcriptions are promising
and the baseline system is workable.
- Abstract(参考訳): 本稿では,音声認識システムの訓練と評価に適した,マンダリン・イングリッシュ・コードスイッチング音声認識-TALCSコーパスについて紹介する。
TALCSコーパスは、約587時間の音声を16kHzでサンプリングするTAL教育グループにおける、実際のオンライン1対1の英語教育シーンに由来する。
我々の知る限り、TALCS corpusは世界でも最大規模のMandarin- English code-switching Open Source Automatic Speech Recognition (ASR)データセットである。
本稿では,音声キャプチャ装置やコーパス環境を含む記録手順を詳細に紹介する。
そしてTALCSコーパスはパーミッシブライセンス1の下で無料でダウンロードできる。
talcsコーパスを用いて2つの一般的な音声認識ツールキットを用いてasr実験を行い、espnetとwenetを含むベースラインシステムを構築する。
2つの音声認識ツールキットにおける混合誤り率(mer)性能をtalcsコーパスで比較した。
実験結果から,音声記録と書き起こしの品質は有望であり,ベースラインシステムも機能することが示唆された。
関連論文リスト
- Zero Resource Code-switched Speech Benchmark Using Speech Utterance Pairs For Multiple Spoken Languages [49.6922490267701]
我々は,自己教師型音声エンコーダのコード切替能力を評価するために,ゼロリソースコード切替音声ベンチマークを導入した。
本稿では,音声エンコーダのコードスイッチング能力を評価するために,離散単位に基づく言語モデリングのベースラインシステムを紹介する。
論文 参考訳(メタデータ) (2023-10-04T17:58:11Z) - Speech collage: code-switched audio generation by collaging monolingual
corpora [50.356820349870986]
Speech Collage は音声セグメントをスプライシングすることでモノリンガルコーパスからCSデータを合成する手法である。
2つのシナリオにおける音声認識における生成データの影響について検討する。
論文 参考訳(メタデータ) (2023-09-27T14:17:53Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - ClArTTS: An Open-Source Classical Arabic Text-to-Speech Corpus [3.1925030748447747]
本稿では,古典アラビア語テキスト・トゥ・スペーチ(ClArTTS)のための音声コーパスについて述べる。
音声は、LibriVoxオーディオブックから抽出され、処理され、セグメンテーションされ、手動で書き起こされ、注釈付けされる。
最後のClArTTSコーパスは、40100kHzでサンプリングされた1人の男性スピーカーから約12時間の音声を含む。
論文 参考訳(メタデータ) (2023-02-28T20:18:59Z) - BASPRO: a balanced script producer for speech corpus collection based on
the genetic algorithm [29.701197643765674]
音声処理モデルの性能は、訓練と評価に使用される音声コーパスの影響を強く受けている。
本研究では,中国語文の音素バランスとリッチなセットを自動的に構築できるBAlanced Script Producer (BASPRO)システムを提案する。
論文 参考訳(メタデータ) (2022-12-11T02:05:30Z) - Language-agnostic Code-Switching in Sequence-To-Sequence Speech
Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。
本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。
さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文 参考訳(メタデータ) (2022-10-17T12:15:57Z) - Mandarin-English Code-switching Speech Recognition with Self-supervised
Speech Representation Models [55.82292352607321]
コードスイッチング(英: Code-switching, CS)は、複数の言語が文内で使用される日常会話において一般的である。
本稿では、最近成功した自己教師付き学習(SSL)手法を用いて、CSを使わずに多くのラベルなし音声データを活用する。
論文 参考訳(メタデータ) (2021-10-07T14:43:35Z) - WenetSpeech: A 10000+ Hours Multi-domain Mandarin Corpus for Speech
Recognition [25.31180901037065]
WenetSpeechは、10000時間以上の高品質なラベル付き音声からなる多ドメインマンダリンコーパスである。
YouTubeとPodcastから収集したデータは、さまざまな話し方、シナリオ、ドメイン、トピック、騒々しい条件をカバーしています。
論文 参考訳(メタデータ) (2021-10-07T12:05:29Z) - Jira: a Kurdish Speech Recognition System Designing and Building Speech
Corpus and Pronunciation Lexicon [4.226093500082746]
中央クルド語のための最初の大規模な語彙音声認識システム(LVSR)、Jiraを紹介します。
クルド語(クルド語)は、複数の国で3000万人以上が話しているインド・ヨーロッパ語である。
音声コーパスについて、我々は、コレクション内のダイフォンの比率が中央クルド語の実際のデータに似ている文集を設計しました。
11の異なる文書トピックを含むテストセットは、2つの対応する音声条件で設計および記録される。
論文 参考訳(メタデータ) (2021-02-15T09:27:54Z) - "Listen, Understand and Translate": Triple Supervision Decouples
End-to-end Speech-to-text Translation [49.610188741500274]
エンドツーエンドの音声テキスト翻訳(ST)は、ソース言語で音声を取り、ターゲット言語でテキストを出力する。
既存の方法は並列コーパスの量によって制限される。
並列STコーパスで信号を完全に活用するシステムを構築した。
論文 参考訳(メタデータ) (2020-09-21T09:19:07Z) - KoSpeech: Open-Source Toolkit for End-to-End Korean Speech Recognition [1.7955614278088239]
KoSpeechは、ディープラーニングライブラリPyTorchをベースにした、エンドツーエンドの韓国自動音声認識(ASR)ツールキットである。
KsponSpeechコーパスの事前処理手法とベンチマークのベースラインモデルを提案する。
KsponSpeech corpusでは音響モデルのみで10.31%の文字誤り率(CER)を達成した。
論文 参考訳(メタデータ) (2020-09-07T13:25:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。