論文の概要: A Crowdsourced Open-Source Kazakh Speech Corpus and Initial Speech
Recognition Baseline
- arxiv url: http://arxiv.org/abs/2009.10334v2
- Date: Wed, 13 Jan 2021 09:08:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-15 23:00:32.562326
- Title: A Crowdsourced Open-Source Kazakh Speech Corpus and Initial Speech
Recognition Baseline
- Title(参考訳): クラウドソーシングによるカザフ語音声コーパスと初期音声認識ベースライン
- Authors: Yerbolat Khassanov, Saida Mussakhojayeva, Almas Mirzakhmetov, Alen
Adiyev, Mukhamet Nurpeiissov and Huseyin Atakan Varol
- Abstract要約: カザフ語コーパス(KSC)は、様々な地域や年齢集団の参加者によって話される153,000以上の発声を含む約332時間の音声を含む。
KSCは、様々なカザフ語音声および言語処理アプリケーションを前進させるために開発された、最大の公開データベースである。
- 参考スコア(独自算出の注目度): 4.521450956414864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present an open-source speech corpus for the Kazakh language. The Kazakh
speech corpus (KSC) contains around 332 hours of transcribed audio comprising
over 153,000 utterances spoken by participants from different regions and age
groups, as well as both genders. It was carefully inspected by native Kazakh
speakers to ensure high quality. The KSC is the largest publicly available
database developed to advance various Kazakh speech and language processing
applications. In this paper, we first describe the data collection and
preprocessing procedures followed by a description of the database
specifications. We also share our experience and challenges faced during the
database construction, which might benefit other researchers planning to build
a speech corpus for a low-resource language. To demonstrate the reliability of
the database, we performed preliminary speech recognition experiments. The
experimental results imply that the quality of audio and transcripts is
promising (2.8% character error rate and 8.7% word error rate on the test set).
To enable experiment reproducibility and ease the corpus usage, we also
released an ESPnet recipe for our speech recognition models.
- Abstract(参考訳): カザフ語のためのオープンソースの音声コーパスを提示する。
カザフ語コーパス(KSC)は、異なる地域や年齢集団の参加者によって話される153,000以上の発話を含む約332時間の書き起こされた音声を含む。
品質を確保するため、カザフ語話者によって慎重に検査された。
KSCは、様々なカザフ語音声および言語処理アプリケーションを前進させるために開発された、最大の公開データベースである。
本稿では,まずデータ収集と事前処理の手順を記述し,続いてデータベース仕様について述べる。
また、データベース構築中に直面した経験と課題を共有し、低リソース言語のための音声コーパスの構築を計画している他の研究者にとって有益かもしれない。
データベースの信頼性を示すために,予備的な音声認識実験を行った。
実験結果は、音声と書き起こしの品質が有望であることを示している(テストセットで2.8%の文字誤り率と8.7%の単語誤り率)。
実験再現性とコーパス使用の容易化を目的として,音声認識モデル用のESPnetレシピもリリースした。
関連論文リスト
- Improving Whisper's Recognition Performance for Under-Represented Language Kazakh Leveraging Unpaired Speech and Text [22.19230427358921]
表現不足の言語でWhisperのパフォーマンスを改善する方法について研究する価値がある。
我々は、アクセシブル・アンペア音声とテキストデータを利用し、言語モデルGPTとカザフ語Whisperを組み合わせた。
複数の実験で10%以上の絶対WER削減を達成した。
論文 参考訳(メタデータ) (2024-08-10T13:39:13Z) - Identifying Speakers in Dialogue Transcripts: A Text-based Approach Using Pretrained Language Models [83.7506131809624]
本稿では,デジタルメディアアーカイブにおけるコンテンツアクセシビリティと検索可能性を高める重要な課題である,対話テキスト中の話者名を識別する手法を提案する。
本稿では,メディアサムコーパスから派生した大規模データセットについて述べる。
本稿では,話者名を正確に属性付けるために,対話中の文脈的手がかりを活用する,話者IDに適したトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2024-07-16T18:03:58Z) - Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。
我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文 参考訳(メタデータ) (2022-11-11T20:21:38Z) - ASR2K: Speech Recognition for Around 2000 Languages without Audio [100.41158814934802]
対象言語に音声を必要としない音声認識パイプラインを提案する。
私たちのパイプラインは、音響、発音、言語モデルという3つのコンポーネントで構成されています。
我々は、1909年の言語をCrubadanと組み合わせて、大きな絶滅危惧言語n-gramデータベースを構築した。
論文 参考訳(メタデータ) (2022-09-06T22:48:29Z) - Automatic Dialect Density Estimation for African American English [74.44807604000967]
アフリカ・アメリカン・イングリッシュ(AAE)方言の方言密度の自動予測について検討する。
方言密度は、非標準方言の特徴を含む発話における単語の割合として定義される。
このデータベースでは,AAE音声に対する予測された真理弁証密度と地上の真理弁証密度との間に有意な相関関係を示す。
論文 参考訳(メタデータ) (2022-04-03T01:34:48Z) - KazakhTTS2: Extending the Open-Source Kazakh TTS Corpus With More Data,
Speakers, and Topics [4.859986264602551]
我々は、以前リリースした Kazakh text-to-speech (KazakhTTS) 合成コーパスの拡張版を提示する。
新しいKazakhTTS2コーパスでは、全体的なサイズは93時間から271時間に向上した。
講演者の数は2人から5人(女性3人、男性2人)に増えた。
論文 参考訳(メタデータ) (2022-01-15T06:54:30Z) - USC: An Open-Source Uzbek Speech Corpus and Initial Speech Recognition
Experiments [3.8673738158945326]
ウズベク語のための無料の音声コーパスを提示する。
本稿では、ディープニューラルネットワーク隠れマルコフモデル(DNN-HMM)とエンド・ツー・エンド(E2E)アーキテクチャの両方を用いて、予備的な自動音声認識(ASR)結果について報告する。
論文 参考訳(メタデータ) (2021-07-30T03:39:39Z) - QASR: QCRI Aljazeera Speech Resource -- A Large Scale Annotated Arabic
Speech Corpus [11.113497373432411]
本稿では,放送領域から収集したアラビア語音声コーパス,QASRについて紹介する。
この多言語音声データセットは、アルジャジーラのニュースチャンネルからクロールされた16kHzでサンプリングされた2000時間の音声を含む。
論文 参考訳(メタデータ) (2021-06-24T13:20:40Z) - Jira: a Kurdish Speech Recognition System Designing and Building Speech
Corpus and Pronunciation Lexicon [4.226093500082746]
中央クルド語のための最初の大規模な語彙音声認識システム(LVSR)、Jiraを紹介します。
クルド語(クルド語)は、複数の国で3000万人以上が話しているインド・ヨーロッパ語である。
音声コーパスについて、我々は、コレクション内のダイフォンの比率が中央クルド語の実際のデータに似ている文集を設計しました。
11の異なる文書トピックを含むテストセットは、2つの対応する音声条件で設計および記録される。
論文 参考訳(メタデータ) (2021-02-15T09:27:54Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。