論文の概要: USC: An Open-Source Uzbek Speech Corpus and Initial Speech Recognition
Experiments
- arxiv url: http://arxiv.org/abs/2107.14419v1
- Date: Fri, 30 Jul 2021 03:39:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-02 18:55:20.410404
- Title: USC: An Open-Source Uzbek Speech Corpus and Initial Speech Recognition
Experiments
- Title(参考訳): usc: オープンソースのウズベク音声コーパスと初期音声認識実験
- Authors: Muhammadjon Musaev, Saida Mussakhojayeva, Ilyos Khujayorov, Yerbolat
Khassanov, Mannon Ochilov, Huseyin Atakan Varol
- Abstract要約: ウズベク語のための無料の音声コーパスを提示する。
本稿では、ディープニューラルネットワーク隠れマルコフモデル(DNN-HMM)とエンド・ツー・エンド(E2E)アーキテクチャの両方を用いて、予備的な自動音声認識(ASR)結果について報告する。
- 参考スコア(独自算出の注目度): 3.8673738158945326
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a freely available speech corpus for the Uzbek language and report
preliminary automatic speech recognition (ASR) results using both the deep
neural network hidden Markov model (DNN-HMM) and end-to-end (E2E)
architectures. The Uzbek speech corpus (USC) comprises 958 different speakers
with a total of 105 hours of transcribed audio recordings. To the best of our
knowledge, this is the first open-source Uzbek speech corpus dedicated to the
ASR task. To ensure high quality, the USC has been manually checked by native
speakers. We first describe the design and development procedures of the USC,
and then explain the conducted ASR experiments in detail. The experimental
results demonstrate promising results for the applicability of the USC for ASR.
Specifically, 18.1% and 17.4% word error rates were achieved on the validation
and test sets, respectively. To enable experiment reproducibility, we share the
USC dataset, pre-trained models, and training recipes in our GitHub repository.
- Abstract(参考訳): 本稿では,ウズベク語用音声コーパスを無償で提供し,ディープニューラルネットワーク隠れマルコフモデル(DNN-HMM)とエンド・ツー・エンド(E2E)アーキテクチャを用いて,予備的自動音声認識(ASR)結果を報告する。
ウズベク語音声コーパス (usc) は958の異なる話者で構成され、105時間の録音音声を収録している。
私たちの知る限りでは、これはASRタスク専用の初のオープンソースのウズベク語コーパスです。
高品質を保証するため、USCはネイティブスピーカーによって手動でチェックされている。
まず,uscの設計と開発手順を説明し,その後に実施したasr実験について詳細に説明する。
実験の結果,USC for ASRの適用性について有望な結果が得られた。
具体的には、検証セットとテストセットで18.1%と17.4%の単語誤り率を達成した。
実験再現性を実現するために、USCデータセット、トレーニング済みモデル、トレーニングレシピをGitHubリポジトリで共有しています。
関連論文リスト
- CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - Exploring SSL Discrete Speech Features for Zipformer-based Contextual ASR [74.38242498079627]
自己教師付き学習(SSL)に基づく離散音声表現は、非常にコンパクトで、ドメイン適応性が高い。
本稿では、Zipformer-Transducer ASRシステムにおいて、WavLMモデルから抽出したSSL離散音声特徴を追加の発話音響コンテキスト特徴として用いた。
論文 参考訳(メタデータ) (2024-09-13T13:01:09Z) - A Large Dataset of Spontaneous Speech with the Accent Spoken in São Paulo for Automatic Speech Recognition Evaluation [0.8929537856623965]
ブラジルポルトガル語の自発音声コーパスについて紹介する。
本稿では,Wav2Vec2-XLSR-53モデルとDistil-Whisperモデルを用いて,予備的な自動音声認識(ASR)結果について報告する。
私たちの知る限りでは、ポルトガルのASRタスクに捧げられた最初の大規模パウリスターノアクセントによる自然発声コーパスである。
論文 参考訳(メタデータ) (2024-09-10T21:45:06Z) - One model to rule them all ? Towards End-to-End Joint Speaker
Diarization and Speech Recognition [50.055765860343286]
本稿では,共同話者ダイアリゼーションと音声認識のための新しい枠組みを提案する。
このフレームワークはSLIDARと呼ばれ、任意の長さの入力を処理でき、任意の数の話者を処理できる。
AMIコーパスからの単調録音実験により, 近接話者と遠距離話者の両方の発話シナリオにおける手法の有効性が確認された。
論文 参考訳(メタデータ) (2023-10-02T23:03:30Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - TALCS: An Open-Source Mandarin-English Code-Switching Corpus and a
Speech Recognition Baseline [0.0]
本稿では,mandarin- English code-switching speech recognition--TALCS corpus の新たなコーパスを提案する。
TALCSコーパス(TALCS corpus)は、TAL教育グループにおけるオンラインの1対1の英語教育シーンに由来する。
私たちの知る限りでは、TALCS corpusは、マンダリン英語のコードスイッチングオープンソース自動音声認識データセットとして世界最大である。
論文 参考訳(メタデータ) (2022-06-27T09:30:25Z) - Joint Speech Recognition and Audio Captioning [37.205642807313545]
室内と屋外の両方で録音された音声サンプルは、しばしば二次音源で汚染される。
自動音声キャプション(AAC)の進展する分野と、徹底的に研究された自動音声認識(ASR)を一体化することを目的としている。
本稿では,ASRタスクとAACタスクのエンドツーエンド共同モデリングのためのいくつかのアプローチを提案する。
論文 参考訳(メタデータ) (2022-02-03T04:42:43Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z) - QASR: QCRI Aljazeera Speech Resource -- A Large Scale Annotated Arabic
Speech Corpus [11.113497373432411]
本稿では,放送領域から収集したアラビア語音声コーパス,QASRについて紹介する。
この多言語音声データセットは、アルジャジーラのニュースチャンネルからクロールされた16kHzでサンプリングされた2000時間の音声を含む。
論文 参考訳(メタデータ) (2021-06-24T13:20:40Z) - A Crowdsourced Open-Source Kazakh Speech Corpus and Initial Speech
Recognition Baseline [4.521450956414864]
カザフ語コーパス(KSC)は、様々な地域や年齢集団の参加者によって話される153,000以上の発声を含む約332時間の音声を含む。
KSCは、様々なカザフ語音声および言語処理アプリケーションを前進させるために開発された、最大の公開データベースである。
論文 参考訳(メタデータ) (2020-09-22T05:57:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。