論文の概要: USC: An Open-Source Uzbek Speech Corpus and Initial Speech Recognition
Experiments
- arxiv url: http://arxiv.org/abs/2107.14419v1
- Date: Fri, 30 Jul 2021 03:39:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-02 18:55:20.410404
- Title: USC: An Open-Source Uzbek Speech Corpus and Initial Speech Recognition
Experiments
- Title(参考訳): usc: オープンソースのウズベク音声コーパスと初期音声認識実験
- Authors: Muhammadjon Musaev, Saida Mussakhojayeva, Ilyos Khujayorov, Yerbolat
Khassanov, Mannon Ochilov, Huseyin Atakan Varol
- Abstract要約: ウズベク語のための無料の音声コーパスを提示する。
本稿では、ディープニューラルネットワーク隠れマルコフモデル(DNN-HMM)とエンド・ツー・エンド(E2E)アーキテクチャの両方を用いて、予備的な自動音声認識(ASR)結果について報告する。
- 参考スコア(独自算出の注目度): 3.8673738158945326
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a freely available speech corpus for the Uzbek language and report
preliminary automatic speech recognition (ASR) results using both the deep
neural network hidden Markov model (DNN-HMM) and end-to-end (E2E)
architectures. The Uzbek speech corpus (USC) comprises 958 different speakers
with a total of 105 hours of transcribed audio recordings. To the best of our
knowledge, this is the first open-source Uzbek speech corpus dedicated to the
ASR task. To ensure high quality, the USC has been manually checked by native
speakers. We first describe the design and development procedures of the USC,
and then explain the conducted ASR experiments in detail. The experimental
results demonstrate promising results for the applicability of the USC for ASR.
Specifically, 18.1% and 17.4% word error rates were achieved on the validation
and test sets, respectively. To enable experiment reproducibility, we share the
USC dataset, pre-trained models, and training recipes in our GitHub repository.
- Abstract(参考訳): 本稿では,ウズベク語用音声コーパスを無償で提供し,ディープニューラルネットワーク隠れマルコフモデル(DNN-HMM)とエンド・ツー・エンド(E2E)アーキテクチャを用いて,予備的自動音声認識(ASR)結果を報告する。
ウズベク語音声コーパス (usc) は958の異なる話者で構成され、105時間の録音音声を収録している。
私たちの知る限りでは、これはASRタスク専用の初のオープンソースのウズベク語コーパスです。
高品質を保証するため、USCはネイティブスピーカーによって手動でチェックされている。
まず,uscの設計と開発手順を説明し,その後に実施したasr実験について詳細に説明する。
実験の結果,USC for ASRの適用性について有望な結果が得られた。
具体的には、検証セットとテストセットで18.1%と17.4%の単語誤り率を達成した。
実験再現性を実現するために、USCデータセット、トレーニング済みモデル、トレーニングレシピをGitHubリポジトリで共有しています。
関連論文リスト
- One model to rule them all ? Towards End-to-End Joint Speaker
Diarization and Speech Recognition [50.055765860343286]
本稿では,共同話者ダイアリゼーションと音声認識のための新しい枠組みを提案する。
このフレームワークはSLIDARと呼ばれ、任意の長さの入力を処理でき、任意の数の話者を処理できる。
AMIコーパスからの単調録音実験により, 近接話者と遠距離話者の両方の発話シナリオにおける手法の有効性が確認された。
論文 参考訳(メタデータ) (2023-10-02T23:03:30Z) - Prompting the Hidden Talent of Web-Scale Speech Models for Zero-Shot
Task Generalization [61.60501633397704]
本稿では,最近提案されたWebスケール音声モデルのWhisperの創発的能力について検討する。
タスク固有のプロンプトを、別の大規模モデルを活用するか、あるいはデフォルトのプロンプトで特別なトークンを操作するだけで設計する。
実験の結果,提案手法は3つのゼロショットタスクで10%から45%向上し,SotAの教師付きモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-05-18T16:32:58Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - TALCS: An Open-Source Mandarin-English Code-Switching Corpus and a
Speech Recognition Baseline [0.0]
本稿では,mandarin- English code-switching speech recognition--TALCS corpus の新たなコーパスを提案する。
TALCSコーパス(TALCS corpus)は、TAL教育グループにおけるオンラインの1対1の英語教育シーンに由来する。
私たちの知る限りでは、TALCS corpusは、マンダリン英語のコードスイッチングオープンソース自動音声認識データセットとして世界最大である。
論文 参考訳(メタデータ) (2022-06-27T09:30:25Z) - Joint Speech Recognition and Audio Captioning [37.205642807313545]
室内と屋外の両方で録音された音声サンプルは、しばしば二次音源で汚染される。
自動音声キャプション(AAC)の進展する分野と、徹底的に研究された自動音声認識(ASR)を一体化することを目的としている。
本稿では,ASRタスクとAACタスクのエンドツーエンド共同モデリングのためのいくつかのアプローチを提案する。
論文 参考訳(メタデータ) (2022-02-03T04:42:43Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z) - QASR: QCRI Aljazeera Speech Resource -- A Large Scale Annotated Arabic
Speech Corpus [11.113497373432411]
本稿では,放送領域から収集したアラビア語音声コーパス,QASRについて紹介する。
この多言語音声データセットは、アルジャジーラのニュースチャンネルからクロールされた16kHzでサンプリングされた2000時間の音声を含む。
論文 参考訳(メタデータ) (2021-06-24T13:20:40Z) - A Crowdsourced Open-Source Kazakh Speech Corpus and Initial Speech
Recognition Baseline [4.521450956414864]
カザフ語コーパス(KSC)は、様々な地域や年齢集団の参加者によって話される153,000以上の発声を含む約332時間の音声を含む。
KSCは、様々なカザフ語音声および言語処理アプリケーションを前進させるために開発された、最大の公開データベースである。
論文 参考訳(メタデータ) (2020-09-22T05:57:15Z) - KoSpeech: Open-Source Toolkit for End-to-End Korean Speech Recognition [1.7955614278088239]
KoSpeechは、ディープラーニングライブラリPyTorchをベースにした、エンドツーエンドの韓国自動音声認識(ASR)ツールキットである。
KsponSpeechコーパスの事前処理手法とベンチマークのベースラインモデルを提案する。
KsponSpeech corpusでは音響モデルのみで10.31%の文字誤り率(CER)を達成した。
論文 参考訳(メタデータ) (2020-09-07T13:25:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。