論文の概要: BembaSpeech: A Speech Recognition Corpus for the Bemba Language
- arxiv url: http://arxiv.org/abs/2102.04889v1
- Date: Tue, 9 Feb 2021 15:42:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-10 15:05:25.060272
- Title: BembaSpeech: A Speech Recognition Corpus for the Bemba Language
- Title(参考訳): BembaSpeech:Bemba言語のための音声認識コーパス
- Authors: Claytone Sikasote and Antonios Anastasopoulos
- Abstract要約: 本稿では,Bemba言語で24時間以上の読み上げ音声からなる自動音声認識コーパスであるBembaSpeechを提案する。
我々は,BembaSpeechコーパスのトレーニング部分に事前学習したDeepSpeech英語モデルを微調整することにより,エンドツーエンドのBemba ASRシステムを訓練する。
その結果,このコーパスはベンバのASRシステム構築に有効であることが示唆された。
- 参考スコア(独自算出の注目度): 20.4489424966613
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a preprocessed, ready-to-use automatic speech recognition corpus,
BembaSpeech, consisting over 24 hours of read speech in the Bemba language, a
written but low-resourced language spoken by over 30% of the population in
Zambia. To assess its usefulness for training and testing ASR systems for
Bemba, we train an end-to-end Bemba ASR system by fine-tuning a pre-trained
DeepSpeech English model on the training portion of the BembaSpeech corpus. Our
best model achieves a word error rate (WER) of 54.78%. The results show that
the corpus can be used for building ASR systems for Bemba. The corpus and
models are publicly released at https://github.com/csikasote/BembaSpeech.
- Abstract(参考訳): 本稿では,ザンビアの人口の30%以上が話している,文章の少ない言語であるベンバ語における24時間以上の読み上げ音声からなる,事前処理,使用可能な自動音声認識コーパスであるBembaSpeechについて述べる。
本研究では,Bemba corpus のトレーニング部分に事前学習した DeepSpeech 英語モデルを微調整することにより,Bemba の ASR システムのトレーニングおよびテストに有用性を評価する。
我々の最良のモデルは54.78%の単語誤り率(WER)を達成する。
その結果、このコーパスは bemba の asr システム構築に使用できることがわかった。
コーパスとモデルはhttps://github.com/csikasote/bembaspeechで公開されている。
関連論文リスト
- A Large Dataset of Spontaneous Speech with the Accent Spoken in São Paulo for Automatic Speech Recognition Evaluation [0.8929537856623965]
ブラジルポルトガル語の自発音声コーパスについて紹介する。
本稿では,Wav2Vec2-XLSR-53モデルとDistil-Whisperモデルを用いて,予備的な自動音声認識(ASR)結果について報告する。
私たちの知る限りでは、ポルトガルのASRタスクに捧げられた最初の大規模パウリスターノアクセントによる自然発声コーパスである。
論文 参考訳(メタデータ) (2024-09-10T21:45:06Z) - Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
ほとんどの言語では、音声認識システムを効果的に訓練するのに十分なペア音声とテキストデータがない。
本稿では、教師なしASRシステムを開発するために、音素レキシコンへの依存を除去することを提案する。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - SeamlessM4T: Massively Multilingual & Multimodal Machine Translation [90.71078166159295]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。
我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。
FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文 参考訳(メタデータ) (2023-08-22T17:44:18Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - BASPRO: a balanced script producer for speech corpus collection based on
the genetic algorithm [29.701197643765674]
音声処理モデルの性能は、訓練と評価に使用される音声コーパスの影響を強く受けている。
本研究では,中国語文の音素バランスとリッチなセットを自動的に構築できるBAlanced Script Producer (BASPRO)システムを提案する。
論文 参考訳(メタデータ) (2022-12-11T02:05:30Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - Unsupervised Speech Recognition [55.864459085947345]
wav2vec-Uは、ラベル付きデータなしで音声認識モデルを訓練する方法である。
我々は、自己教師付き音声表現を活用して、ラベルなし音声をセグメント化し、これらの表現から相手の訓練を通して音素へのマッピングを学習する。
より大きな英語のLibrispeechベンチマークでは、wav2vec-Uは、わずか2年前の960時間のラベル付きデータに基づいてトレーニングされた最も優れたシステムに匹敵する、他のテストで5.9の単語エラー率を達成した。
論文 参考訳(メタデータ) (2021-05-24T04:10:47Z) - Construction of a Large-scale Japanese ASR Corpus on TV Recordings [2.28438857884398]
本稿では,音声認識システム(ASR)を学習するための大規模日本語コーパスを提案する。
このコーパスには2000時間以上のスピーチと、日本のテレビの録音とその字幕に書かれた書き起こしが含まれている。
論文 参考訳(メタデータ) (2021-03-26T21:14:12Z) - KoSpeech: Open-Source Toolkit for End-to-End Korean Speech Recognition [1.7955614278088239]
KoSpeechは、ディープラーニングライブラリPyTorchをベースにした、エンドツーエンドの韓国自動音声認識(ASR)ツールキットである。
KsponSpeechコーパスの事前処理手法とベンチマークのベースラインモデルを提案する。
KsponSpeech corpusでは音響モデルのみで10.31%の文字誤り率(CER)を達成した。
論文 参考訳(メタデータ) (2020-09-07T13:25:36Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z) - FT Speech: Danish Parliament Speech Corpus [21.190182627955817]
本稿では,デンマーク議会の会議記録から作成した音声コーパスであるFT Speechを紹介する。
コーパスには、合計434人の話者による1,800時間以上の音声の書き起こしが含まれている。
これは、デンマークの既存の公用語コーパスよりも、持続時間、語彙、自然発話の量において著しく大きい。
論文 参考訳(メタデータ) (2020-05-25T19:51:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。