論文の概要: Phonemic Representation and Transcription for Speech to Text
Applications for Under-resourced Indigenous African Languages: The Case of
Kiswahili
- arxiv url: http://arxiv.org/abs/2210.16537v1
- Date: Sat, 29 Oct 2022 09:04:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 18:37:45.860437
- Title: Phonemic Representation and Transcription for Speech to Text
Applications for Under-resourced Indigenous African Languages: The Case of
Kiswahili
- Title(参考訳): アフリカ先住民語の音声からテキストへの音声の音声表現と転写--キスワヒリを事例として
- Authors: Ebbie Awino, Lilian Wanzare, Lawrence Muchemi, Barack Wanjawa, Edward
Ombui, Florence Indede, Owen McOnyango, Benard Okal
- Abstract要約: キスワヒリを含むいくつかのアフリカ先住民の言語が技術的に不足していることが判明した。
本稿では,Kiswahili音声コーパスの転写過程と展開について検討する。
これは、CMU Sphinx 音声認識ツールボックスを使用して作成された ASR モデルのために、更新された Kiswahili 音素辞書を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Building automatic speech recognition (ASR) systems is a challenging task,
especially for under-resourced languages that need to construct corpora nearly
from scratch and lack sufficient training data. It has emerged that several
African indigenous languages, including Kiswahili, are technologically
under-resourced. ASR systems are crucial, particularly for the hearing-impaired
persons who can benefit from having transcripts in their native languages.
However, the absence of transcribed speech datasets has complicated efforts to
develop ASR models for these indigenous languages. This paper explores the
transcription process and the development of a Kiswahili speech corpus, which
includes both read-out texts and spontaneous speech data from native Kiswahili
speakers. The study also discusses the vowels and consonants in Kiswahili and
provides an updated Kiswahili phoneme dictionary for the ASR model that was
created using the CMU Sphinx speech recognition toolbox, an open-source speech
recognition toolkit. The ASR model was trained using an extended phonetic set
that yielded a WER and SER of 18.87% and 49.5%, respectively, an improved
performance than previous similar research for under-resourced languages.
- Abstract(参考訳): 自動音声認識(ASR)システムの構築は、特にスクラッチからコーパスを構築する必要があり、十分なトレーニングデータが不足しているアンダーリソース言語では、難しい作業である。
キスワヒリを含むいくつかのアフリカ先住民の言語は技術的に不足している。
ASRシステムは非常に重要であり、特に聴覚障害者は母国語で書き起こしの恩恵を受けることができる。
しかし、転写された音声データセットの欠如は、これらの先住民言語のためのASRモデルの開発に複雑な努力を払っている。
本稿では,kiswahili母語話者の読み出しテキストと自発音声データの両方を含む,kiswahili音声コーパスの書き起こし過程と開発について検討する。
この研究はまた、kiswahiliの母音と子音についても論じ、オープンソースの音声認識ツールキットであるcmu sphinx音声認識ツールボックスを使用して作成されたasrモデル用に更新されたkiswahili音素辞書を提供する。
ASRモデルは、WERとSERをそれぞれ18.87%、49.5%とする拡張音素セットを使用して訓練された。
関連論文リスト
- VoxHakka: A Dialectally Diverse Multi-speaker Text-to-Speech System for Taiwanese Hakka [10.784402571965867]
VoxHakka(ヴォックスハッカ、VoxHakka)は、台湾の言語であるHakka向けに設計された音声合成システムである。
VoxHakkaは音声合成における自然性と精度,低リアルタイム化を実現している。
論文 参考訳(メタデータ) (2024-09-03T02:37:34Z) - Enabling ASR for Low-Resource Languages: A Comprehensive Dataset Creation Approach [0.6445605125467574]
本研究では,オーディオブックからASRトレーニングデータセットを生成するための新しいパイプラインを提案する。
これらのオーディオブックの共通構造は、音声セグメントの幅が広いため、ユニークな課題である。
本稿では,音声を対応するテキストと効果的に整合させ,それをASR訓練に適した長さに分割する手法を提案する。
論文 参考訳(メタデータ) (2024-06-03T15:38:40Z) - Model Adaptation for ASR in low-resource Indian Languages [28.02064068964355]
近年,wav2vec2のような自己教師付き学習(SSL)ベースの音響モデルとWhisperのような大規模多言語学習によって,音声認識(ASR)の性能が大幅に向上している。
オーディオとテキストの両方の可用性が制限されている低リソース言語には、依然として大きな課題があります。
ここで多くの適応と微調整のテクニックが適用され、十分なリソースを持つ類似言語を利用することで、データの低リソースの性質を克服できるのです。
言語における音響データの豊富さによって、大きなテキストのみのコーパスの必要性が軽減される場合もあります。
論文 参考訳(メタデータ) (2023-07-16T05:25:51Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Building African Voices [125.92214914982753]
本稿では,低リソースのアフリカ言語を対象とした音声合成について述べる。
我々は,最小限の技術資源で音声合成システムを構築するための汎用的な指示セットを作成する。
研究者や開発者を支援するために、12のアフリカ言語のための音声データ、コード、訓練された音声をリリースします。
論文 参考訳(メタデータ) (2022-07-01T23:28:16Z) - ASR data augmentation in low-resource settings using cross-lingual
multi-speaker TTS and cross-lingual voice conversion [49.617722668505834]
提案手法は,モデル学習中に1つの話者のみを用いて音声合成と音声変換を行い,ASRシステムの改善を可能にする。
対象言語における1つの実話者のみを用いてデータ拡張法を用いて、有望なASRトレーニング結果を得ることが可能である。
論文 参考訳(メタデータ) (2022-03-29T11:55:30Z) - Discovering Phonetic Inventories with Crosslingual Automatic Speech
Recognition [71.49308685090324]
本稿では,未知言語における音声認識における異なる要因(モデルアーキテクチャ,音韻モデル,音声表現の種類)の影響について検討する。
独特な音、類似した音、トーン言語は、音声による在庫発見の大きな課題である。
論文 参考訳(メタデータ) (2022-01-26T22:12:55Z) - Automatic Speech Recognition Datasets in Cantonese Language: A Survey
and a New Dataset [85.52036362232688]
私たちのデータセットは、香港のCandoneseオーディオブックから収集された、73.6時間のクリーンな読み上げ音声と書き起こしとの組み合わせで構成されています。
哲学、政治、教育、文化、ライフスタイル、家族の領域を組み合わせて、幅広いトピックをカバーしている。
MDCC と Common Voice zh-HK にマルチデータセット学習を適用することで,強力で堅牢な Cantonese ASR モデルを作成する。
論文 参考訳(メタデータ) (2022-01-07T12:09:15Z) - Fast Development of ASR in African Languages using Self Supervised
Speech Representation Learning [13.7466513616362]
本稿では,2020年6月のAfrican Master of Machine Intelligence (AMMI)における非公式なコラボレーションの結果について述べる。
モバイルアプリケーションを用いた音声データ収集に関する一連の講義と研究室の後、少数の学生と講師は、Wolof、Ga、Somaliの3つの言語のための自動音声認識(ASR)プロジェクトに取り組んだ。
本稿では,データ収集方法と,少量 (1h) の書き起こし音声を訓練データとして開発したASRシステムについて述べる。
論文 参考訳(メタデータ) (2021-03-16T11:37:03Z) - OkwuGb\'e: End-to-End Speech Recognition for Fon and Igbo [0.015863809575305417]
本稿では,Fon の最先端 ASR モデルと Igbo のベンチマーク ASR モデルについて述べる。
本稿では,各言語の包括的言語分析を行い,両言語間のエンドツーエンド,ディープニューラルネットワークに基づく音声認識モデルの作成について述べる。
論文 参考訳(メタデータ) (2021-03-13T18:02:44Z) - LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition [148.43282526983637]
データコストの低い言語のためのTLSおよびASRシステムであるLSpeechを開発した。
実験言語(英語)と真の低リソース言語(リトアニア語)で実験を行い,LRSpeechの有効性を検証する。
現在、より稀な言語でTSをサポートするために、商用のクラウド音声サービスにLSpeechをデプロイしています。
論文 参考訳(メタデータ) (2020-08-09T08:16:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。