論文の概要: The evaluation of a code-switched Sepedi-English automatic speech
recognition system
- arxiv url: http://arxiv.org/abs/2403.07947v1
- Date: Mon, 11 Mar 2024 15:11:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 17:27:51.999542
- Title: The evaluation of a code-switched Sepedi-English automatic speech
recognition system
- Title(参考訳): コードスイッチト・セペディ英語自動音声の評価
認識システム
- Authors: Amanda Phaladi and Thipe Modipa
- Abstract要約: 本稿では,セペディ・イングリッシュ方式の自動音声認識システムの評価について述べる。
このエンドツーエンドシステムは、Sepedi Prompted Code Switching corpus と CTC アプローチを用いて開発された。
しかし、このモデルは41.9%という最低のWERを生み出したが、セペディ文字のみを認識するという課題に直面した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech technology is a field that encompasses various techniques and tools
used to enable machines to interact with speech, such as automatic speech
recognition (ASR), spoken dialog systems, and others, allowing a device to
capture spoken words through a microphone from a human speaker. End-to-end
approaches such as Connectionist Temporal Classification (CTC) and
attention-based methods are the most used for the development of ASR systems.
However, these techniques were commonly used for research and development for
many high-resourced languages with large amounts of speech data for training
and evaluation, leaving low-resource languages relatively underdeveloped. While
the CTC method has been successfully used for other languages, its
effectiveness for the Sepedi language remains uncertain. In this study, we
present the evaluation of the Sepedi-English code-switched automatic speech
recognition system. This end-to-end system was developed using the Sepedi
Prompted Code Switching corpus and the CTC approach. The performance of the
system was evaluated using both the NCHLT Sepedi test corpus and the Sepedi
Prompted Code Switching corpus. The model produced the lowest WER of 41.9%,
however, the model faced challenges in recognizing the Sepedi only text.
- Abstract(参考訳): 音声技術は、自動音声認識(ASR)や音声対話システムなど、機械が音声と対話できるようにするための様々な技術やツールを含む分野であり、デバイスは人間の話者からマイクを通して音声をキャプチャすることができる。
Connectionist Temporal Classification (CTC) や attention-based method といったエンドツーエンドのアプローチは、ASRシステムの開発に最もよく使われている。
しかし、これらの手法は、訓練と評価のために大量の音声データを持つ多くの高リソース言語の研究と開発に一般的に用いられ、低リソース言語は比較的未開発のままである。
CTC法は他の言語でうまく使われているが、セペディ語の有効性は未だ不明である。
本研究では,セペディ・イングリッシュ方式の自動音声認識システムの評価について述べる。
このエンドツーエンドシステムは、Sepedi Prompted Code Switching corpus と CTC アプローチを用いて開発された。
NCHLT Sepedi test corpus と Sepedi Prompted Code Switching corpus を用いて評価を行った。
しかし、このモデルは41.9%という最低のWERを生み出したが、セペディ文字のみを認識するという課題に直面した。
関連論文リスト
- Leveraging Language ID to Calculate Intermediate CTC Loss for Enhanced
Code-Switching Speech Recognition [5.3545957730615905]
ASRモデルのエンコーダの中間層に言語識別情報を導入する。
言語切替処理におけるモデルの混乱を軽減し,言語区別を暗黙的に意味する音響的特徴を生成することを目的としている。
論文 参考訳(メタデータ) (2023-12-15T07:46:35Z) - DiariST: Streaming Speech Translation with Speaker Diarization [53.595990270899414]
本稿では,最初のストリーミングSTとSDソリューションであるDiariSTを提案する。
ニューラルトランスデューサベースのストリーミングSTシステム上に構築され、トークンレベルのシリアライズされた出力トレーニングとtベクタを統合している。
重なり合う音声のストリーミング推論を行いながら,Whisperに基づくオフラインシステムと比較して強いSTとSD能力を実現する。
論文 参考訳(メタデータ) (2023-09-14T19:33:27Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - Language-agnostic Code-Switching in Sequence-To-Sequence Speech
Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。
本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。
さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文 参考訳(メタデータ) (2022-10-17T12:15:57Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Integrating Knowledge in End-to-End Automatic Speech Recognition for
Mandarin-English Code-Switching [41.88097793717185]
Code-Switching (CS) は多言語コミュニティでよく見られる言語現象である。
本稿では,マンダリン・イングリッシュCS音声におけるエンドツーエンド音声認識の検討について述べる。
論文 参考訳(メタデータ) (2021-12-19T17:31:15Z) - Advancing CTC-CRF Based End-to-End Speech Recognition with Wordpieces
and Conformers [33.725831884078744]
提案したCTC-CRFフレームワークは、ハイブリッドアプローチのデータ効率とエンドツーエンドアプローチの単純さを継承する。
本稿では,最近開発されたワードピースモデリングユニットとコンフォーマーニューラルネットワークをCTC-CRFに適用する手法について検討する。
論文 参考訳(メタデータ) (2021-07-07T04:12:06Z) - A review of on-device fully neural end-to-end automatic speech
recognition algorithms [20.469868150587075]
デバイス上での各種自動音声認識アルゴリズムとその最適化手法について検討する。
完全ニューラルネットワークのエンドツーエンド音声認識アルゴリズムが提案されている。
従来のアルゴリズムと比較して,それらの構造,性能,利点を広く論じる。
論文 参考訳(メタデータ) (2020-12-14T22:18:08Z) - Acoustics Based Intent Recognition Using Discovered Phonetic Units for
Low Resource Languages [51.0542215642794]
本稿では,検出された音素単位を意図分類に用いる新しい音響に基づく意図認識システムを提案する。
我々は,2つの言語群 – インディカル言語とロマンス言語 – に対する2つの異なる意図認識タスクの結果を提示する。
論文 参考訳(メタデータ) (2020-11-07T00:35:31Z) - NAUTILUS: a Versatile Voice Cloning System [44.700803634034486]
NAUTILUSは、任意のソーススピーカのテキスト入力または参照発話から、ターゲット音声で音声を生成することができる。
バックプロパゲーションアルゴリズムに基づいて、ターゲット話者の未転写音声を用いて、未知の声をクローンすることができる。
最新技術であるTSやVCシステムと同等のクオリティを達成し、翻訳されていない音声を5分でクローンする。
論文 参考訳(メタデータ) (2020-05-22T05:00:20Z) - Meta-Transfer Learning for Code-Switched Speech Recognition [72.84247387728999]
低リソース環境下でのコード切替音声認識システムにおける学習を伝達するメタトランスファー学習法を提案する。
本モデルでは,コードスイッチングデータに最適化を条件付けることにより,個々の言語を識別し,混合言語音声をよりよく認識できるように変換する。
論文 参考訳(メタデータ) (2020-04-29T14:27:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。