論文の概要: Luganda Text-to-Speech Machine
- arxiv url: http://arxiv.org/abs/2005.05447v1
- Date: Mon, 11 May 2020 21:33:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-04 19:24:56.617432
- Title: Luganda Text-to-Speech Machine
- Title(参考訳): ルガンダ音声合成機
- Authors: Irene Nandutu, Ernest Mwebaze
- Abstract要約: ウガンダでは、ルガンダは最も話されている母国語であり、非公式なコミュニケーションや正式なビジネス取引に使われる。
本研究では、ルガンダ語の構造と構造を分析し、ルガンダ・TSを提案して開発した。
このシステムは、ローカルソースのLuganda言語テキストとオーディオを使用して構築、訓練された。
- 参考スコア(独自算出の注目度): 1.6042394978941517
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In Uganda, Luganda is the most spoken native language. It is used for
communication in informal as well as formal business transactions. The
development of technology startups globally related to TTS has mainly been with
languages like English, French, etc. These are added in TTS engines by Google,
Microsoft among others, allowing developers in these regions to innovate TTS
products. Luganda is not supported because the language is not built and
trained on these engines. In this study, we analyzed the Luganda language
structure and constructions and then proposed and developed a Luganda TTS. The
system was built and trained using locally sourced Luganda language text and
audio. The engine is now able to capture text and reads it aloud. We tested the
accuracy using MRT and MOS. MRT and MOS tests results are quite good with MRT
having better results. The results general score was 71%. This study will
enhance previous solutions to NLP gaps in Uganda, as well as provide raw data
such that other research in this area can take place.
- Abstract(参考訳): ウガンダではルガンダ語が最も話されている言語である。
正式な取引だけでなく、非公式の通信にも用いられる。
TTSに関連するテクノロジースタートアップの開発は、主に英語、フランス語などの言語で行われている。
これらは、GoogleやMicrosoftなどによってTSエンジンに追加され、これらの領域の開発者はTS製品を革新することができる。
この言語はこれらのエンジンで構築され、訓練されていないため、lugandaはサポートされていない。
本研究では,luganda言語の構造と構造を分析し,luganda ttsの提案と開発を行った。
このシステムはローカルソースのLuganda言語テキストとオーディオを使って構築、訓練された。
エンジンはテキストをキャプチャして読み上げることができるようになった。
MRTとMOSを用いて精度を検証した。
MRTとMOSテストの結果は、MRTがより良い結果を得るのに非常によい。
総得点は71%であった。
本研究は, ウガンダにおけるNLPギャップに対する過去の解決方法を強化するとともに, この分野における他の研究が行えるように生データを提供する。
関連論文リスト
- Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects [72.18753241750964]
Yorub'aは、約4700万人の話者を持つアフリカの言語である。
アフリカ語のためのNLP技術開発への最近の取り組みは、彼らの標準方言に焦点を当てている。
我々は、このギャップを埋めるために、新しい高品質のパラレルテキストと音声コーパスを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:38:04Z) - Luganda Speech Intent Recognition for IoT Applications [0.3374875022248865]
この研究プロジェクトは、IoTアプリケーションのためのLuganda音声意図分類システムを開発することを目的としている。
このプロジェクトはRaspberry Pi、Wio Terminal、ESP32ノードなどのハードウェアコンポーネントをマイクロコントローラとして使用している。
この研究の最終的な目的は、Raspberry Pi上にデプロイされた自然言語処理(NLP)モデルを通じて達成されたLugandaを使用した音声制御を可能にすることである。
論文 参考訳(メタデータ) (2024-05-16T10:14:00Z) - Unsupervised Sign Language Translation and Generation [72.01216288379072]
教師なし手話翻訳・生成ネットワーク(USLNet)を導入する。
USLNetは、並列手話データなしで、豊富な単一モダリティ(テキストとビデオ)データから学習する。
可変長テキストとビデオシーケンスの整合性の問題に対処するスライディングウインドウ手法を提案する。
論文 参考訳(メタデータ) (2024-02-12T15:39:05Z) - End-to-End Speech-to-Text Translation: A Survey [0.0]
音声からテキストへの翻訳(英: Speech-to-text translation)とは、ある言語の音声信号を他の言語のテキストに変換するタスクである。
機械翻訳(MT)モデルと同様に、自動音声認識(ASR)は従来のST翻訳において重要な役割を果たす。
論文 参考訳(メタデータ) (2023-12-02T07:40:32Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Cross-modality Data Augmentation for End-to-End Sign Language Translation [66.46877279084083]
エンドツーエンド手話翻訳(SLT)は、手話動画を中間表現なしで直接音声言語テキストに変換することを目的としている。
署名ビデオとテキスト間のモダリティのギャップとラベル付きデータの不足のため、これは難しい課題だった。
本稿では,強力な光沢からテキストへの翻訳機能をエンドツーエンドの手話翻訳に変換するための,新しいクロスモダリティデータ拡張(XmDA)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-18T16:34:18Z) - Learning to Speak from Text: Zero-Shot Multilingual Text-to-Speech with
Unsupervised Text Pretraining [65.30528567491984]
本稿では,対象言語に対するテキストのみのデータを用いたゼロショット多言語TS法を提案する。
テキストのみのデータを使用することで、低リソース言語向けのTSシステムの開発が可能になる。
評価の結果,文字誤り率が12%未満のゼロショットTSは,見当たらない言語では高い知能性を示した。
論文 参考訳(メタデータ) (2023-01-30T00:53:50Z) - Building a Parallel Corpus and Training Translation Models Between
Luganda and English [0.0]
ルガンダ語と英語の対訳文が41,070である並列コーパスを構築した。
我々のモデルは、最初のLuganda- English Neural Machine Translationモデルである。
私たちが構築したバイリンガルデータセットは、一般公開される予定です。
論文 参考訳(メタデータ) (2023-01-07T03:26:09Z) - Low-Resource End-to-end Sanskrit TTS using Tacotron2, WaveGlow and
Transfer Learning [0.0]
我々は,サンスクリットにおける自然音声を低資源環境下で合成するために,限られたサンスクリットデータを用いた英語事前学習型タコトロン2モデルを微調整した。
実験の結果,サンスクリット語話者37名を対象に,総合的なMOS3.38を達成できた。
論文 参考訳(メタデータ) (2022-12-07T10:15:34Z) - BJTU-WeChat's Systems for the WMT22 Chat Translation Task [66.81525961469494]
本稿では,WMT'22チャット翻訳タスクに対して,北京地東大学とWeChat AIを共同で提案する。
Transformerに基づいて、いくつかの有効な変種を適用します。
本システムでは,0.810と0.946のCOMETスコアを達成している。
論文 参考訳(メタデータ) (2022-11-28T02:35:04Z) - The Makerere Radio Speech Corpus: A Luganda Radio Corpus for Automatic
Speech Recognition [1.089334659959217]
Makerere人工知能研究所は、ルガンダの音声コーパスを155時間リリースした。
これはサハラ以南のアフリカで最初の公開無線データセットである。
我々の知る限り、これはサハラ以南のアフリカで初めて公開されている電波データセットである。
論文 参考訳(メタデータ) (2022-06-20T14:19:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。