論文の概要: Building African Voices
- arxiv url: http://arxiv.org/abs/2207.00688v1
- Date: Fri, 1 Jul 2022 23:28:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-09 12:35:29.770782
- Title: Building African Voices
- Title(参考訳): アフリカの声を作る
- Authors: Perez Ogayo, Graham Neubig, Alan W Black
- Abstract要約: 本稿では,低リソースのアフリカ言語を対象とした音声合成について述べる。
我々は,最小限の技術資源で音声合成システムを構築するための汎用的な指示セットを作成する。
研究者や開発者を支援するために、12のアフリカ言語のための音声データ、コード、訓練された音声をリリースします。
- 参考スコア(独自算出の注目度): 125.92214914982753
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern speech synthesis techniques can produce natural-sounding speech given
sufficient high-quality data and compute resources. However, such data is not
readily available for many languages. This paper focuses on speech synthesis
for low-resourced African languages, from corpus creation to sharing and
deploying the Text-to-Speech (TTS) systems. We first create a set of
general-purpose instructions on building speech synthesis systems with minimum
technological resources and subject-matter expertise. Next, we create new
datasets and curate datasets from "found" data (existing recordings) through a
participatory approach while considering accessibility, quality, and breadth.
We demonstrate that we can develop synthesizers that generate intelligible
speech with 25 minutes of created speech, even when recorded in suboptimal
environments. Finally, we release the speech data, code, and trained voices for
12 African languages to support researchers and developers.
- Abstract(参考訳): 現代の音声合成技術は、十分な品質のデータと計算資源を与えられた自然音声を生成することができる。
しかし、そのようなデータは多くの言語で簡単には利用できない。
本稿では,コーパス作成からtext-to-speech (tts) システムへの展開まで,低資源アフリカ言語のための音声合成について述べる。
まず,最少技術資源と被写体専門知識を備えた音声合成システム構築のための汎用命令セットを作成する。
次に、アクセシビリティ、品質、幅を考慮して、参加型アプローチを通じて、新たなデータセットを作成し、(既存の)データからデータセットをキュレートする。
本稿では,25分間の音声生成が可能な音声合成装置を開発した。
最後に、研究者や開発者をサポートするために12のアフリカの言語のための音声データ、コード、訓練された音声をリリースします。
関連論文リスト
- MunTTS: A Text-to-Speech System for Mundari [18.116359188623832]
MnTTSは,オーストリア・アジア系の低リソースのインド語であるムンダリ(Mundari)のための,エンドツーエンドのテキスト音声合成システムである。
本研究は、音声合成システムを構築するために、データを収集し、処理することで、未表現言語における言語技術のギャップに対処する。
論文 参考訳(メタデータ) (2024-01-28T06:27:17Z) - On decoder-only architecture for speech-to-text and large language model
integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。
我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2023-07-08T06:47:58Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - MParrotTTS: Multilingual Multi-speaker Text to Speech Synthesis in Low
Resource Setting [16.37243395952266]
MParrotTTSは、TTS合成モデルである。
最小限の教師付きデータを持つ新しい言語に適応し、自己教師付きバックボーンのトレーニング中に見えない言語に一般化する。
音声の自然度と話者類似度を並列・言語間合成における6言語について検討した。
論文 参考訳(メタデータ) (2023-05-19T13:43:36Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - Multilingual Multiaccented Multispeaker TTS with RADTTS [21.234787964238645]
RADTTSに基づく多言語・多言語・多話者音声合成モデルを提案する。
7つのアクセントからなるオープンソースデータセットにおいて、任意の話者に対して合成アクセントを制御する能力を示す。
論文 参考訳(メタデータ) (2023-01-24T22:39:04Z) - Improving End-to-end Speech Translation by Leveraging Auxiliary Speech
and Text Data [38.816953592085156]
本稿では,事前学習したエンドツーエンド音声翻訳システムにテキストエンコーダを導入する方法を提案する。
これは、あるモダリティ(すなわち、ソース言語音声)を他の(すなわち、ソース言語テキスト)に適応する能力を高める。
論文 参考訳(メタデータ) (2022-12-04T09:27:56Z) - Automatic Speech Recognition Datasets in Cantonese Language: A Survey
and a New Dataset [85.52036362232688]
私たちのデータセットは、香港のCandoneseオーディオブックから収集された、73.6時間のクリーンな読み上げ音声と書き起こしとの組み合わせで構成されています。
哲学、政治、教育、文化、ライフスタイル、家族の領域を組み合わせて、幅広いトピックをカバーしている。
MDCC と Common Voice zh-HK にマルチデータセット学習を適用することで,強力で堅牢な Cantonese ASR モデルを作成する。
論文 参考訳(メタデータ) (2022-01-07T12:09:15Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。