論文の概要: Neural Speech Synthesis for Estonian
- arxiv url: http://arxiv.org/abs/2010.02636v1
- Date: Tue, 6 Oct 2020 11:37:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 06:56:40.587993
- Title: Neural Speech Synthesis for Estonian
- Title(参考訳): エストニア語のためのニューラル音声合成
- Authors: Liisa R\"atsep, Liisi Piits, Hille Pajupuu, Indrek Hein, Mark
Fi\v{s}el
- Abstract要約: 本報告では、エストニア語のための音声合成を改善するために、タルトゥ大学とエストニア語研究所が共同で行った成果について述べる。
合計92.4時間6話者の音声合成データを収集・公開する(CC-BY-4.0)
ニューラル音声合成のためのソフトウェアとモデルがオープンソース(MITライセンス)としてリリースされた
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This technical report describes the results of a collaboration between the
NLP research group at the University of Tartu and the Institute of Estonian
Language on improving neural speech synthesis for Estonian. The report (written
in Estonian) describes the project results, the summary of which is: (1) Speech
synthesis data from 6 speakers for a total of 92.4 hours is collected and
openly released (CC-BY-4.0). Data available at https://konekorpus.tartunlp.ai
and https://www.eki.ee/litsents/. (2) software and models for neural speech
synthesis is released open-source (MIT license). Available at
https://koodivaramu.eesti.ee/tartunlp/text-to-speech . (3) We ran evaluations
of the new models and compared them to other existing solutions (HMM-based HTS
models from EKI, http://www.eki.ee/heli/, and Google's speech synthesis for
Estonian, accessed via https://translate.google.com). Evaluation includes voice
acceptability MOS scores for sentence-level and longer excerpts, detailed error
analysis and evaluation of the pre-processing module.
- Abstract(参考訳): この技術報告は、エストニア語のための音声合成を改善するために、タルトゥ大学のNLP研究グループとエストニア語研究所が共同で行った成果について述べる。
報告書(エストニア語で書かれている)は、プロジェクトの結果を説明し、(1)6人の話者から合計92.4時間の音声合成データを収集し、公開する(cc-by-4.0)。
https://konekorpus.tartunlp.ai and https://www.eki.ee/litsents/。
2) ニューラル音声合成のためのソフトウェアとモデルがオープンソース(mitライセンス)である。
https://koodivaramu.eesti.ee/tartunlp/text-to-speech で入手できる。
(3) 新たなモデルの評価を行い,既存のソリューションと比較した(EKI, http://www.eki.ee/heli/, Googleのエストニア語音声合成はhttps://translate.google.comからアクセス)。
評価には、文レベルと長い抜粋のための音声受理性MOSスコア、詳細なエラー解析と前処理モジュールの評価が含まれる。
関連論文リスト
- PauseSpeech: Natural Speech Synthesis via Pre-trained Language Model and
Pause-based Prosody Modeling [25.966328901566815]
本稿では,事前学習した言語モデルとポーズに基づく韻律モデルを用いた音声合成システムPuaseSpeechを提案する。
実験の結果,PauseSpeechは自然性において過去のモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-06-13T01:36:55Z) - PolyVoice: Language Models for Speech to Speech Translation [50.31000706309143]
PolyVoiceは音声音声翻訳のための言語モデルに基づくフレームワーク
我々は、完全に教師なしの方法で生成される離散化音声単位を使用する。
音声合成部では、既存のVALL-E Xアプローチを採用し、単位ベース音声言語モデルを構築する。
論文 参考訳(メタデータ) (2023-06-05T15:53:15Z) - Textless Speech-to-Speech Translation With Limited Parallel Data [51.3588490789084]
PFBはテキストレスのS2STモデルをトレーニングするためのフレームワークで、数十時間の並列音声データしか必要としない。
3つのドメインで英語、ドイツ語、マラティー語、英語の翻訳をトレーニングし、評価する。
論文 参考訳(メタデータ) (2023-05-24T17:59:05Z) - ClArTTS: An Open-Source Classical Arabic Text-to-Speech Corpus [3.1925030748447747]
本稿では,古典アラビア語テキスト・トゥ・スペーチ(ClArTTS)のための音声コーパスについて述べる。
音声は、LibriVoxオーディオブックから抽出され、処理され、セグメンテーションされ、手動で書き起こされ、注釈付けされる。
最後のClArTTSコーパスは、40100kHzでサンプリングされた1人の男性スピーカーから約12時間の音声を含む。
論文 参考訳(メタデータ) (2023-02-28T20:18:59Z) - Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers [92.55131711064935]
テキストから音声合成(TTS)のための言語モデリング手法を提案する。
具体的には、市販のニューラルオーディオモデルから派生した離散符号を用いて、ニューラルネットワークモデル(Vall-E)を訓練する。
Vall-Eは、コンテキスト内学習機能を導入し、高品質なパーソナライズされた音声の合成に使用できる。
論文 参考訳(メタデータ) (2023-01-05T15:37:15Z) - Building African Voices [125.92214914982753]
本稿では,低リソースのアフリカ言語を対象とした音声合成について述べる。
我々は,最小限の技術資源で音声合成システムを構築するための汎用的な指示セットを作成する。
研究者や開発者を支援するために、12のアフリカ言語のための音声データ、コード、訓練された音声をリリースします。
論文 参考訳(メタデータ) (2022-07-01T23:28:16Z) - SOMOS: The Samsung Open MOS Dataset for the Evaluation of Neural
Text-to-Speech Synthesis [50.236929707024245]
SOMOSデータセットは、単にニューラルテキスト音声(TTS)サンプルからなる最初の大規模平均世論スコア(MOS)データセットである。
パブリックドメイン音声データセットであるLJ音声の合成発話20Kから成っている。
論文 参考訳(メタデータ) (2022-04-06T18:45:20Z) - A Text-to-Speech Pipeline, Evaluation Methodology, and Initial
Fine-Tuning Results for Child Speech Synthesis [3.2548794659022398]
音声合成は、現在のTTS(text-to-speech)モデルが人間の自然な音声を生成できるようになったため、長い道のりを経ている。
本研究では,子どもの音声データセットを用いて,最先端のニューラルネットワークモデルを構築するためのトレーニングパイプラインを開発し,検証した。
論文 参考訳(メタデータ) (2022-03-22T09:34:21Z) - Byakto Speech: Real-time long speech synthesis with convolutional neural
network: Transfer learning from English to Bangla [0.0]
Byaktaは、音声合成システムへの最初のオープンソースのディープラーニングベースのバイリンガルテキスト(バングラ語と英語)である。
TTSモデルの性能を評価するため,音声認識モデルに基づく自動スコアリング尺度も提案した。
音声品質評価のためのBangla音声合成モデルのためのテストベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2021-05-31T20:39:35Z) - LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition [148.43282526983637]
データコストの低い言語のためのTLSおよびASRシステムであるLSpeechを開発した。
実験言語(英語)と真の低リソース言語(リトアニア語)で実験を行い,LRSpeechの有効性を検証する。
現在、より稀な言語でTSをサポートするために、商用のクラウド音声サービスにLSpeechをデプロイしています。
論文 参考訳(メタデータ) (2020-08-09T08:16:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。