論文の概要: TTS-Portuguese Corpus: a corpus for speech synthesis in Brazilian
Portuguese
- arxiv url: http://arxiv.org/abs/2005.05144v4
- Date: Sat, 29 Jan 2022 19:28:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-04 19:45:27.460614
- Title: TTS-Portuguese Corpus: a corpus for speech synthesis in Brazilian
Portuguese
- Title(参考訳): TTS-Portuguese Corpus:ブラジルポルトガル語における音声合成コーパス
- Authors: Edresson Casanova, Arnaldo Candido Junior, Christopher Shulby,
Frederico Santos de Oliveira, Jo\~ao Paulo Teixeira, Moacir Antonelli Ponti,
Sandra Maria Aluisio
- Abstract要約: この作業は、新しいデータセットの形で、ブラジルポルトガル語のための公開リソースを作成することで構成されている。
RTISI-LAボコーダを搭載したタコトロン2は最高の性能を示し、4.03 MOSの値を得た。
- 参考スコア(独自算出の注目度): 0.7237361833933973
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech provides a natural way for human-computer interaction. In particular,
speech synthesis systems are popular in different applications, such as
personal assistants, GPS applications, screen readers and accessibility tools.
However, not all languages are on the same level when in terms of resources and
systems for speech synthesis. This work consists of creating publicly available
resources for Brazilian Portuguese in the form of a novel dataset along with
deep learning models for end-to-end speech synthesis. Such dataset has 10.5
hours from a single speaker, from which a Tacotron 2 model with the RTISI-LA
vocoder presented the best performance, achieving a 4.03 MOS value. The
obtained results are comparable to related works covering English language and
the state-of-the-art in Portuguese.
- Abstract(参考訳): 音声は人間とコンピュータの対話に自然な手段を提供する。
特に音声合成システムは、パーソナルアシスタント、GPSアプリケーション、スクリーンリーダー、アクセシビリティツールなど、さまざまなアプリケーションで人気がある。
しかし、音声合成の資源やシステムの観点から、すべての言語が同じレベルにあるわけではない。
この作業は、エンドツーエンドの音声合成のためのディープラーニングモデルとともに、新しいデータセットの形で、ブラジルポルトガル語のための公開リソースを作成することで構成される。
このようなデータセットは単一話者から10.5時間離れており、rtisi-la vocoderのタコトロン2モデルが最高性能を示し、4.03 mos の値に達した。
結果は、英語とポルトガル語の最先端をカバーした関連作品に匹敵する。
関連論文リスト
- Improving Speech Emotion Recognition in Under-Resourced Languages via Speech-to-Speech Translation with Bootstrapping Data Selection [49.27067541740956]
音声感情認識(SER)は、人間とコンピュータの自然な相互作用が可能な汎用AIエージェントを開発する上で重要な要素である。
英語や中国語以外の言語でラベル付きデータが不足しているため、堅牢な多言語SERシステムの構築は依然として困難である。
本稿では,低SERリソース言語におけるSERの性能向上のための手法を提案する。
論文 参考訳(メタデータ) (2024-09-17T08:36:45Z) - FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs [63.8261207950923]
FunAudioLLMは、人間と大規模言語モデル(LLM)の間の自然な音声相互作用を強化するために設計されたモデルファミリーである
中心となる2つの革新的なモデルとして、多言語音声認識、感情認識、音声イベント検出を処理するSenseVoiceと、複数の言語、音色、話し方、話者識別を制御した自然言語生成を容易にするCosyVoiceがある。
SenseVoiceとCosyVoiceに関連するモデルは、GitHubでリリースされたトレーニング、推論、微調整コードとともに、ModelscopeとHuggingfaceでオープンソース化されている。
論文 参考訳(メタデータ) (2024-07-04T16:49:02Z) - On decoder-only architecture for speech-to-text and large language model
integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。
我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2023-07-08T06:47:58Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - MParrotTTS: Multilingual Multi-speaker Text to Speech Synthesis in Low
Resource Setting [16.37243395952266]
MParrotTTSは、TTS合成モデルである。
最小限の教師付きデータを持つ新しい言語に適応し、自己教師付きバックボーンのトレーニング中に見えない言語に一般化する。
音声の自然度と話者類似度を並列・言語間合成における6言語について検討した。
論文 参考訳(メタデータ) (2023-05-19T13:43:36Z) - Virtuoso: Massive Multilingual Speech-Text Joint Semi-Supervised
Learning for Text-To-Speech [37.942466944970704]
本稿では,テキスト音声合成(TTS)モデルのための多言語共同学習フレームワークであるVirtuosoを提案する。
様々な音声およびテキストデータからTSモデルをトレーニングするために、教師なし(TTSおよびASRデータ)と教師なし(非教師なし)のデータセットを扱うように、異なるトレーニングスキームが設計されている。
実験により、Virtuosoで訓練された多言語TSモデルは、見かけの言語におけるベースラインモデルよりも、自然性や知性に優れることが示された。
論文 参考訳(メタデータ) (2022-10-27T14:09:48Z) - Mix and Match: An Empirical Study on Training Corpus Composition for
Polyglot Text-To-Speech (TTS) [3.57486761615991]
モノリンガルコーパスのみを用いたマルチリンガルニューラルテキスト音声合成(NTTS)モデルのトレーニングが,音声クローンベースのポリグロットNTTSシステム構築の一般的な方法として登場した。
学習コーパスの構成が多言語音声合成の質にどのように影響するかを理解することが不可欠である。
論文 参考訳(メタデータ) (2022-07-04T15:23:06Z) - Building African Voices [125.92214914982753]
本稿では,低リソースのアフリカ言語を対象とした音声合成について述べる。
我々は,最小限の技術資源で音声合成システムを構築するための汎用的な指示セットを作成する。
研究者や開発者を支援するために、12のアフリカ言語のための音声データ、コード、訓練された音声をリリースします。
論文 参考訳(メタデータ) (2022-07-01T23:28:16Z) - Brazilian Portuguese Speech Recognition Using Wav2vec 2.0 [0.26097841018267615]
本研究は,公開音声データのみを用いた公開音声認識システムの開発について述べる。
最終モデルは、単語誤り率11.95%(共通音声データセット)を示す。
これはブラジルポルトガル語の最もオープンな音声認識モデルよりも13%少ない。
論文 参考訳(メタデータ) (2021-07-23T18:54:39Z) - Bootstrap an end-to-end ASR system by multilingual training, transfer
learning, text-to-text mapping and synthetic audio [8.510792628268824]
限られたデータリソースでの音声認識のブートストラップは、長い間活発な研究領域だった。
本稿では,低資源環境下でRNN-Transducerに基づく音声認識システム(ASR)をブートストラップする様々な手法の有効性について検討する。
実験では,ASR後のテキスト・テキスト・マッピングと合成音声を用いた多言語モデルからの変換学習が付加的な改善をもたらすことを示した。
論文 参考訳(メタデータ) (2020-11-25T13:11:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。