Fugu-MT 論文翻訳(概要): Laughter Synthesis: Combining Seq2seq modeling with Transfer Learning

論文の概要: Laughter Synthesis: Combining Seq2seq modeling with Transfer Learning

arxiv url: http://arxiv.org/abs/2008.09483v1
Date: Thu, 20 Aug 2020 09:37:28 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-27 03:04:31.222371
Title: Laughter Synthesis: Combining Seq2seq modeling with Transfer Learning
Title（参考訳）: 笑い合成:seq2seqモデリングと転送学習を組み合わせる
Authors: No\'e Tits, Kevin El Haddad, Thierry Dutoit
Abstract要約: 本稿では,シーケンス・ツー・シーケンスTTS合成システムに基づく音声笑い合成システムを提案する。我々は、深層学習モデルを訓練することで、翻訳学習を活用して、アノテーションから音声と笑いの両方を生成することを学習する。
参考スコア（独自算出の注目度）: 6.514358246805895
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite the growing interest for expressive speech synthesis, synthesis of nonverbal expressions is an under-explored area. In this paper we propose an audio laughter synthesis system based on a sequence-to-sequence TTS synthesis system. We leverage transfer learning by training a deep learning model to learn to generate both speech and laughs from annotations. We evaluate our model with a listening test, comparing its performance to an HMM-based laughter synthesis one and assess that it reaches higher perceived naturalness. Our solution is a first step towards a TTS system that would be able to synthesize speech with a control on amusement level with laughter integration.
Abstract（参考訳）: 表現的音声合成への関心が高まっているにもかかわらず、非言語表現の合成は未探索領域である。本稿では,時系列TS合成システムに基づく音声笑い合成システムを提案する。我々は、深層学習モデルを訓練して伝達学習を活用し、アノテーションから音声と笑いの両方を生成することを学習する。本研究では,HMMに基づく笑い合成法と比較して聴力試験を行い,高い自然度を達成できることを確認した。我々のソリューションは、笑い統合による娯楽レベルの制御で音声を合成できるTSシステムに向けた第一歩です。

関連論文リスト

CosyVoice 2: Scalable Streaming Speech Synthesis with Large Language Models [74.80386066714229]
改良されたストリーミング音声合成モデルCosyVoice 2を提案する。具体的には,音声トークンのコードブック利用を改善するために,有限スカラー量子化を導入する。我々は,様々な合成シナリオをサポートするために,チャンク対応因果フローマッチングモデルを開発した。
論文参考訳（メタデータ） (2024-12-13T12:59:39Z)
Robust AI-Synthesized Speech Detection Using Feature Decomposition Learning and Synthesizer Feature Augmentation [52.0893266767733]
本稿では,特徴分解を利用して合成者非依存のコンテンツ特徴を学習する頑健なディープフェイク音声検出手法を提案する。異なる合成器特性に対するモデルのロバスト性を高めるために,合成器の特徴増強戦略を提案する。
論文参考訳（メタデータ） (2024-11-14T03:57:21Z)
Making Flow-Matching-Based Zero-Shot Text-to-Speech Laugh as You Like [49.2096391012794]
ELaTEはゼロショットのTSであり、短い音声プロンプトに基づいて、あらゆる話者の自然な笑い声を生成することができる。本研究では,条件付きフローマッチングに基づくゼロショットTSに基づくモデルを開発した。 ELaTE は従来のモデルに比べて格段に高い品質と制御性で笑い音声を生成することができることを示す。
論文参考訳（メタデータ） (2024-02-12T02:58:10Z)
Improved Child Text-to-Speech Synthesis through Fastpitch-based Transfer Learning [3.5032870024762386]
本稿では,Fastpitch text-to-speech(TTS)モデルを用いて,高品質な合成子音声を生成する手法を提案する。このアプローチでは、子話を扱うためにマルチスピーカーTSモデルを微調整する。実子声と合成子声の間に有意な相関が認められた客観的評価を行った。
論文参考訳（メタデータ） (2023-11-07T19:31:44Z)
Diff-TTSG: Denoising probabilistic integrated speech and gesture synthesis [19.35266496960533]
本稿では,Diff-TTSGと呼ばれる拡散型確率モデルについて述べる。本稿では,統合音声とジェスチャー合成システムを評価するための,一様・多様主観的一様・多様主観的テストのセットについて述べる。
論文参考訳（メタデータ） (2023-06-15T18:02:49Z)
How Generative Spoken Language Modeling Encodes Noisy Speech: Investigation from Phonetics to Syntactics [33.070158866023]
生成音声言語モデリング(GSLM)は、音声分析と合成のための音素ではなく、データから派生した学習シンボルを使用する。本稿では,GSLMの音声・音声レベルにおける符号化と復号化の有効性について述べる。
論文参考訳（メタデータ） (2023-06-01T14:07:19Z)
A Vector Quantized Approach for Text to Speech Synthesis on Real-World Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文参考訳（メタデータ） (2023-02-08T17:34:32Z)
Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers [92.55131711064935]
テキストから音声合成(TTS)のための言語モデリング手法を提案する。具体的には、市販のニューラルオーディオモデルから派生した離散符号を用いて、ニューラルネットワークモデル(Vall-E)を訓練する。 Vall-Eは、コンテキスト内学習機能を導入し、高品質なパーソナライズされた音声の合成に使用できる。
論文参考訳（メタデータ） (2023-01-05T15:37:15Z)
LaughNet: synthesizing laughter utterances from waveform silhouettes and a single laughter example [55.10864476206503]
我々は、波形シルエットを入力として、笑いを合成するLaughNetと呼ばれるモデルを提案する。その結果,LaughNetは笑い声を適度な品質で合成し,トレーニング例の特徴を保てることがわかった。
論文参考訳（メタデータ） (2021-10-11T00:45:07Z)
On the Interplay Between Sparsity, Naturalness, Intelligibility, and Prosody in Speech Synthesis [102.80458458550999]
スパーティイとその後の合成音声に対する効果のトレードオフについて検討する。以上の結果から, 終末TTSモデルに限らず, プルーニングされたTTSモデルでも, 自然性や知性に富んだ合成音声を生成できることが示唆された。
論文参考訳（メタデータ） (2021-10-04T02:03:28Z)
Integrated Speech and Gesture Synthesis [26.267738299876314]
テキスト音声合成と共同音声合成は、これまで2つの異なる研究コミュニティによって別々の領域として扱われてきた。統合音声・ジェスチャー合成(ISG)と呼ばれる新しい問題である,2つのモーダルを1つのモデルで合成することを提案する。モデルは、パイプラインシステムと比較して、より高速な合成時間とパラメータ数でこれを実現することができる。
論文参考訳（メタデータ） (2021-08-25T19:04:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。