論文の概要: Few Shot Adaptive Normalization Driven Multi-Speaker Speech Synthesis
- arxiv url: http://arxiv.org/abs/2012.07252v1
- Date: Mon, 14 Dec 2020 04:37:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-09 08:55:15.479020
- Title: Few Shot Adaptive Normalization Driven Multi-Speaker Speech Synthesis
- Title(参考訳): ショット適応正規化駆動型マルチスピーカー音声合成
- Authors: Neeraj Kumar, Srishti Goel, Ankur Narang, Brejesh Lall
- Abstract要約: 複数発話音声合成手法 (FSM-SS) を提案する。
FSM-SSは、未確認者の入力テキストと参照音声サンプルから、その人のスタイルで数ショットで音声を生成することができる。
正規化のアフィンパラメータがエネルギーや基本周波数などの韻律的特徴を捉えるのにどのように役立つかを示す。
- 参考スコア(独自算出の注目度): 18.812696623555855
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The style of the speech varies from person to person and every person
exhibits his or her own style of speaking that is determined by the language,
geography, culture and other factors. Style is best captured by prosody of a
signal. High quality multi-speaker speech synthesis while considering prosody
and in a few shot manner is an area of active research with many real-world
applications. While multiple efforts have been made in this direction, it
remains an interesting and challenging problem. In this paper, we present a
novel few shot multi-speaker speech synthesis approach (FSM-SS) that leverages
adaptive normalization architecture with a non-autoregressive multi-head
attention model. Given an input text and a reference speech sample of an unseen
person, FSM-SS can generate speech in that person's style in a few shot manner.
Additionally, we demonstrate how the affine parameters of normalization help in
capturing the prosodic features such as energy and fundamental frequency in a
disentangled fashion and can be used to generate morphed speech output. We
demonstrate the efficacy of our proposed architecture on multi-speaker VCTK and
LibriTTS datasets, using multiple quantitative metrics that measure generated
speech distortion and MoS, along with speaker embedding analysis of the
generated speech vs the actual speech samples.
- Abstract(参考訳): スピーチのスタイルは人によって異なり、各人は言語、地理、文化、その他の要素によって決定される独自の話し方を示す。
スタイルは信号の韻律によって最もよく捉えられる。
プロソディを考慮した高品質なマルチスピーカ音声合成は,実世界の多くの応用分野において活発な研究分野である。
この方向には複数の努力がなされているが、まだ興味深く、挑戦的な問題である。
本稿では,非自己回帰型マルチヘッドアテンションモデルを用いて適応正規化アーキテクチャを活用する,新規な複数話者音声合成手法(FSM-SS)を提案する。
未確認者の入力テキストと参照音声サンプルが与えられた場合、FSM-SSはその人のスタイルで、数ショットで音声を生成することができる。
さらに,正規化のアフィンパラメータが,エネルギーや基本周波数といった韻律的特徴を不連続に捉えるのにどのように役立ち,モーフィックな音声出力を生成することができるかを示す。
本研究では,複数話者vctkとlibrittsデータセットにおける提案手法の有効性を実証し,生成音声の歪みとmosを測定する複数の定量的指標と,生成音声と実音声の埋め込み分析を行った。
関連論文リスト
- VoiceTextBlender: Augmenting Large Language Models with Speech Capabilities via Single-Stage Joint Speech-Text Supervised Fine-Tuning [64.56272011710735]
大規模言語モデル(LLM)のバックボーンの低ランク適応(LoRA)に対して,新しい単一段階共同音声テキストSFTアプローチを提案する。
従来のSpeechLMの7Bまたは13Bパラメータと比較すると,我々の3Bモデルは様々な音声ベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-23T00:36:06Z) - DART: Disentanglement of Accent and Speaker Representation in Multispeaker Text-to-Speech [14.323313455208183]
マルチレベル変分オートエンコーダ(ML-VAE)とベクトル量子化(VQ)を用いたアンサングル話者とアクセント表現の新しい手法を提案する。
提案手法は、話者とアクセントの特徴を効果的に分離する難しさに対処し、合成音声のよりきめ細かい制御を可能にする。
論文 参考訳(メタデータ) (2024-10-17T08:51:46Z) - Generative Pre-trained Speech Language Model with Efficient Hierarchical Transformer [39.31849739010572]
textbfGenerative textbfPre-trained textbfSpeech textbfTransformer (GPST)を紹介する。
GPSTは効率的な音声言語モデリングのために設計された階層変換器である。
論文 参考訳(メタデータ) (2024-06-03T04:16:30Z) - TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - A Discourse-level Multi-scale Prosodic Model for Fine-grained Emotion
Analysis [19.271542595753267]
本稿では、談話レベルのテキストから詳細な感情分析を行うための適切な韻律的特徴の予測について検討する。
本稿では,これらの2つの韻律的特徴を予測するために,多スケールテキストを利用したD-MPM(D-MPM)を提案する。
論文 参考訳(メタデータ) (2023-09-21T07:45:44Z) - SpeechX: Neural Codec Language Model as a Versatile Speech Transformer [57.82364057872905]
SpeechX は、ゼロショット TTS と様々な音声変換タスクが可能な汎用音声生成モデルである。
実験結果から, ゼロショットTS, ノイズ抑制, ターゲット話者抽出, 音声除去, 背景雑音の有無による音声編集など, 各種タスクにおけるSpeechXの有効性が示された。
論文 参考訳(メタデータ) (2023-08-14T01:01:19Z) - Improving Prosody for Cross-Speaker Style Transfer by Semi-Supervised
Style Extractor and Hierarchical Modeling in Speech Synthesis [37.65745551401636]
音声合成におけるクロススピーカースタイルの伝達は,音源話者から対象話者の音色を合成した音声へスタイルを伝達することを目的としている。
従来の方法では、合成された微細な韻律の特徴は、しばしばソース話者の平均的なスタイルを表す。
コンテントと音色からスタイルを引き離すために, 強度制御型半教師付きスタイル抽出器を提案する。
論文 参考訳(メタデータ) (2023-03-14T08:52:58Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain
Text-to-Speech Synthesis [68.42632589736881]
本稿では,OODカスタム音声の高忠実度ゼロショットスタイル転送に向けたテキスト音声合成モデルGenerSpeechを提案する。
GenerSpeechは、2つのコンポーネントを導入することで、音声のバリエーションをスタイルに依存しない部分とスタイル固有の部分に分解する。
ゼロショット方式の転送について評価したところ,GenerSpeechは音質やスタイルの類似性の観点から,最先端のモデルを上回っていることがわかった。
論文 参考訳(メタデータ) (2022-05-15T08:16:02Z) - Meta-StyleSpeech : Multi-Speaker Adaptive Text-to-Speech Generation [63.561944239071615]
StyleSpeechは、高品質な音声を合成し、新しい話者に適応する新しいTSモデルである。
SALNでは、単一音声音声からでもターゲット話者のスタイルで音声を効果的に合成する。
提案手法をMeta-StyleSpeechに拡張するには,スタイルプロトタイプで訓練された2つの識別器を導入し,エピソード訓練を行う。
論文 参考訳(メタデータ) (2021-06-06T15:34:11Z) - Multi Modal Adaptive Normalization for Audio to Video Generation [18.812696623555855]
本稿では,音声信号と人物の単一画像とを入力として,任意の長さの人物映像を合成するマルチモーダル適応正規化(MAN)アーキテクチャを提案する。
このアーキテクチャでは,マルチモーダル適応正規化,キーポイントヒートマップ予測器,光フロー予測器,およびクラスアクティベーションマップ[58]ベースのレイヤを用いて,表情成分の動きを学習する。
論文 参考訳(メタデータ) (2020-12-14T07:39:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。