論文の概要: Style-Label-Free: Cross-Speaker Style Transfer by Quantized VAE and
Speaker-wise Normalization in Speech Synthesis
- arxiv url: http://arxiv.org/abs/2212.06397v1
- Date: Tue, 13 Dec 2022 06:26:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 13:33:14.932471
- Title: Style-Label-Free: Cross-Speaker Style Transfer by Quantized VAE and
Speaker-wise Normalization in Speech Synthesis
- Title(参考訳): 音声合成におけるVAEの量子化と話者の正規化によるスタイルラベルなし:クロススピーカスタイルの伝達
- Authors: Chunyu Qiang, Peng Yang, Hao Che, Xiaorui Wang, Zhongyuan Wang
- Abstract要約: 音声合成におけるクロススピーカースタイルの伝達は、音源話者からターゲット話者の音色を合成した音声へスタイルを伝達することを目的としている。
これまでのほとんどのアプローチはスタイルラベルを持つデータに依存していたが、手動でアノテートされたラベルは高価であり、常に信頼できるとは限らない。
そこで我々は,話者間通信方式であるStyle-Label-Freeを提案する。
- 参考スコア(独自算出の注目度): 37.19266733527613
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-speaker style transfer in speech synthesis aims at transferring a style
from source speaker to synthesised speech of a target speaker's timbre. Most
previous approaches rely on data with style labels, but manually-annotated
labels are expensive and not always reliable. In response to this problem, we
propose Style-Label-Free, a cross-speaker style transfer method, which can
realize the style transfer from source speaker to target speaker without style
labels. Firstly, a reference encoder structure based on quantized variational
autoencoder (Q-VAE) and style bottleneck is designed to extract discrete style
representations. Secondly, a speaker-wise batch normalization layer is proposed
to reduce the source speaker leakage. In order to improve the style extraction
ability of the reference encoder, a style invariant and contrastive data
augmentation method is proposed. Experimental results show that the method
outperforms the baseline. We provide a website with audio samples.
- Abstract(参考訳): 音声合成におけるクロススピーカースタイルの伝達は、音源話者からターゲット話者の音色合成音声へスタイルを伝達することを目的としている。
従来のアプローチのほとんどはスタイルラベルのデータに依存しているが、手動で注釈を付けるラベルは高価であり、必ずしも信頼できるものではない。
そこで,本稿では,音源話者から対象話者へのスタイル転送を実現するクロススピーカー方式であるstyle-label-freeを提案する。
まず、量子化変分オートエンコーダ(q-vae)とスタイルボトルネックに基づく参照エンコーダ構造により、離散的なスタイル表現を抽出する。
次に,話者単位のバッチ正規化層を提案し,音源リークを低減する。
参照エンコーダのスタイル抽出能力を向上させるために,スタイル不変およびコントラストデータ拡張手法を提案する。
実験の結果,本手法はベースラインよりも優れていた。
オーディオサンプルをWebサイトに提供する。
関連論文リスト
- Pureformer-VC: Non-parallel One-Shot Voice Conversion with Pure Transformer Blocks and Triplet Discriminative Training [3.9306467064810438]
ワンショット音声変換は、ターゲット話者の音色を1つの音声サンプルで一致させるために、任意の音源音声の音色を変更することを目的としている。
既存のスタイル転送型VC法は, 音声表現の絡み合いに頼っていた。
本稿では, Conformer ブロックを用いてアンタングル化されたエンコーダを構築する Pureformer-VC と, Zipformer ブロックを用いてスタイル転送デコーダを構築する Zipformer-VC を提案する。
論文 参考訳(メタデータ) (2024-09-03T07:21:19Z) - StyleSpeech: Self-supervised Style Enhancing with VQ-VAE-based
Pre-training for Expressive Audiobook Speech Synthesis [63.019962126807116]
音声ブックの合成音声の表現的品質は、一般化されたモデルアーキテクチャとアンバランスなスタイル分布によって制限される。
本稿では,VQ-VAEに基づく音声合成のための事前学習による自己教師付きスタイル向上手法を提案する。
論文 参考訳(メタデータ) (2023-12-19T14:13:26Z) - Speech-to-Speech Translation with Discrete-Unit-Based Style Transfer [53.72998363956454]
個別の自己教師付き表現を用いた音声音声合成(S2ST)は顕著な精度を達成している。
高品質な話者並列データの不足は、翻訳中にスタイル転送を学習する上での課題となる。
我々は、個別の自己教師付き音声表現と音色単位に基づいて、スタイル変換機能を備えたS2STパイプラインを設計する。
論文 参考訳(メタデータ) (2023-09-14T09:52:08Z) - Stylebook: Content-Dependent Speaking Style Modeling for Any-to-Any
Voice Conversion using Only Speech Data [2.6217304977339473]
本稿では,ターゲット発話からリッチなスタイル情報を抽出し,ソース音声コンテンツに効率的に転送する手法を提案する。
提案手法では,自己教師付き学習(SSL)モデルを用いた注意機構を提案する。
実験結果から,提案手法と拡散型生成モデルを組み合わせることで,任意の音声変換タスクにおいて,話者の類似性が向上できることが示唆された。
論文 参考訳(メタデータ) (2023-09-06T05:33:54Z) - ParaGuide: Guided Diffusion Paraphrasers for Plug-and-Play Textual Style
Transfer [57.6482608202409]
テキストスタイル転送は、意味を保ちながらテキストのスタイル特性を変換するタスクである。
任意のスタイルに柔軟に適応できる汎用型転送のための新しい拡散型フレームワークを提案する。
本研究では,人的評価と自動評価の両面から,Enron Email Corpusの手法を検証するとともに,形式性,感情,さらにはオーサシップスタイルの伝達にも優れることを示す。
論文 参考訳(メタデータ) (2023-08-29T17:36:02Z) - Improving Prosody for Cross-Speaker Style Transfer by Semi-Supervised
Style Extractor and Hierarchical Modeling in Speech Synthesis [37.65745551401636]
音声合成におけるクロススピーカースタイルの伝達は,音源話者から対象話者の音色を合成した音声へスタイルを伝達することを目的としている。
従来の方法では、合成された微細な韻律の特徴は、しばしばソース話者の平均的なスタイルを表す。
コンテントと音色からスタイルを引き離すために, 強度制御型半教師付きスタイル抽出器を提案する。
論文 参考訳(メタデータ) (2023-03-14T08:52:58Z) - Towards Cross-speaker Reading Style Transfer on Audiobook Dataset [43.99232352300273]
話者間移動は、与えられた参照音声の音声スタイルを抽出することを目的としている。
オーディオブックのデータセットは ローカルな韻律とグローバルなジャンルの両方が特徴です
論文 参考訳(メタデータ) (2022-08-10T14:08:35Z) - Using multiple reference audios and style embedding constraints for
speech synthesis [68.62945852651383]
提案モデルでは,複数の参照音声を用いて音声の自然さとコンテンツ品質を向上させることができる。
モデルは、スタイル類似性のABX選好テストにおいてベースラインモデルよりも優れている。
論文 参考訳(メタデータ) (2021-10-09T04:24:29Z) - Cross-speaker Style Transfer with Prosody Bottleneck in Neural Speech
Synthesis [8.603535906880937]
マルチスタイルおよび表現型音声合成を大規模に適用するには,クロススピーカ方式の転送が不可欠である。
既存のスタイル転送メソッドは、まだ実際のアプリケーションのニーズよりはるかに遅れています。
本稿では, 明瞭な韻律ボトルネックを考慮した話者間通信方式のテキスト音声合成モデルを提案する。
論文 参考訳(メタデータ) (2021-07-27T02:43:57Z) - Exploring Contextual Word-level Style Relevance for Unsupervised Style
Transfer [60.07283363509065]
教師なしのスタイル転送は、元のコンテンツを保持しながら入力文のスタイルを変更することを目的としている。
本稿では,各出力語がターゲットスタイルに関連性があることを活かした,新たな注目シーケンス・ツー・シーケンスモデルを提案する。
実験結果から,提案手法は転送精度とコンテンツ保存の両面から,最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2020-05-05T10:24:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。