論文の概要: DurFlex-EVC: Duration-Flexible Emotional Voice Conversion with Parallel Generation
- arxiv url: http://arxiv.org/abs/2401.08095v3
- Date: Thu, 8 Aug 2024 23:54:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-12 20:40:55.648144
- Title: DurFlex-EVC: Duration-Flexible Emotional Voice Conversion with Parallel Generation
- Title(参考訳): DurFlex-EVC:並列生成による持続的フレキシブル感情音声変換
- Authors: Hyung-Seok Oh, Sang-Hoon Lee, Deok-Hyeon Cho, Seong-Whan Lee,
- Abstract要約: スタイルオートエンコーダとユニット整合器を統合した長寿命フレキシブルECVを提案する。
アプローチの有効性は、主観的および客観的評価によって検証されている。
- 参考スコア(独自算出の注目度): 34.19748360507656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emotional voice conversion involves modifying the pitch, spectral envelope, and other acoustic characteristics of speech to match a desired emotional state while maintaining the speaker's identity. Recent advances in EVC involve simultaneously modeling pitch and duration by exploiting the potential of sequence-to-sequence models. In this study, we focus on parallel speech generation to increase the reliability and efficiency of conversion. We introduce a duration-flexible EVC (DurFlex-EVC) that integrates a style autoencoder and a unit aligner. The previous variable-duration parallel generation model required text-to-speech alignment. We consider self-supervised model representation and discrete speech units to be the core of our parallel generation. The style autoencoder promotes content style disentanglement by separating the source style of the input features and applying them with the target style. The unit aligner encodes unit-level features by modeling emotional context. Furthermore, we enhance the style of the features with a hierarchical stylize encoder and generate high-quality Mel-spectrograms with a diffusion-based generator. The effectiveness of the approach has been validated through subjective and objective evaluations and has been demonstrated to be superior to baseline models.
- Abstract(参考訳): 感情的音声変換は、話者のアイデンティティを維持しながら、所望の感情状態に合うように、ピッチ、スペクトルエンベロープ、その他の音声特性を変更することを含む。
EVCの最近の進歩は、シーケンス・ツー・シーケンス・モデルのポテンシャルを利用してピッチと持続時間を同時にモデル化することである。
本研究では,変換の信頼性と効率を高めるために,並列音声生成に着目した。
本稿では,スタイルオートエンコーダとユニット整合器を統合した持続フレキシブルECV(DurFlex-EVC)を提案する。
以前の可変デュレーション並列生成モデルでは、テキストと音声のアライメントが必要だった。
自己教師付きモデル表現と離散音声単位を並列生成のコアとみなす。
スタイルオートエンコーダは、入力特徴のソーススタイルを分離し、ターゲットスタイルで適用することにより、コンテンツスタイルのゆがみを促進する。
単位整合器は感情コンテキストをモデル化して単位レベルの特徴を符号化する。
さらに、階層型スタイリズエンコーダを用いて特徴のスタイルを強化し、拡散型ジェネレータを用いて高品質なメルスペクトルを生成する。
提案手法の有効性は主観的,客観的評価によって検証され,ベースラインモデルよりも優れていることが実証された。
関連論文リスト
- CTEFM-VC: Zero-Shot Voice Conversion Based on Content-Aware Timbre Ensemble Modeling and Flow Matching [7.144608815694702]
CTEFM-VCは、発話を言語内容と音色表現に分解するフレームワークである。
音色モデリング能力と生成音声の自然性を高めるため,文脈を考慮した音色アンサンブルモデリング手法を提案する。
論文 参考訳(メタデータ) (2024-11-04T12:23:17Z) - Takin-VC: Zero-shot Voice Conversion via Jointly Hybrid Content and Memory-Augmented Context-Aware Timbre Modeling [14.98368067290024]
Takin-VCは、新しいゼロショットVCフレームワークである。
実験結果から,Takin-VC法は最先端のゼロショットVCシステムを上回ることがわかった。
論文 参考訳(メタデータ) (2024-10-02T09:07:33Z) - Non-autoregressive real-time Accent Conversion model with voice cloning [0.0]
我々は音声クローンを用いたリアルタイムアクセント変換のための非自己回帰モデルを開発した。
このモデルは入力L2音声に基づいて最小レイテンシでネイティブなL1音声を生成する。
このモデルは、話者の声の音色、性別、アクセントをリアルタイムで保存し、クローンし、変更することができる。
論文 参考訳(メタデータ) (2024-05-21T19:07:26Z) - StyleSpeech: Self-supervised Style Enhancing with VQ-VAE-based
Pre-training for Expressive Audiobook Speech Synthesis [63.019962126807116]
音声ブックの合成音声の表現的品質は、一般化されたモデルアーキテクチャとアンバランスなスタイル分布によって制限される。
本稿では,VQ-VAEに基づく音声合成のための事前学習による自己教師付きスタイル向上手法を提案する。
論文 参考訳(メタデータ) (2023-12-19T14:13:26Z) - TokenSplit: Using Discrete Speech Representations for Direct, Refined,
and Transcript-Conditioned Speech Separation and Recognition [51.565319173790314]
TokenSplit は Transformer アーキテクチャを使用するシーケンス・ツー・シーケンス・エンコーダ・デコーダモデルである。
また,本モデルでは,書き起こし条件付けの有無にかかわらず,分離の点で優れた性能を発揮することを示す。
また、自動音声認識(ASR)の性能を測定し、音声合成の音声サンプルを提供し、我々のモデルの有用性を実証する。
論文 参考訳(メタデータ) (2023-08-21T01:52:01Z) - SeqDiffuSeq: Text Diffusion with Encoder-Decoder Transformers [50.90457644954857]
本研究では,拡散モデルを用いてシーケンス・ツー・シーケンスのテキスト生成を行う。
シーケンス・ツー・シーケンス生成のためのテキスト拡散モデルであるSeqDiffuSeqを提案する。
実験結果は、テキストの品質と推論時間の観点から、シーケンス・ツー・シーケンス生成の優れた性能を示す。
論文 参考訳(メタデータ) (2022-12-20T15:16:24Z) - End-to-end Audio-visual Speech Recognition with Conformers [65.30276363777514]
ResNet-18とConvolution-augmented Transformer(Conformer)に基づくハイブリッドCTC/Attentionモデルを提案する。
特に、オーディオおよびビジュアルエンコーダは、生のピクセルとオーディオ波形から直接特徴を抽出することを学びます。
提案手法は, 音声のみ, 視覚のみ, および視聴覚実験において, 最先端の性能を高めることを実証する。
論文 参考訳(メタデータ) (2021-02-12T18:00:08Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。