論文の概要: DurFlex-EVC: Duration-Flexible Emotional Voice Conversion with Parallel
Generation
- arxiv url: http://arxiv.org/abs/2401.08095v2
- Date: Thu, 7 Mar 2024 08:40:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 17:05:17.360763
- Title: DurFlex-EVC: Duration-Flexible Emotional Voice Conversion with Parallel
Generation
- Title(参考訳): DurFlex-EVC:並列生成による持続的フレキシブル感情音声変換
- Authors: Hyung-Seok Oh, Sang-Hoon Lee, Deok-Hyeon Cho, Seong-Whan Lee
- Abstract要約: 感情音声変換(EVC)は、話者の声の感情的トーンを変化させようとするものである。
EVCの最近の進歩は、ピッチと持続時間の同時モデリングに関係している。
この研究は、並列音声生成に焦点を移す。
- 参考スコア(独自算出の注目度): 37.35829410807451
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emotional voice conversion (EVC) seeks to modify the emotional tone of a
speaker's voice while preserving the original linguistic content and the
speaker's unique vocal characteristics. Recent advancements in EVC have
involved the simultaneous modeling of pitch and duration, utilizing the
potential of sequence-to-sequence (seq2seq) models. To enhance reliability and
efficiency in conversion, this study shifts focus towards parallel speech
generation. We introduce Duration-Flexible EVC (DurFlex-EVC), which integrates
a style autoencoder and unit aligner. Traditional models, while incorporating
self-supervised learning (SSL) representations that contain both linguistic and
paralinguistic information, have neglected this dual nature, leading to reduced
controllability. Addressing this issue, we implement cross-attention to
synchronize these representations with various emotions. Additionally, a style
autoencoder is developed for the disentanglement and manipulation of style
elements. The efficacy of our approach is validated through both subjective and
objective evaluations, establishing its superiority over existing models in the
field.
- Abstract(参考訳): 感情音声変換(EVC)は、元の言語内容と話者の独特の声質を保ちながら、話者の声の感情的トーンを変更しようとするものである。
EVCの最近の進歩は、Sequence-to-Sequence(seq2seq)モデルのポテンシャルを利用して、ピッチと持続時間の同時モデリングに関わっている。
変換の信頼性と効率を高めるため,本研究は並列音声生成に焦点を移す。
本研究では,Duration-Flexible EVC (DurFlex-EVC) について紹介する。
従来のモデルは、言語情報とパラ言語情報の両方を含む自己教師付き学習(SSL)表現を取り入れているが、この二重性を無視しており、制御性が低下している。
この問題に対処するため、これらの表現を様々な感情と同期させるクロスアテンションを実装した。
さらに、スタイル要素の切り離しと操作のためのスタイルオートエンコーダも開発されている。
このアプローチの有効性は主観的評価と客観的評価の両方を通して検証され、この分野の既存モデルに対する優位性が確立される。
関連論文リスト
- Non-autoregressive real-time Accent Conversion model with voice cloning [0.0]
我々は音声クローンを用いたリアルタイムアクセント変換のための非自己回帰モデルを開発した。
このモデルは入力L2音声に基づいて最小レイテンシでネイティブなL1音声を生成する。
このモデルは、話者の声の音色、性別、アクセントをリアルタイムで保存し、クローンし、変更することができる。
論文 参考訳(メタデータ) (2024-05-21T19:07:26Z) - FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio [45.71036380866305]
我々は、音声を聴く人々の過程を抽象化し、意味のある手がかりを抽出し、単一の音声から動的に音声に一貫性のある発話顔を生成する。
ひとつはアイデンティティ、コンテンツ、感情をエンタングルドオーディオから効果的に切り離すことであり、もう一つは動画内多様性とビデオ間の一貫性を維持することである。
本稿では,3つのトレーニング可能なアダプタと凍結遅延拡散モデルとのフレキシブルな統合を含む,制御可能なコヒーレントフレーム生成を提案する。
論文 参考訳(メタデータ) (2024-03-04T09:59:48Z) - Decoupling Speaker-Independent Emotions for Voice Conversion Via
Source-Filter Networks [14.55242023708204]
本研究では,話者に依存しない感情特徴の適切なフィルタリングを実現するために,ソースフィルタに基づく感情VCモデル(SFEVC)を提案する。
我々のSFEVCモデルはマルチチャネルエンコーダと感情分離エンコーダと1つのデコーダで構成されている。
論文 参考訳(メタデータ) (2021-10-04T03:14:48Z) - An Improved StarGAN for Emotional Voice Conversion: Enhancing Voice
Quality and Data Augmentation [8.017817904347964]
本稿では,感情に依存しない感情の特徴を分離する2段階のトレーニングプロセスとともに,新たなStarGANフレームワークを提案する。
提案モデルでは, 客観評価と主観評価の両面において, 歪みの両面から良好な結果が得られる。
エンドツーエンドの音声感情認識のためのデータ拡張実験において、提案したStarGANモデルは、Micro-F1では2%、Macro-F1では5%の増加を達成する。
論文 参考訳(メタデータ) (2021-07-18T04:28:47Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Limited Data Emotional Voice Conversion Leveraging Text-to-Speech:
Two-stage Sequence-to-Sequence Training [91.95855310211176]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変えることを目的としている。
本研究では,感情音声データ量の少ない連続音声変換のための新しい2段階学習戦略を提案する。
提案フレームワークはスペクトル変換と韻律変換の両方が可能であり、客観的評価と主観評価の両方において最先端のベースラインを大幅に改善する。
論文 参考訳(メタデータ) (2021-03-31T04:56:14Z) - VAW-GAN for Disentanglement and Recomposition of Emotional Elements in
Speech [91.92456020841438]
変分自己符号化ワッサーシュタイン生成対向ネットワーク(VAW-GAN)による音声の感情要素のアンタングル化と再分解について検討する。
本稿では,2つのVAW-GANパイプライン,1つはスペクトル変換,もう1つは韻律変換を含む話者依存型ECVフレームワークを提案する。
提案手法の有効性を客観評価と主観評価の両方で検証した。
論文 参考訳(メタデータ) (2020-11-03T08:49:33Z) - Seen and Unseen emotional style transfer for voice conversion with a new
emotional speech dataset [84.53659233967225]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、音声中の感情的韻律を変換することを目的としている。
可変自動符号化ワッサーシュタイン生成対向ネットワーク(VAW-GAN)に基づく新しいフレームワークを提案する。
提案するフレームワークは,ベースラインフレームワークを一貫して上回り,優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-10-28T07:16:18Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。