論文の概要: DurFlex-EVC: Duration-Flexible Emotional Voice Conversion with Parallel
Generation
- arxiv url: http://arxiv.org/abs/2401.08095v1
- Date: Tue, 16 Jan 2024 03:39:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 15:15:38.877088
- Title: DurFlex-EVC: Duration-Flexible Emotional Voice Conversion with Parallel
Generation
- Title(参考訳): DurFlex-EVC:並列生成による持続的フレキシブル感情音声変換
- Authors: Hyoung-Seok Oh, Sang-Hoon Lee, Deok-Hyun Cho, Seong-Whan Lee
- Abstract要約: 感情音声変換(EVC)は、話者の声の感情的トーンを変化させようとするものである。
EVCの最近の進歩は、ピッチと持続時間の同時モデリングに関係している。
この研究は、並列音声生成に焦点を移す。
- 参考スコア(独自算出の注目度): 37.35829410807451
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emotional voice conversion (EVC) seeks to modify the emotional tone of a
speaker's voice while preserving the original linguistic content and the
speaker's unique vocal characteristics. Recent advancements in EVC have
involved the simultaneous modeling of pitch and duration, utilizing the
potential of sequence-to-sequence (seq2seq) models. To enhance reliability and
efficiency in conversion, this study shifts focus towards parallel speech
generation. We introduce Duration-Flexible EVC (DurFlex-EVC), which integrates
a style autoencoder and unit aligner. Traditional models, while incorporating
self-supervised learning (SSL) representations that contain both linguistic and
paralinguistic information, have neglected this dual nature, leading to reduced
controllability. Addressing this issue, we implement cross-attention to
synchronize these representations with various emotions. Additionally, a style
autoencoder is developed for the disentanglement and manipulation of style
elements. The efficacy of our approach is validated through both subjective and
objective evaluations, establishing its superiority over existing models in the
field.
- Abstract(参考訳): 感情音声変換(EVC)は、元の言語内容と話者の独特の声質を保ちながら、話者の声の感情的トーンを変更しようとするものである。
EVCの最近の進歩は、Sequence-to-Sequence(seq2seq)モデルのポテンシャルを利用して、ピッチと持続時間の同時モデリングに関わっている。
変換の信頼性と効率を高めるため,本研究は並列音声生成に焦点を移す。
本研究では,Duration-Flexible EVC (DurFlex-EVC) について紹介する。
従来のモデルは、言語情報とパラ言語情報の両方を含む自己教師付き学習(SSL)表現を取り入れているが、この二重性を無視しており、制御性が低下している。
この問題に対処するため、これらの表現を様々な感情と同期させるクロスアテンションを実装した。
さらに、スタイル要素の切り離しと操作のためのスタイルオートエンコーダも開発されている。
このアプローチの有効性は主観的評価と客観的評価の両方を通して検証され、この分野の既存モデルに対する優位性が確立される。
関連論文リスト
- Enriching Multimodal Sentiment Analysis through Textual Emotional Descriptions of Visual-Audio Content [56.62027582702816]
マルチモーダル・センティメント・アナリティクスは、テキスト、音声、視覚データを融合することで人間の感情を解き放つことを目指している。
しかし、音声やビデオの表現の中で微妙な感情的なニュアンスを認識することは、恐ろしい挑戦だ。
テキストの感情記述に基づくプログレッシブ・フュージョン・フレームワークであるDEVAを紹介する。
論文 参考訳(メタデータ) (2024-12-12T11:30:41Z) - Controlling Emotion in Text-to-Speech with Natural Language Prompts [29.013577423045255]
本稿では,感情に富んだテキストの繰り返しから派生した埋め込みを前提としたシステムを提案する。
話者とプロンプト埋め込みの合同表現は、トランスフォーマーベースアーキテクチャ内のいくつかの点で統合される。
本手法は感情音声とテキストデータセットを融合して学習し,モデルの一般化能力を高めるため,各訓練におけるプロンプトを変化させる。
論文 参考訳(メタデータ) (2024-06-10T15:58:42Z) - Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z) - Textless Speech Emotion Conversion using Decomposed and Discrete
Representations [49.55101900501656]
我々は、音声を、コンテンツ単位、F0、話者、感情からなる離散的、非絡み合いの学習表現に分解する。
まず、内容単位を対象の感情に翻訳し、その単位に基づいて韻律的特徴を予測することによって、音声内容を変更する。
最後に、予測された表現をニューラルボコーダに入力して音声波形を生成する。
論文 参考訳(メタデータ) (2021-11-14T18:16:42Z) - Decoupling Speaker-Independent Emotions for Voice Conversion Via
Source-Filter Networks [14.55242023708204]
本研究では,話者に依存しない感情特徴の適切なフィルタリングを実現するために,ソースフィルタに基づく感情VCモデル(SFEVC)を提案する。
我々のSFEVCモデルはマルチチャネルエンコーダと感情分離エンコーダと1つのデコーダで構成されている。
論文 参考訳(メタデータ) (2021-10-04T03:14:48Z) - An Attribute-Aligned Strategy for Learning Speech Representation [57.891727280493015]
属性選択機構によってこれらの問題に柔軟に対処できる音声表現を導出する属性整合学習戦略を提案する。
具体的には、音声表現を属性依存ノードに分解する層式表現可変オートエンコーダ(LR-VAE)を提案する。
提案手法は,IDのないSER上での競合性能と,無感情SV上でのより良い性能を実現する。
論文 参考訳(メタデータ) (2021-06-05T06:19:14Z) - Limited Data Emotional Voice Conversion Leveraging Text-to-Speech:
Two-stage Sequence-to-Sequence Training [91.95855310211176]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変えることを目的としている。
本研究では,感情音声データ量の少ない連続音声変換のための新しい2段階学習戦略を提案する。
提案フレームワークはスペクトル変換と韻律変換の両方が可能であり、客観的評価と主観評価の両方において最先端のベースラインを大幅に改善する。
論文 参考訳(メタデータ) (2021-03-31T04:56:14Z) - Seen and Unseen emotional style transfer for voice conversion with a new
emotional speech dataset [84.53659233967225]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、音声中の感情的韻律を変換することを目的としている。
可変自動符号化ワッサーシュタイン生成対向ネットワーク(VAW-GAN)に基づく新しいフレームワークを提案する。
提案するフレームワークは,ベースラインフレームワークを一貫して上回り,優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-10-28T07:16:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。