論文の概要: An Improved StarGAN for Emotional Voice Conversion: Enhancing Voice
Quality and Data Augmentation
- arxiv url: http://arxiv.org/abs/2107.08361v1
- Date: Sun, 18 Jul 2021 04:28:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-20 14:43:07.081228
- Title: An Improved StarGAN for Emotional Voice Conversion: Enhancing Voice
Quality and Data Augmentation
- Title(参考訳): 感情音声変換のための改良されたStarGAN:声質向上とデータ拡張
- Authors: Xiangheng He, Junjie Chen, Georgios Rizos, Bj\"orn W. Schuller
- Abstract要約: 本稿では,感情に依存しない感情の特徴を分離する2段階のトレーニングプロセスとともに,新たなStarGANフレームワークを提案する。
提案モデルでは, 客観評価と主観評価の両面において, 歪みの両面から良好な結果が得られる。
エンドツーエンドの音声感情認識のためのデータ拡張実験において、提案したStarGANモデルは、Micro-F1では2%、Macro-F1では5%の増加を達成する。
- 参考スコア(独自算出の注目度): 8.017817904347964
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emotional Voice Conversion (EVC) aims to convert the emotional style of a
source speech signal to a target style while preserving its content and speaker
identity information. Previous emotional conversion studies do not disentangle
emotional information from emotion-independent information that should be
preserved, thus transforming it all in a monolithic manner and generating audio
of low quality, with linguistic distortions. To address this distortion
problem, we propose a novel StarGAN framework along with a two-stage training
process that separates emotional features from those independent of emotion by
using an autoencoder with two encoders as the generator of the Generative
Adversarial Network (GAN). The proposed model achieves favourable results in
both the objective evaluation and the subjective evaluation in terms of
distortion, which reveals that the proposed model can effectively reduce
distortion. Furthermore, in data augmentation experiments for end-to-end speech
emotion recognition, the proposed StarGAN model achieves an increase of 2% in
Micro-F1 and 5% in Macro-F1 compared to the baseline StarGAN model, which
indicates that the proposed model is more valuable for data augmentation.
- Abstract(参考訳): Emotional Voice Conversion (EVC) は、その内容と話者識別情報を保存しながら、ソース音声信号の感情スタイルをターゲットスタイルに変換することを目的としている。
これまでの感情変換研究は、保存すべき感情に依存しない情報から感情情報を歪めないため、これらすべてをモノリシックな方法で変換し、低品質の音声を言語的な歪みで生成する。
この歪み問題に対処するために,2つのエンコーダを持つオートエンコーダをGAN(Generative Adversarial Network)のジェネレータとして使用することにより,感情から独立した感情特徴を分離する2段階のトレーニングプロセスとともに,新たなStarGANフレームワークを提案する。
提案モデルは, 客観的評価と主観的評価の両方において, 歪みの観点から好適な結果が得られるため, 提案モデルが歪みを効果的に低減できることを示す。
さらに、エンドツーエンドの音声感情認識のためのデータ拡張実験において、提案したStarGANモデルは、ベースラインのStarGANモデルと比較して、Micro-F1では2%、Macro-F1では5%の増加を達成する。
関連論文リスト
- DurFlex-EVC: Duration-Flexible Emotional Voice Conversion with Parallel
Generation [37.35829410807451]
感情音声変換(EVC)は、話者の声の感情的トーンを変化させようとするものである。
EVCの最近の進歩は、ピッチと持続時間の同時モデリングに関係している。
この研究は、並列音声生成に焦点を移す。
論文 参考訳(メタデータ) (2024-01-16T03:39:35Z) - EmoDiarize: Speaker Diarization and Emotion Identification from Speech
Signals using Convolutional Neural Networks [0.0]
本研究では,音声認識における深層学習技術の統合について検討する。
既存の話者ダイアリゼーションパイプラインと、畳み込みニューラルネットワーク(CNN)上に構築された感情識別モデルを組み合わせたフレームワークを導入する。
提案モデルでは,63%の非重み付き精度が得られ,音声信号中の感情状態を正確に同定する上で,顕著な効率性を示した。
論文 参考訳(メタデータ) (2023-10-19T16:02:53Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - CycleTransGAN-EVC: A CycleGAN-based Emotional Voice Conversion Model
with Transformer [11.543807097834785]
本稿では,CycleGANに基づくトランスフォーマーモデルを提案し,感情音声変換タスクにおけるその能力について検討する。
トレーニング手順では、カリキュラム学習を採用し、フレーム長を徐々に増加させ、短いセグメントからスピーチ全体までモデルを見ることができるようにします。
その結果,提案モデルでは,より強みと質の高い感情を変換できることがわかった。
論文 参考訳(メタデータ) (2021-11-30T06:33:57Z) - Decoupling Speaker-Independent Emotions for Voice Conversion Via
Source-Filter Networks [14.55242023708204]
本研究では,話者に依存しない感情特徴の適切なフィルタリングを実現するために,ソースフィルタに基づく感情VCモデル(SFEVC)を提案する。
我々のSFEVCモデルはマルチチャネルエンコーダと感情分離エンコーダと1つのデコーダで構成されている。
論文 参考訳(メタデータ) (2021-10-04T03:14:48Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z) - VAW-GAN for Disentanglement and Recomposition of Emotional Elements in
Speech [91.92456020841438]
変分自己符号化ワッサーシュタイン生成対向ネットワーク(VAW-GAN)による音声の感情要素のアンタングル化と再分解について検討する。
本稿では,2つのVAW-GANパイプライン,1つはスペクトル変換,もう1つは韻律変換を含む話者依存型ECVフレームワークを提案する。
提案手法の有効性を客観評価と主観評価の両方で検証した。
論文 参考訳(メタデータ) (2020-11-03T08:49:33Z) - Seen and Unseen emotional style transfer for voice conversion with a new
emotional speech dataset [84.53659233967225]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、音声中の感情的韻律を変換することを目的としている。
可変自動符号化ワッサーシュタイン生成対向ネットワーク(VAW-GAN)に基づく新しいフレームワークを提案する。
提案するフレームワークは,ベースラインフレームワークを一貫して上回り,優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-10-28T07:16:18Z) - FragmentVC: Any-to-Any Voice Conversion by End-to-End Extracting and
Fusing Fine-Grained Voice Fragments With Attention [66.77490220410249]
本稿では、Wav2Vec 2.0から、音源話者からの発声の潜在音声構造を求めるFragmentVCを提案する。
FragmentVCは、ターゲット話者発話からきめ細かい音声断片を抽出し、所望の発話に融合することができる。
提案手法は, コンテンツと話者情報との絡み合いを考慮せずに, 再構成損失を学習する。
論文 参考訳(メタデータ) (2020-10-27T09:21:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。