論文の概要: An Improved StarGAN for Emotional Voice Conversion: Enhancing Voice
Quality and Data Augmentation
- arxiv url: http://arxiv.org/abs/2107.08361v1
- Date: Sun, 18 Jul 2021 04:28:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-20 14:43:07.081228
- Title: An Improved StarGAN for Emotional Voice Conversion: Enhancing Voice
Quality and Data Augmentation
- Title(参考訳): 感情音声変換のための改良されたStarGAN:声質向上とデータ拡張
- Authors: Xiangheng He, Junjie Chen, Georgios Rizos, Bj\"orn W. Schuller
- Abstract要約: 本稿では,感情に依存しない感情の特徴を分離する2段階のトレーニングプロセスとともに,新たなStarGANフレームワークを提案する。
提案モデルでは, 客観評価と主観評価の両面において, 歪みの両面から良好な結果が得られる。
エンドツーエンドの音声感情認識のためのデータ拡張実験において、提案したStarGANモデルは、Micro-F1では2%、Macro-F1では5%の増加を達成する。
- 参考スコア(独自算出の注目度): 8.017817904347964
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emotional Voice Conversion (EVC) aims to convert the emotional style of a
source speech signal to a target style while preserving its content and speaker
identity information. Previous emotional conversion studies do not disentangle
emotional information from emotion-independent information that should be
preserved, thus transforming it all in a monolithic manner and generating audio
of low quality, with linguistic distortions. To address this distortion
problem, we propose a novel StarGAN framework along with a two-stage training
process that separates emotional features from those independent of emotion by
using an autoencoder with two encoders as the generator of the Generative
Adversarial Network (GAN). The proposed model achieves favourable results in
both the objective evaluation and the subjective evaluation in terms of
distortion, which reveals that the proposed model can effectively reduce
distortion. Furthermore, in data augmentation experiments for end-to-end speech
emotion recognition, the proposed StarGAN model achieves an increase of 2% in
Micro-F1 and 5% in Macro-F1 compared to the baseline StarGAN model, which
indicates that the proposed model is more valuable for data augmentation.
- Abstract(参考訳): Emotional Voice Conversion (EVC) は、その内容と話者識別情報を保存しながら、ソース音声信号の感情スタイルをターゲットスタイルに変換することを目的としている。
これまでの感情変換研究は、保存すべき感情に依存しない情報から感情情報を歪めないため、これらすべてをモノリシックな方法で変換し、低品質の音声を言語的な歪みで生成する。
この歪み問題に対処するために,2つのエンコーダを持つオートエンコーダをGAN(Generative Adversarial Network)のジェネレータとして使用することにより,感情から独立した感情特徴を分離する2段階のトレーニングプロセスとともに,新たなStarGANフレームワークを提案する。
提案モデルは, 客観的評価と主観的評価の両方において, 歪みの観点から好適な結果が得られるため, 提案モデルが歪みを効果的に低減できることを示す。
さらに、エンドツーエンドの音声感情認識のためのデータ拡張実験において、提案したStarGANモデルは、ベースラインのStarGANモデルと比較して、Micro-F1では2%、Macro-F1では5%の増加を達成する。
関連論文リスト
- EmotiveTalk: Expressive Talking Head Generation through Audio Information Decoupling and Emotional Video Diffusion [49.55774551366049]
拡散モデルは、会話のヘッドジェネレーションの分野に革命をもたらしたが、長期的には表現性、制御可能性、安定性に課題に直面している。
これらの問題に対処するためのEmotiveTalkフレームワークを提案する。
実験結果から,EmotiveTalkは表現力のある対話型ヘッドビデオを生成することができ,長時間発生時の感情の制御性と安定性を保証できることがわかった。
論文 参考訳(メタデータ) (2024-11-23T04:38:51Z) - E2E-AFG: An End-to-End Model with Adaptive Filtering for Retrieval-Augmented Generation [3.544259721580075]
検索拡張生成のための適応フィルタを用いたエンドツーエンドモデル(E2E-AFG)を提案する。
E2E-AFGを6つの代表的な知識集約言語データセットで評価した。
論文 参考訳(メタデータ) (2024-11-01T08:02:09Z) - Self-Taught Recognizer: Toward Unsupervised Adaptation for Speech Foundation Models [84.8919069953397]
Self-Taught Recognizer (STAR) は、音声認識システムのための教師なし適応フレームワークである。
その結果,STARは14のドメインで平均13.5%の単語誤り率の相対的な減少を実現していることがわかった。
STARは1時間以内のラベル付きデータを必要とする高いデータ効率を示す。
論文 参考訳(メタデータ) (2024-05-23T04:27:11Z) - Non-autoregressive real-time Accent Conversion model with voice cloning [0.0]
我々は音声クローンを用いたリアルタイムアクセント変換のための非自己回帰モデルを開発した。
このモデルは入力L2音声に基づいて最小レイテンシでネイティブなL1音声を生成する。
このモデルは、話者の声の音色、性別、アクセントをリアルタイムで保存し、クローンし、変更することができる。
論文 参考訳(メタデータ) (2024-05-21T19:07:26Z) - EmoDiarize: Speaker Diarization and Emotion Identification from Speech
Signals using Convolutional Neural Networks [0.0]
本研究では,音声認識における深層学習技術の統合について検討する。
既存の話者ダイアリゼーションパイプラインと、畳み込みニューラルネットワーク(CNN)上に構築された感情識別モデルを組み合わせたフレームワークを導入する。
提案モデルでは,63%の非重み付き精度が得られ,音声信号中の感情状態を正確に同定する上で,顕著な効率性を示した。
論文 参考訳(メタデータ) (2023-10-19T16:02:53Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - CycleTransGAN-EVC: A CycleGAN-based Emotional Voice Conversion Model
with Transformer [11.543807097834785]
本稿では,CycleGANに基づくトランスフォーマーモデルを提案し,感情音声変換タスクにおけるその能力について検討する。
トレーニング手順では、カリキュラム学習を採用し、フレーム長を徐々に増加させ、短いセグメントからスピーチ全体までモデルを見ることができるようにします。
その結果,提案モデルでは,より強みと質の高い感情を変換できることがわかった。
論文 参考訳(メタデータ) (2021-11-30T06:33:57Z) - Decoupling Speaker-Independent Emotions for Voice Conversion Via
Source-Filter Networks [14.55242023708204]
本研究では,話者に依存しない感情特徴の適切なフィルタリングを実現するために,ソースフィルタに基づく感情VCモデル(SFEVC)を提案する。
我々のSFEVCモデルはマルチチャネルエンコーダと感情分離エンコーダと1つのデコーダで構成されている。
論文 参考訳(メタデータ) (2021-10-04T03:14:48Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z) - VAW-GAN for Disentanglement and Recomposition of Emotional Elements in
Speech [91.92456020841438]
変分自己符号化ワッサーシュタイン生成対向ネットワーク(VAW-GAN)による音声の感情要素のアンタングル化と再分解について検討する。
本稿では,2つのVAW-GANパイプライン,1つはスペクトル変換,もう1つは韻律変換を含む話者依存型ECVフレームワークを提案する。
提案手法の有効性を客観評価と主観評価の両方で検証した。
論文 参考訳(メタデータ) (2020-11-03T08:49:33Z) - Seen and Unseen emotional style transfer for voice conversion with a new
emotional speech dataset [84.53659233967225]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、音声中の感情的韻律を変換することを目的としている。
可変自動符号化ワッサーシュタイン生成対向ネットワーク(VAW-GAN)に基づく新しいフレームワークを提案する。
提案するフレームワークは,ベースラインフレームワークを一貫して上回り,優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-10-28T07:16:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。