論文の概要: Transforming Spectrum and Prosody for Emotional Voice Conversion with
Non-Parallel Training Data
- arxiv url: http://arxiv.org/abs/2002.00198v5
- Date: Sat, 24 Oct 2020 06:37:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-05 01:14:30.915002
- Title: Transforming Spectrum and Prosody for Emotional Voice Conversion with
Non-Parallel Training Data
- Title(参考訳): 非並列学習データを用いた感情音声変換のための変換スペクトルと韻律
- Authors: Kun Zhou, Berrak Sisman, Haizhou Li
- Abstract要約: 多くの研究は、実生活では実用的ではない異なる感情パターン間の並列音声データを必要とする。
非並列トレーニングデータから最適な擬似ペアを見つけるために,CycleGANネットワークを提案する。
また、連続ウェーブレット変換(CWT)を用いてF0を10時間スケールに分解し、異なる時間分解における音声韻律を記述する。
- 参考スコア(独自算出の注目度): 91.92456020841438
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emotional voice conversion aims to convert the spectrum and prosody to change
the emotional patterns of speech, while preserving the speaker identity and
linguistic content. Many studies require parallel speech data between different
emotional patterns, which is not practical in real life. Moreover, they often
model the conversion of fundamental frequency (F0) with a simple linear
transform. As F0 is a key aspect of intonation that is hierarchical in nature,
we believe that it is more adequate to model F0 in different temporal scales by
using wavelet transform. We propose a CycleGAN network to find an optimal
pseudo pair from non-parallel training data by learning forward and inverse
mappings simultaneously using adversarial and cycle-consistency losses. We also
study the use of continuous wavelet transform (CWT) to decompose F0 into ten
temporal scales, that describes speech prosody at different time resolution,
for effective F0 conversion. Experimental results show that our proposed
framework outperforms the baselines both in objective and subjective
evaluations.
- Abstract(参考訳): 感情的音声変換は、スペクトルと韻律を変換して、話者のアイデンティティと言語内容を保持しながら、音声の感情パターンを変えることを目的としている。
多くの研究は、実生活では実用的ではない異なる感情パターン間の並列音声データを必要とする。
さらに、それらはしばしば単純な線形変換で基本周波数(F0)の変換をモデル化する。
F0は本質的に階層的なイントネーションの重要な側面であるため、ウェーブレット変換を用いて異なる時間スケールでF0をモデル化することはより適切であると考える。
本研究では,非並列訓練データから,逆解析と逆解析を同時に学習し,最適な疑似ペアを求めるサイクガンネットワークを提案する。
また, 連続ウェーブレット変換(cwt)を用いて, 時間分解能の異なる音声韻律を記述する10個の時間スケールにf0を分解し, 効果的なf0変換を行った。
実験の結果,提案フレームワークは客観的評価と主観評価の両方においてベースラインを上回ることがわかった。
関連論文リスト
- Transform Once: Efficient Operator Learning in Frequency Domain [69.74509540521397]
本研究では、周波数領域の構造を利用して、空間や時間における長距離相関を効率的に学習するために設計されたディープニューラルネットワークについて検討する。
この研究は、単一変換による周波数領域学習のための青写真を導入している。
論文 参考訳(メタデータ) (2022-11-26T01:56:05Z) - DisC-VC: Disentangled and F0-Controllable Neural Voice Conversion [17.83563578034567]
補助的ネットワークを伴う変分オートコーダに基づく音声変換モデルを提案する。
提案手法の有効性を客観評価および主観評価により示す。
論文 参考訳(メタデータ) (2022-10-20T07:30:07Z) - Towards end-to-end F0 voice conversion based on Dual-GAN with
convolutional wavelet kernels [11.92436948211501]
単一のニューラルネットワークが提案され、最初のモジュールを使用して異なる時間スケールでF0表現を学習する。
第2の敵対モジュールは、ある感情から別の感情への変換を学ぶために使用される。
論文 参考訳(メタデータ) (2021-04-15T07:42:59Z) - End-to-end Audio-visual Speech Recognition with Conformers [65.30276363777514]
ResNet-18とConvolution-augmented Transformer(Conformer)に基づくハイブリッドCTC/Attentionモデルを提案する。
特に、オーディオおよびビジュアルエンコーダは、生のピクセルとオーディオ波形から直接特徴を抽出することを学びます。
提案手法は, 音声のみ, 視覚のみ, および視聴覚実験において, 最先端の性能を高めることを実証する。
論文 参考訳(メタデータ) (2021-02-12T18:00:08Z) - WaveTransform: Crafting Adversarial Examples via Input Decomposition [69.01794414018603]
本稿では,低周波サブバンドと高周波サブバンドに対応する逆雑音を生成するWaveTransformを紹介する。
実験により,提案攻撃は防衛アルゴリズムに対して有効であり,CNN間での転送も可能であることが示された。
論文 参考訳(メタデータ) (2020-10-29T17:16:59Z) - Spectrum and Prosody Conversion for Cross-lingual Voice Conversion with
CycleGAN [81.79070894458322]
言語間の音声変換は、ソース話者とターゲット話者が異なる言語を話すとき、ソース話者の音声をターゲット話者の音声のように聞こえるようにすることを目的としている。
従来の言語間音声変換の研究は、主にF0転送のための線形変換を伴うスペクトル変換に焦点を当てていた。
本稿では,F0モデリングにおける連続ウェーブレット変換(CWT)の分解手法を提案する。
論文 参考訳(メタデータ) (2020-08-11T07:29:55Z) - VAW-GAN for Singing Voice Conversion with Non-parallel Training Data [81.79070894458322]
VAW-GANに基づく歌声変換フレームワークを提案する。
我々はエンコーダを訓練し、歌手のアイデンティティと歌唱の韻律(F0)を音声コンテンツから切り離す。
シンガーIDとF0を条件付けすることにより、デコーダは、目に見えないターゲットシンガーIDの出力スペクトル特徴を生成する。
論文 参考訳(メタデータ) (2020-08-10T09:44:10Z) - Multi-speaker Emotion Conversion via Latent Variable Regularization and
a Chained Encoder-Decoder-Predictor Network [18.275646344620387]
本稿では,連鎖型エンコーダ・デコーダ・予測ニューラルネットワークアーキテクチャに基づく音声の感情変換手法を提案する。
提案手法は,感情変換の正しさと合成音声の質の両方において,既存の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-07-25T13:59:22Z) - Non-parallel Emotion Conversion using a Deep-Generative Hybrid Network
and an Adversarial Pair Discriminator [16.18921154013272]
本稿では,並列学習データを必要としない音声における感情変換手法を提案する。
従来のサイクルGANとは異なり、我々の判別器は1対の入力実と生成されたサンプルが所望の感情変換に対応するかどうかを分類する。
本稿では,Wavenet が生成した音声を改良することにより,新しい話者に一般化することを示す。
論文 参考訳(メタデータ) (2020-07-25T13:50:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。