論文の概要: Non-parallel Emotion Conversion using a Deep-Generative Hybrid Network
and an Adversarial Pair Discriminator
- arxiv url: http://arxiv.org/abs/2007.12932v2
- Date: Mon, 10 Aug 2020 19:20:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 01:26:52.053318
- Title: Non-parallel Emotion Conversion using a Deep-Generative Hybrid Network
and an Adversarial Pair Discriminator
- Title(参考訳): 深部生成型ハイブリッドネットワークと対向ペア判別器を用いた非並列感情変換
- Authors: Ravi Shankar and Jacob Sager and Archana Venkataraman
- Abstract要約: 本稿では,並列学習データを必要としない音声における感情変換手法を提案する。
従来のサイクルGANとは異なり、我々の判別器は1対の入力実と生成されたサンプルが所望の感情変換に対応するかどうかを分類する。
本稿では,Wavenet が生成した音声を改良することにより,新しい話者に一般化することを示す。
- 参考スコア(独自算出の注目度): 16.18921154013272
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a novel method for emotion conversion in speech that does not
require parallel training data. Our approach loosely relies on a cycle-GAN
schema to minimize the reconstruction error from converting back and forth
between emotion pairs. However, unlike the conventional cycle-GAN, our
discriminator classifies whether a pair of input real and generated samples
corresponds to the desired emotion conversion (e.g., A to B) or to its inverse
(B to A). We will show that this setup, which we refer to as a variational
cycle-GAN (VC-GAN), is equivalent to minimizing the empirical KL divergence
between the source features and their cyclic counterpart. In addition, our
generator combines a trainable deep network with a fixed generative block to
implement a smooth and invertible transformation on the input features, in our
case, the fundamental frequency (F0) contour. This hybrid architecture
regularizes our adversarial training procedure. We use crowd sourcing to
evaluate both the emotional saliency and the quality of synthesized speech.
Finally, we show that our model generalizes to new speakers by modifying speech
produced by Wavenet.
- Abstract(参考訳): 本稿では,並列学習データを必要としない音声における感情変換手法を提案する。
提案手法は,感情ペア間の相互変換から再構成エラーを最小限に抑えるために,サイクルGANスキーマを緩やかに頼っている。
しかし、従来のサイクルガンとは異なり、この判別器は1対の入力実数と生成したサンプルが所望の感情変換(例えばaからb)またはその逆(bからa)に対応するかどうかを分類する。
本稿では,この構成を変分サイクルGAN (VC-GAN) と呼び,音源の特徴と周期的特徴との間のKLの相違を最小化するものであることを示す。
さらに,学習可能な深層ネットワークと固定された生成ブロックを組み合わせることで,入力特性のスムーズで可逆な変換を実現する。
このハイブリッドアーキテクチャは、我々の敵のトレーニング手順を規則化する。
クラウドソーシングを用いて,音声合成の感情的評価と品質評価を行った。
最後に,Wavenet が生成した音声を改良することにより,モデルが新しい話者に一般化されることを示す。
関連論文リスト
- Anisotropic multiresolution analyses for deep fake detection [4.903718320156974]
Generative Adversarial Networks (GANs) は完全に新しいメディア生成機能への道を開いた。
また、悪用されたり悪用されたりして、精巧な嘘をつくり、大衆の議論を呼び起こすことができる。
これまでの研究では、k-アネレスト近隣や固有顔といった古典的な機械学習技術を用いてこの課題に取り組んできた。
GANは、主に等方的畳み込みを利用して出力を生成するため、異方的変換によって抽出されたサブバンド上の係数分布に明確な痕跡、指紋を残す。
論文 参考訳(メタデータ) (2022-10-26T17:26:09Z) - Recurrence Boosts Diversity! Revisiting Recurrent Latent Variable in
Transformer-Based Variational AutoEncoder for Diverse Text Generation [85.5379146125199]
変分自動エンコーダ(VAE)はテキスト生成において広く採用されている。
本稿ではトランスフォーマーをベースとしたリカレントVAE構造であるTRACEを提案する。
論文 参考訳(メタデータ) (2022-10-22T10:25:35Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - Axial Residual Networks for CycleGAN-based Voice Conversion [0.0]
非並列音声変換のための新しいアーキテクチャと訓練目標の改善を提案する。
提案するCycleGANモデルでは,高周波数分解能大スペクトルから直接形状保存変換を行う。
実験により,提案モデルがサイクロンよりも優れており,ニューラルボコーダを使わずにcyclegan-vc2と同等の性能を示すことを示した。
論文 参考訳(メタデータ) (2021-02-16T10:55:35Z) - Class-Conditional Defense GAN Against End-to-End Speech Attacks [82.21746840893658]
本稿では,DeepSpeech や Lingvo といった先進的な音声テキストシステムを騙すために開発された,エンドツーエンドの敵対攻撃に対する新しいアプローチを提案する。
従来の防御手法とは異なり、提案手法は入力信号のオートエンコードのような低レベル変換を直接利用しない。
我々の防衛GANは、単語誤り率と文レベルの認識精度において、従来の防衛アルゴリズムよりもかなり優れています。
論文 参考訳(メタデータ) (2020-10-22T00:02:02Z) - Spectrum and Prosody Conversion for Cross-lingual Voice Conversion with
CycleGAN [81.79070894458322]
言語間の音声変換は、ソース話者とターゲット話者が異なる言語を話すとき、ソース話者の音声をターゲット話者の音声のように聞こえるようにすることを目的としている。
従来の言語間音声変換の研究は、主にF0転送のための線形変換を伴うスペクトル変換に焦点を当てていた。
本稿では,F0モデリングにおける連続ウェーブレット変換(CWT)の分解手法を提案する。
論文 参考訳(メタデータ) (2020-08-11T07:29:55Z) - Multi-speaker Emotion Conversion via Latent Variable Regularization and
a Chained Encoder-Decoder-Predictor Network [18.275646344620387]
本稿では,連鎖型エンコーダ・デコーダ・予測ニューラルネットワークアーキテクチャに基づく音声の感情変換手法を提案する。
提案手法は,感情変換の正しさと合成音声の質の両方において,既存の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-07-25T13:59:22Z) - End-to-End Whisper to Natural Speech Conversion using Modified
Transformer Network [0.8399688944263843]
シーケンス・ツー・シーケンス・アプローチを用いて、whisper-to-natural-speech変換を導入する。
本稿では,メル周波数ケプストラム係数やスムーズなスペクトル特徴などの異なる特徴について検討する。
提案するネットワークは、機能間変換のための教師ありアプローチを用いて、エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2020-04-20T14:47:46Z) - Transforming Spectrum and Prosody for Emotional Voice Conversion with
Non-Parallel Training Data [91.92456020841438]
多くの研究は、実生活では実用的ではない異なる感情パターン間の並列音声データを必要とする。
非並列トレーニングデータから最適な擬似ペアを見つけるために,CycleGANネットワークを提案する。
また、連続ウェーブレット変換(CWT)を用いてF0を10時間スケールに分解し、異なる時間分解における音声韻律を記述する。
論文 参考訳(メタデータ) (2020-02-01T12:36:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。