論文の概要: Multi-speaker Emotion Conversion via Latent Variable Regularization and
a Chained Encoder-Decoder-Predictor Network
- arxiv url: http://arxiv.org/abs/2007.12937v2
- Date: Mon, 10 Aug 2020 19:16:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 01:26:12.102588
- Title: Multi-speaker Emotion Conversion via Latent Variable Regularization and
a Chained Encoder-Decoder-Predictor Network
- Title(参考訳): 潜在変数正規化と連鎖エンコーダ-デコーダ-予測ネットワークによるマルチ話者感情変換
- Authors: Ravi Shankar and Hsi-Wei Hsieh and Nicolas Charon and Archana
Venkataraman
- Abstract要約: 本稿では,連鎖型エンコーダ・デコーダ・予測ニューラルネットワークアーキテクチャに基づく音声の感情変換手法を提案する。
提案手法は,感情変換の正しさと合成音声の質の両方において,既存の最先端手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 18.275646344620387
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel method for emotion conversion in speech based on a chained
encoder-decoder-predictor neural network architecture. The encoder constructs a
latent embedding of the fundamental frequency (F0) contour and the spectrum,
which we regularize using the Large Diffeomorphic Metric Mapping (LDDMM)
registration framework. The decoder uses this embedding to predict the modified
F0 contour in a target emotional class. Finally, the predictor uses the
original spectrum and the modified F0 contour to generate a corresponding
target spectrum. Our joint objective function simultaneously optimizes the
parameters of three model blocks. We show that our method outperforms the
existing state-of-the-art approaches on both, the saliency of emotion
conversion and the quality of resynthesized speech. In addition, the LDDMM
regularization allows our model to convert phrases that were not present in
training, thus providing evidence for out-of-sample generalization.
- Abstract(参考訳): 本稿では,連鎖エンコーダ-デコーダ-予測ニューラルネットワークアーキテクチャに基づく音声の感情変換手法を提案する。
エンコーダは、基本周波数(f0)の輪郭とスペクトルの潜在埋め込みを構成し、これをlddmm(big diffeomorphic metric mapping)登録フレームワークを用いて正規化する。
デコーダは、この埋め込みを使用して、対象の感情クラスにおける修正されたf0パターンを予測する。
最後に、予測器は元のスペクトルと修正されたF0輪郭を用いて対応する目標スペクトルを生成する。
共同目的関数は3つのモデルブロックのパラメータを同時に最適化する。
提案手法は,感情変換と合成音声の質の両方において,既存の最先端のアプローチよりも優れていることを示す。
さらに, LDDMM正規化により, トレーニング中に存在しないフレーズを変換し, サンプル外一般化の証拠を提供する。
関連論文リスト
- Autoregressive Speech Synthesis without Vector Quantization [135.4776759536272]
テキストから音声合成(TTS)のための新しい連続値トークンに基づく言語モデリング手法であるMELLEを提案する。
MELLEはテキスト条件から直接連続メル-スペクトログラムフレームを自動回帰生成する。
論文 参考訳(メタデータ) (2024-07-11T14:36:53Z) - Adaptive re-calibration of channel-wise features for Adversarial Audio
Classification [0.0]
合成音声検出のための注意特徴融合を用いた特徴量の再検討を提案する。
本研究では,End2EndモデルやResnetベースモデルなど,さまざまな検出手法との比較を行った。
また,線形周波数ケプストラム係数 (LFCC) とメル周波数ケプストラム係数 (MFCC) の組み合わせにより,より優れた入力特徴表現が得られることを示した。
論文 参考訳(メタデータ) (2022-10-21T04:21:56Z) - A Deep-Bayesian Framework for Adaptive Speech Duration Modification [20.99099283004413]
我々はベイズフレームワークを用いて、入力とターゲット発話のフレームをリンクする潜在注意マップを定義する。
マスク付き畳み込みエンコーダ・デコーダネットワークをトレーニングし、このアテンションマップを平均絶対誤差損失関数のバージョンで生成する。
提案手法は,最先端のボコーダに匹敵する高い品質の音声を生成できることを示す。
論文 参考訳(メタデータ) (2021-07-11T05:53:07Z) - UNETR: Transformers for 3D Medical Image Segmentation [8.59571749685388]
UNEt TRansformers(UNETR)と呼ばれる新しいアーキテクチャを導入し、純粋なトランスフォーマーをエンコーダとして入力ボリュームのシーケンス表現を学習します。
提案モデルの性能を様々なイメージング手法で広く検証しています。
論文 参考訳(メタデータ) (2021-03-18T20:17:15Z) - Autoencoding Variational Autoencoder [56.05008520271406]
我々は,この行動が学習表現に与える影響と,自己整合性の概念を導入することでそれを修正する結果について検討する。
自己整合性アプローチで訓練されたエンコーダは、敵攻撃による入力の摂動に対して頑健な(無神経な)表現につながることを示す。
論文 参考訳(メタデータ) (2020-12-07T14:16:14Z) - Cross-Thought for Sentence Encoder Pre-training [89.32270059777025]
Cross-Thoughtは、事前トレーニングシーケンスエンコーダに対する新しいアプローチである。
我々は、Transformerベースのシーケンスエンコーダを、多数の短いシーケンスに対してトレーニングする。
質問応答とテキストのエンコーダタスクの実験は、事前学習したエンコーダが最先端のエンコーダより優れていることを示す。
論文 参考訳(メタデータ) (2020-10-07T21:02:41Z) - Non-parallel Emotion Conversion using a Deep-Generative Hybrid Network
and an Adversarial Pair Discriminator [16.18921154013272]
本稿では,並列学習データを必要としない音声における感情変換手法を提案する。
従来のサイクルGANとは異なり、我々の判別器は1対の入力実と生成されたサンプルが所望の感情変換に対応するかどうかを分類する。
本稿では,Wavenet が生成した音声を改良することにより,新しい話者に一般化することを示す。
論文 参考訳(メタデータ) (2020-07-25T13:50:00Z) - MetaSDF: Meta-learning Signed Distance Functions [85.81290552559817]
ニューラルな暗示表現で形状を一般化することは、各関数空間上の学習先行値に比例する。
形状空間の学習をメタラーニング問題として定式化し、勾配に基づくメタラーニングアルゴリズムを利用してこの課題を解決する。
論文 参考訳(メタデータ) (2020-06-17T05:14:53Z) - End-to-End Whisper to Natural Speech Conversion using Modified
Transformer Network [0.8399688944263843]
シーケンス・ツー・シーケンス・アプローチを用いて、whisper-to-natural-speech変換を導入する。
本稿では,メル周波数ケプストラム係数やスムーズなスペクトル特徴などの異なる特徴について検討する。
提案するネットワークは、機能間変換のための教師ありアプローチを用いて、エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2020-04-20T14:47:46Z) - On the Encoder-Decoder Incompatibility in Variational Text Modeling and
Beyond [82.18770740564642]
変分オートエンコーダ(VAE)は、潜時変数と償却変分推論を結合する。
我々は,データ多様体のパラメータ化が不十分なエンコーダ・デコーダの不整合性を観察する。
同一構造を持つ決定論的オートエンコーダとVAEモデルを結合した結合型VAEを提案する。
論文 参考訳(メタデータ) (2020-04-20T10:34:10Z) - Transforming Spectrum and Prosody for Emotional Voice Conversion with
Non-Parallel Training Data [91.92456020841438]
多くの研究は、実生活では実用的ではない異なる感情パターン間の並列音声データを必要とする。
非並列トレーニングデータから最適な擬似ペアを見つけるために,CycleGANネットワークを提案する。
また、連続ウェーブレット変換(CWT)を用いてF0を10時間スケールに分解し、異なる時間分解における音声韻律を記述する。
論文 参考訳(メタデータ) (2020-02-01T12:36:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。