論文の概要: Towards end-to-end F0 voice conversion based on Dual-GAN with
convolutional wavelet kernels
- arxiv url: http://arxiv.org/abs/2104.07283v1
- Date: Thu, 15 Apr 2021 07:42:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-16 14:45:26.638602
- Title: Towards end-to-end F0 voice conversion based on Dual-GAN with
convolutional wavelet kernels
- Title(参考訳): 畳み込みウェーブレットカーネルを用いたDual-GANに基づくエンドツーエンドF0音声変換
- Authors: Cl\'ement Le Moine Veillon, Nicolas Obin and Axel Roebel
- Abstract要約: 単一のニューラルネットワークが提案され、最初のモジュールを使用して異なる時間スケールでF0表現を学習する。
第2の敵対モジュールは、ある感情から別の感情への変換を学ぶために使用される。
- 参考スコア(独自算出の注目度): 11.92436948211501
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper presents a end-to-end framework for the F0 transformation in the
context of expressive voice conversion. A single neural network is proposed, in
which a first module is used to learn F0 representation over different temporal
scales and a second adversarial module is used to learn the transformation from
one emotion to another. The first module is composed of a convolution layer
with wavelet kernels so that the various temporal scales of F0 variations can
be efficiently encoded. The single decomposition/transformation network allows
to learn in a end-to-end manner the F0 decomposition that are optimal with
respect to the transformation, directly from the raw F0 signal.
- Abstract(参考訳): 本稿では,表現型音声変換におけるF0変換のためのエンドツーエンドフレームワークを提案する。
異なる時間スケールでf0表現を学習するために第1のモジュールを使用し、一方の感情から他方への変換を学習するために第2の敵モジュールを使用する単一のニューラルネットワークを提案する。
第1モジュールは、F0変動の様々な時間スケールを効率的に符号化できるように、ウェーブレットカーネルを備えた畳み込み層からなる。
単一分解/変換ネットワークは、生のF0信号から直接変換に対して最適なF0分解をエンドツーエンドで学習することができる。
関連論文リスト
- SiFiSinger: A High-Fidelity End-to-End Singing Voice Synthesizer based on Source-filter Model [31.280358048556444]
本稿では,音源フィルタ機構に基づくSVS(Advanced End-to-end Song Voice Synsynse)システムを提案する。
提案システムは、基本ピッチ(F0)予測器や波形生成デコーダなどの要素も組み込んでいる。
Opencpopデータセットの実験により,提案モデルの有効性が実証された。
論文 参考訳(メタデータ) (2024-10-16T13:18:45Z) - Transform Once: Efficient Operator Learning in Frequency Domain [69.74509540521397]
本研究では、周波数領域の構造を利用して、空間や時間における長距離相関を効率的に学習するために設計されたディープニューラルネットワークについて検討する。
この研究は、単一変換による周波数領域学習のための青写真を導入している。
論文 参考訳(メタデータ) (2022-11-26T01:56:05Z) - Lightweight and High-Fidelity End-to-End Text-to-Speech with Multi-Band
Generation and Inverse Short-Time Fourier Transform [9.606821628015933]
マルチバンド生成と逆ショートタイムフーリエ変換を用いた軽量なエンドツーエンドテキスト音声合成モデルを提案する。
実験結果から,本モデルでは音声を自然に合成し,VITSで合成した。
より小型のモデルでは、自然性と推論速度の両方に関して軽量のベースラインモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-28T08:15:05Z) - Machine Learning model for gas-liquid interface reconstruction in CFD
numerical simulations [59.84561168501493]
流体の体積(VoF)法は多相流シミュレーションにおいて2つの不混和性流体間の界面を追跡・見つけるために広く用いられている。
VoF法の主なボトルネックは、計算コストが高く、非構造化グリッド上での精度が低いため、インタフェース再構成のステップである。
一般的な非構造化メッシュ上でのインタフェース再構築を高速化するために,グラフニューラルネットワーク(GNN)に基づく機械学習拡張VoF手法を提案する。
論文 参考訳(メタデータ) (2022-07-12T17:07:46Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Wave-Tacotron: Spectrogram-free end-to-end text-to-speech synthesis [25.234945748885348]
本稿では,テキスト入力から直接音声波形を生成するシーケンス・ツー・シーケンスニューラルネットワークについて述べる。
アーキテクチャは、自己回帰デコーダループに正規化フローを組み込むことで、タコトロンモデルを拡張する。
実験により,提案モデルが最先端のニューラルTSシステムに近づく品質の音声を生成することが示された。
論文 参考訳(メタデータ) (2020-11-06T19:30:07Z) - Spectrum and Prosody Conversion for Cross-lingual Voice Conversion with
CycleGAN [81.79070894458322]
言語間の音声変換は、ソース話者とターゲット話者が異なる言語を話すとき、ソース話者の音声をターゲット話者の音声のように聞こえるようにすることを目的としている。
従来の言語間音声変換の研究は、主にF0転送のための線形変換を伴うスペクトル変換に焦点を当てていた。
本稿では,F0モデリングにおける連続ウェーブレット変換(CWT)の分解手法を提案する。
論文 参考訳(メタデータ) (2020-08-11T07:29:55Z) - Multi-speaker Emotion Conversion via Latent Variable Regularization and
a Chained Encoder-Decoder-Predictor Network [18.275646344620387]
本稿では,連鎖型エンコーダ・デコーダ・予測ニューラルネットワークアーキテクチャに基づく音声の感情変換手法を提案する。
提案手法は,感情変換の正しさと合成音声の質の両方において,既存の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-07-25T13:59:22Z) - Volumetric Transformer Networks [88.85542905676712]
学習可能なモジュールである容積変換器ネットワーク(VTN)を導入する。
VTNは、中間CNNの空間的およびチャネル的特徴を再設定するために、チャネル回りの歪み場を予測する。
実験の結果,VTNは特徴量の表現力を一貫して向上し,細粒度画像認識とインスタンスレベルの画像検索におけるネットワークの精度が向上することがわかった。
論文 参考訳(メタデータ) (2020-07-18T14:00:12Z) - Transforming Spectrum and Prosody for Emotional Voice Conversion with
Non-Parallel Training Data [91.92456020841438]
多くの研究は、実生活では実用的ではない異なる感情パターン間の並列音声データを必要とする。
非並列トレーニングデータから最適な擬似ペアを見つけるために,CycleGANネットワークを提案する。
また、連続ウェーブレット変換(CWT)を用いてF0を10時間スケールに分解し、異なる時間分解における音声韻律を記述する。
論文 参考訳(メタデータ) (2020-02-01T12:36:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。