論文の概要: Speech-to-Singing Conversion based on Boundary Equilibrium GAN
- arxiv url: http://arxiv.org/abs/2005.13835v3
- Date: Wed, 5 Aug 2020 13:21:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-27 06:03:06.970524
- Title: Speech-to-Singing Conversion based on Boundary Equilibrium GAN
- Title(参考訳): 境界平衡GANに基づく音声対歌変換
- Authors: Da-Yi Wu, Yi-Hsuan Yang
- Abstract要約: 本稿では,音声信号のスペクトルを歌声に変換するためのGANモデルについて検討する。
提案モデルは,既存の非対向学習ベースラインよりも自然性が高い歌声を生成する。
- 参考スコア(独自算出の注目度): 42.739822506085694
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: This paper investigates the use of generative adversarial network (GAN)-based
models for converting the spectrogram of a speech signal into that of a singing
one, without reference to the phoneme sequence underlying the speech. This is
achieved by viewing speech-to-singing conversion as a style transfer problem.
Specifically, given a speech input, and optionally the F0 contour of the target
singing, the proposed model generates as the output a singing signal with a
progressive-growing encoder/decoder architecture and boundary equilibrium GAN
loss functions. Our quantitative and qualitative analysis show that the
proposed model generates singing voices with much higher naturalness than an
existing non adversarially-trained baseline. For reproducibility, the code will
be publicly available at a GitHub repository upon paper publication.
- Abstract(参考訳): 本稿では,音声信号のスペクトログラムを音声の基本音素系列に言及せずに,音声信号のスペクトログラムを歌唱信号のそれに変換するための生成型逆ネットワーク(gan)モデルの利用について検討する。
これは、音声から音声への変換をスタイル転送問題として見ることによって達成される。
具体的には、音声入力と任意に対象歌唱のF0輪郭が与えられた場合、提案モデルは、進行的に成長するエンコーダ/デコーダアーキテクチャと境界平衡GAN損失関数を持つ歌唱信号を出力として生成する。
定量的および定性的な分析により,提案モデルが既存の非対向学習ベースラインよりも自然性の高い歌唱音声を生成することを示す。
再現性のために、コードは論文公開時にGitHubリポジトリで公開される。
関連論文リスト
- DiffVoice: Text-to-Speech with Latent Diffusion [18.150627638754923]
本稿では,遅延拡散に基づく新しい音声合成モデルDiffVoiceを提案する。
LJSpeech と LibriTTS データセットの主観評価は,本手法が自然界で最高の公開システムに勝っていることを示す。
論文 参考訳(メタデータ) (2023-04-23T21:05:33Z) - SeqDiffuSeq: Text Diffusion with Encoder-Decoder Transformers [50.90457644954857]
本研究では,拡散モデルを用いてシーケンス・ツー・シーケンスのテキスト生成を行う。
シーケンス・ツー・シーケンス生成のためのテキスト拡散モデルであるSeqDiffuSeqを提案する。
実験結果は、テキストの品質と推論時間の観点から、シーケンス・ツー・シーケンス生成の優れた性能を示す。
論文 参考訳(メタデータ) (2022-12-20T15:16:24Z) - Leveraging Symmetrical Convolutional Transformer Networks for Speech to
Singing Voice Style Transfer [49.01417720472321]
我々は、入力音声とターゲットメロディのアライメントをモデル化する、SymNetと呼ばれる新しいニューラルネットワークアーキテクチャを開発する。
音声と歌声の並列データからなるNASデータセットとNHSSデータセットで実験を行う。
論文 参考訳(メタデータ) (2022-08-26T02:54:57Z) - Learning and controlling the source-filter representation of speech with
a variational autoencoder [23.05989605017053]
音声処理において、音源フィルタモデルは、音声信号はいくつかの独立的かつ物理的に有意な連続潜伏因子から生成されるとみなす。
本稿では,潜在部分空間内の音源-フィルタ音声要素を高精度かつ独立に制御する手法を提案する。
テキストや人ラベルデータなどの追加情報を必要としないため、音声スペクトログラムの深い生成モデルが得られる。
論文 参考訳(メタデータ) (2022-04-14T16:13:06Z) - Timbre Transfer with Variational Auto Encoding and Cycle-Consistent
Adversarial Networks [0.6445605125467573]
本研究は,音源音の音色を目標音の音色に変換し,音質の低下を最小限に抑えた深層学習の音色伝達への適用について検討する。
この手法は、変分オートエンコーダとジェネレーティブ・アドバイサル・ネットワークを組み合わせて、音源の有意義な表現を構築し、ターゲット音声の現実的な世代を生成する。
論文 参考訳(メタデータ) (2021-09-05T15:06:53Z) - End-to-End Video-To-Speech Synthesis using Generative Adversarial
Networks [54.43697805589634]
GAN(Generative Adversarial Networks)に基づくエンドツーエンドビデオ音声合成モデルを提案する。
本モデルは,生映像を入力として受信し,音声を生成するエンコーダ・デコーダアーキテクチャで構成されている。
このモデルは,グリッドなどの制約付きデータセットに対して,顕著なリアリズムで音声を再構成できることを示す。
論文 参考訳(メタデータ) (2021-04-27T17:12:30Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z) - Unsupervised Cross-Domain Speech-to-Speech Conversion with
Time-Frequency Consistency [14.062850439230111]
本稿では,逆行訓練におけるスペクトルの整合性を促進する条件を提案する。
Librispeech corpus を用いた実験結果から,TF の整合性で訓練したモデルにより,音声から音声への変換の精度が向上することが示唆された。
論文 参考訳(メタデータ) (2020-05-15T22:27:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。