論文の概要: Anyone GAN Sing
- arxiv url: http://arxiv.org/abs/2102.11058v1
- Date: Mon, 22 Feb 2021 14:30:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-24 18:37:06.937823
- Title: Anyone GAN Sing
- Title(参考訳): 誰か歌って
- Authors: Shreeviknesh Sankaran, Sukavanan Nanjundan, G. Paavai Anand
- Abstract要約: 本論文では,Convolutional Long-Term Memory (ConvLSTM) ベースのGANを用いて,人の歌声を合成する方法を提案する。
私たちの仕事は、ChandnaらによるWGANSingにインスパイアされています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The problem of audio synthesis has been increasingly solved using deep neural
networks. With the introduction of Generative Adversarial Networks (GAN),
another efficient and adjective path has opened up to solve this problem. In
this paper, we present a method to synthesize the singing voice of a person
using a Convolutional Long Short-term Memory (ConvLSTM) based GAN optimized
using the Wasserstein loss function. Our work is inspired by WGANSing by
Chandna et al. Our model inputs consecutive frame-wise linguistic and frequency
features, along with singer identity and outputs vocoder features. We train the
model on a dataset of 48 English songs sung and spoken by 12 non-professional
singers. For inference, sequential blocks are concatenated using an overlap-add
procedure. We test the model using the Mel-Cepstral Distance metric and a
subjective listening test with 18 participants.
- Abstract(参考訳): 音声合成の問題はディープニューラルネットワークを用いてますます解決されている。
GAN(Generative Adversarial Networks)の導入により、この問題を解決するために、より効率的で形容詞的な経路が開かれた。
本稿では,Wasserstein損失関数を用いて最適化されたConvolutional Long Short-Term Memory (ConvLSTM)ベースのGANを用いて,人の歌声を合成する方法を提案する。
私たちの仕事は、ChandnaらによるWGANSingにインスパイアされています。
我々のモデルは連続したフレーム単位の言語的特徴と周波数的特徴と、歌手のアイデンティティとボコーダの特徴を入力します。
12人の非プロ歌手が歌って話した48の英語の歌のデータセットでモデルをトレーニングする。
推論では、シーケンシャルブロックはオーバーラップ加算手順を使って連結される。
本研究では,Mel-Cepstral Distance metricと主観的リスニングテストを18名で実施した。
関連論文リスト
- Song Data Cleansing for End-to-End Neural Singer Diarization Using Neural Analysis and Synthesis Framework [7.12217278294376]
提案モデルでは,ポピュラー音楽に共通する合唱歌唱で歌データを変換する。
我々は、事前訓練されたNANSY++を利用して、コーランの歌唱をクリーンでオーバーラップされていないオーディオに変換する。
注釈付きデュエット曲を用いてデータセットを用いて訓練したEDEモデルを実験的に評価した。
論文 参考訳(メタデータ) (2024-06-24T04:48:29Z) - VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment [101.2489492032816]
VALL-E Rは、堅牢で効率的なゼロショットテキスト音声合成システムである。
この研究は、失語症に罹患した人々のためのスピーチの作成を含む有意義なプロジェクトに適用される可能性がある。
論文 参考訳(メタデータ) (2024-06-12T04:09:44Z) - SpecDiff-GAN: A Spectrally-Shaped Noise Diffusion GAN for Speech and
Music Synthesis [0.0]
本稿では,HiFi-GANに基づくニューラルボコーダSpecDiff-GANを紹介する。
いくつかのデータセットに対して,提案モデルによる音声合成と音楽合成の利点を示す。
論文 参考訳(メタデータ) (2024-01-30T09:17:57Z) - BigVGAN: A Universal Neural Vocoder with Large-Scale Training [49.16254684584935]
ゼロショット設定において、様々な未知条件下でよく一般化する普遍的なボコーダであるBigVGANを提案する。
生成器に周期的非線形性とアンチエイリアス表現を導入し、波形に所望の帰納バイアスをもたらす。
我々はGANボコーダを最大1億2200万のパラメータで訓練する。
論文 参考訳(メタデータ) (2022-06-09T17:56:10Z) - Learning the Beauty in Songs: Neural Singing Voice Beautifier [69.21263011242907]
我々は、新しいタスク、歌声美化(SVB)に興味を持っている。
アマチュア歌手の歌声を考えると、SVBは内容と声の音色を保ちながら、声のイントネーションと声のトーンを改善することを目的としている。
SVBタスクを解く最初の生成モデルであるNSVB(Neural Singing Voice Beautifier)を導入する。
論文 参考訳(メタデータ) (2022-02-27T03:10:12Z) - KaraSinger: Score-Free Singing Voice Synthesis with VQ-VAE using
Mel-spectrograms [42.59716267275078]
そこで我々はKaraSingerと呼ばれる新しいニューラルネットワークモデルを提案する。
KaraSingerは、歌唱音声のメルスペクトルを離散コード列に圧縮するベクトル量子化変分オートエンコーダ(VQ-VAE)と、対応する歌詞が与えられた離散コードを予測する言語モデル(LM)とを備える。
複数のアマチュア歌手が歌った550曲の英語ポップソングのプロプライエタリコレクションを用いて,提案したデザイン選択の有効性を検証した。
論文 参考訳(メタデータ) (2021-10-08T10:00:23Z) - DiffSinger: Diffusion Acoustic Model for Singing Voice Synthesis [53.19363127760314]
DiffSingerは、音楽スコアで調整されたメログラムにノイズを反復的に変換するパラメータ化されたマルコフチェーンです。
中国の歌唱データセットで行った評価は、DiffSingerが最先端のSVSワークを顕著な差で上回っていることを示している。
論文 参考訳(メタデータ) (2021-05-06T05:21:42Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z) - DeepSinger: Singing Voice Synthesis with Data Mined From the Web [194.10598657846145]
DeepSinger(ディープシンガー)は、音楽ウェブサイトから抽出された歌唱訓練データを用いて、スクラッチから構築された多言語歌唱音声合成システムである。
DeepSingerを3つの言語で89人の歌手から約92時間のデータからなるマイニングされた歌唱データセットで評価した。
論文 参考訳(メタデータ) (2020-07-09T07:00:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。