論文の概要: KaraSinger: Score-Free Singing Voice Synthesis with VQ-VAE using
Mel-spectrograms
- arxiv url: http://arxiv.org/abs/2110.04005v1
- Date: Fri, 8 Oct 2021 10:00:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-11 16:52:46.375742
- Title: KaraSinger: Score-Free Singing Voice Synthesis with VQ-VAE using
Mel-spectrograms
- Title(参考訳): karasinger:メルスペクトログラムを用いたvq-vaeによるスコアフリー歌唱音声合成
- Authors: Chien-Feng Liao, Jen-Yu Liu, Yi-Hsuan Yang
- Abstract要約: そこで我々はKaraSingerと呼ばれる新しいニューラルネットワークモデルを提案する。
KaraSingerは、歌唱音声のメルスペクトルを離散コード列に圧縮するベクトル量子化変分オートエンコーダ(VQ-VAE)と、対応する歌詞が与えられた離散コードを予測する言語モデル(LM)とを備える。
複数のアマチュア歌手が歌った550曲の英語ポップソングのプロプライエタリコレクションを用いて,提案したデザイン選択の有効性を検証した。
- 参考スコア(独自算出の注目度): 42.59716267275078
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a novel neural network model called KaraSinger for
a less-studied singing voice synthesis (SVS) task named score-free SVS, in
which the prosody and melody are spontaneously decided by machine. KaraSinger
comprises a vector-quantized variational autoencoder (VQ-VAE) that compresses
the Mel-spectrograms of singing audio to sequences of discrete codes, and a
language model (LM) that learns to predict the discrete codes given the
corresponding lyrics. For the VQ-VAE part, we employ a Connectionist Temporal
Classification (CTC) loss to encourage the discrete codes to carry
phoneme-related information. For the LM part, we use location-sensitive
attention for learning a robust alignment between the input phoneme sequence
and the output discrete code. We keep the architecture of both the VQ-VAE and
LM light-weight for fast training and inference speed. We validate the
effectiveness of the proposed design choices using a proprietary collection of
550 English pop songs sung by multiple amateur singers. The result of a
listening test shows that KaraSinger achieves high scores in intelligibility,
musicality, and the overall quality.
- Abstract(参考訳): 本稿では,歌唱音声合成(svs)課題であるスコアフリーsvsに対して,韻律とメロディを機械によって自発的に決定する,カラシンガーと呼ばれる新しいニューラルネットワークモデルを提案する。
KaraSingerは、歌唱音声のメルスペクトルを離散コード列に圧縮するベクトル量子化変分オートエンコーダ(VQ-VAE)と、対応する歌詞が与えられた離散コードを予測する言語モデル(LM)とを備える。
VQ-VAEでは,音素関連情報を個別のコードに伝達するよう促すために,コネクショニスト時間分類(CTC)の損失を用いる。
LM部分には,入力音素シーケンスと出力離散符号とのロバストなアライメントを学習するために,位置感応注意を用いる。
VQ-VAEとLMの両方のアーキテクチャを高速なトレーニングと推論速度のために維持する。
複数のアマチュア歌手が歌う550曲の英語ポップソングのプロプライエタリコレクションを用いて,提案手法の有効性を検証する。
聴取試験の結果,カラシンガーは知性,音楽性,全体的な品質の点で高いスコアを達成できた。
関連論文リスト
- Cluster and Separate: a GNN Approach to Voice and Staff Prediction for Score Engraving [5.572472212662453]
本稿では,音符を量子化された記号楽曲(例えばMIDIファイル)から複数の音声とステーブに分離する問題にアプローチする。
本稿では,同じ和音に属する音符を音声の一部であればエッジで接続する,グラフニューラルネットワークに基づくエンドツーエンドシステムを提案する。
論文 参考訳(メタデータ) (2024-07-15T14:36:13Z) - VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment [101.2489492032816]
VALL-E Rは、堅牢で効率的なゼロショットテキスト音声合成システムである。
この研究は、失語症に罹患した人々のためのスピーチの作成を含む有意義なプロジェクトに適用される可能性がある。
論文 参考訳(メタデータ) (2024-06-12T04:09:44Z) - RMSSinger: Realistic-Music-Score based Singing Voice Synthesis [56.51475521778443]
RMS-SVSは、異なる音符タイプでリアル音楽のスコアを与えられた高品質な歌声を生成することを目的としている。
RMS-SVS方式であるRMSSingerを提案する。
RMSSingerでは,時間を要する音素の持続時間アノテーションと複雑な音素レベルのメルノートアライメントを避けるために,単語レベルのモデリングを導入する。
論文 参考訳(メタデータ) (2023-05-18T03:57:51Z) - AlignSTS: Speech-to-Singing Conversion via Cross-Modal Alignment [67.10208647482109]
STS音声変換タスクは,音声録音に対応する歌唱サンプルを生成することを目的としている。
本稿では,明示的なクロスモーダルアライメントに基づくSTSモデルであるAlignSTSを提案する。
実験の結果、AlignSTSは客観的メトリクスと主観的メトリクスの両方で優れたパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-05-08T06:02:10Z) - Karaoker: Alignment-free singing voice synthesis with speech training
data [3.9795908407245055]
カラオカー (Karaoker) は、タコトロンをベースとした多話者モデルである。
このモデルは、連続データ上に1つの深い畳み込みエンコーダで共同条件付けされている。
特徴再構成,分類,話者識別タスクによるテキスト音声訓練の目的を拡大する。
論文 参考訳(メタデータ) (2022-04-08T15:33:59Z) - Learning the Beauty in Songs: Neural Singing Voice Beautifier [69.21263011242907]
我々は、新しいタスク、歌声美化(SVB)に興味を持っている。
アマチュア歌手の歌声を考えると、SVBは内容と声の音色を保ちながら、声のイントネーションと声のトーンを改善することを目的としている。
SVBタスクを解く最初の生成モデルであるNSVB(Neural Singing Voice Beautifier)を導入する。
論文 参考訳(メタデータ) (2022-02-27T03:10:12Z) - Sinsy: A Deep Neural Network-Based Singing Voice Synthesis System [25.573552964889963]
本稿では,ディープニューラルネットワーク(DNN)に基づく歌唱音声合成(SVS)システムであるSinsyについて述べる。
提案システムは,時間ラグモデル,持続時間モデル,音響モデル,ボコーダの4つのモジュールから構成される。
実験結果から,より適切なタイミング,より自然なビブラート,正しいピッチで歌唱音声を合成できることが確認された。
論文 参考訳(メタデータ) (2021-08-05T17:59:58Z) - DiffSinger: Diffusion Acoustic Model for Singing Voice Synthesis [53.19363127760314]
DiffSingerは、音楽スコアで調整されたメログラムにノイズを反復的に変換するパラメータ化されたマルコフチェーンです。
中国の歌唱データセットで行った評価は、DiffSingerが最先端のSVSワークを顕著な差で上回っていることを示している。
論文 参考訳(メタデータ) (2021-05-06T05:21:42Z) - Speech-to-Singing Conversion in an Encoder-Decoder Framework [38.111942306157545]
我々は,話し言葉を歌声に変換する問題に対して,学習に基づくアプローチを採っている。
話者の言語内容と音色を保存する歌を合成できるエンコーディングを学習する。
論文 参考訳(メタデータ) (2020-02-16T15:33:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。