論文の概要: RMSSinger: Realistic-Music-Score based Singing Voice Synthesis
- arxiv url: http://arxiv.org/abs/2305.10686v1
- Date: Thu, 18 May 2023 03:57:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 16:59:56.231311
- Title: RMSSinger: Realistic-Music-Score based Singing Voice Synthesis
- Title(参考訳): RMSSinger: リアル音楽スコアに基づく歌声合成
- Authors: Jinzheng He, Jinglin Liu, Zhenhui Ye, Rongjie Huang, Chenye Cui,
Huadai Liu, Zhou Zhao
- Abstract要約: RMS-SVSは、異なる音符タイプでリアル音楽のスコアを与えられた高品質な歌声を生成することを目的としている。
RMS-SVS方式であるRMSSingerを提案する。
RMSSingerでは,時間を要する音素の持続時間アノテーションと複雑な音素レベルのメルノートアライメントを避けるために,単語レベルのモデリングを導入する。
- 参考スコア(独自算出の注目度): 56.51475521778443
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We are interested in a challenging task, Realistic-Music-Score based Singing
Voice Synthesis (RMS-SVS). RMS-SVS aims to generate high-quality singing voices
given realistic music scores with different note types (grace, slur, rest,
etc.). Though significant progress has been achieved, recent singing voice
synthesis (SVS) methods are limited to fine-grained music scores, which require
a complicated data collection pipeline with time-consuming manual annotation to
align music notes with phonemes. Furthermore, these manual annotation destroys
the regularity of note durations in music scores, making fine-grained music
scores inconvenient for composing. To tackle these challenges, we propose
RMSSinger, the first RMS-SVS method, which takes realistic music scores as
input, eliminating most of the tedious manual annotation and avoiding the
aforementioned inconvenience. Note that music scores are based on words rather
than phonemes, in RMSSinger, we introduce word-level modeling to avoid the
time-consuming phoneme duration annotation and the complicated phoneme-level
mel-note alignment. Furthermore, we propose the first diffusion-based pitch
modeling method, which ameliorates the naturalness of existing pitch-modeling
methods. To achieve these, we collect a new dataset containing realistic music
scores and singing voices according to these realistic music scores from
professional singers. Extensive experiments on the dataset demonstrate the
effectiveness of our methods. Audio samples are available at
https://rmssinger.github.io/.
- Abstract(参考訳): 我々は,RMS-SVS(Realistic-Music-Score based Singing Voice Synthesis)という課題に興味を持っている。
RMS-SVSは、異なる音符タイプ(グレース、スラー、レストなど)でリアルな楽譜を与えられた高品質な歌声を生成することを目的としている。
近年の歌唱音声合成(SVS)法は大きな進歩を遂げているが, 音素と音素を一致させるためには, 複雑なデータ収集パイプラインと手作業による注釈が必要とされる。
さらに、これらの手書きアノテーションは、楽譜の音符持続時間の規則性を損なうため、作曲に不都合な微粒な楽譜を生成する。
これらの課題に対処するため, RMSSingerを提案する。RMSSingerは, RMS-SVS方式で, リアルな楽譜を入力として取り出し, 退屈な手書きアノテーションのほとんどを排除し, 上記の不便さを回避する。
RMSSingerでは,時間を要する音素の持続時間アノテーションと複雑な音素レベルのメルノートアライメントを避けるために,単語レベルのモデリングを導入する。
さらに,既存のピッチモデリング手法の自然性を改善する最初の拡散ベースピッチモデリング手法を提案する。
これらを実現するために,プロ歌手の現実的な音楽スコアに基づいて,現実的な音楽スコアと歌声を含む新たなデータセットを収集した。
データセットの大規模な実験により,本手法の有効性が示された。
オーディオサンプルはhttps://rmssinger.github.io/で入手できる。
関連論文リスト
- A Real-Time Lyrics Alignment System Using Chroma And Phonetic Features
For Classical Vocal Performance [7.488651253072641]
リアルタイムの歌詞アライメントの目標は、ライブの歌唱音声を入力として、その歌詞内の正確な位置をオンザフライでピンポイントすることである。
このタスクは、ライブコンサートやオペラの自動サブティットなど、現実世界のアプリケーションに役立てることができる。
本稿では,2つのコントリビューションを持つ古典的ボーカル演奏のためのリアルタイム歌詞アライメントシステムを提案する。
論文 参考訳(メタデータ) (2024-01-17T13:25:32Z) - Enhancing the vocal range of single-speaker singing voice synthesis with
melody-unsupervised pre-training [82.94349771571642]
本研究では, メロディ非教師型マルチスピーカ事前学習法を提案し, シングルスピーカの発声域を拡大する。
合成音声のリズム自然性を改善するために、識別可能な持続時間調整器を導入するのは、これが初めてである。
実験により,提案したSVSシステムは,音質と自然性の両方において,ベースラインよりも優れていることを確認した。
論文 参考訳(メタデータ) (2023-09-01T06:40:41Z) - MusicLDM: Enhancing Novelty in Text-to-Music Generation Using
Beat-Synchronous Mixup Strategies [32.482588500419006]
我々は,静的拡散とAudioLDMアーキテクチャを音楽領域に適応させる,最先端のテキスト・音楽モデルMusicLDMを構築した。
我々は、ビート同期オーディオミキサップとビート同期潜在ミキサップという、データ拡張のための2つの異なるミックスアップ戦略を提案する。
一般的な評価指標に加えて,CLAPスコアに基づくいくつかの新しい評価指標を設計し,提案したMusicLDMとビート同期ミックスアップ手法が生成した楽曲の品質とノベルティの両方を改善することを示す。
論文 参考訳(メタデータ) (2023-08-03T05:35:37Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - AlignSTS: Speech-to-Singing Conversion via Cross-Modal Alignment [67.10208647482109]
STS音声変換タスクは,音声録音に対応する歌唱サンプルを生成することを目的としている。
本稿では,明示的なクロスモーダルアライメントに基づくSTSモデルであるAlignSTSを提案する。
実験の結果、AlignSTSは客観的メトリクスと主観的メトリクスの両方で優れたパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-05-08T06:02:10Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z) - Unaligned Supervision For Automatic Music Transcription in The Wild [1.2183405753834562]
NoteEMは、トランクレーバーを同時に訓練し、スコアを対応するパフォーマンスに合わせる方法である。
我々は、MAPSデータセットのSOTAノートレベル精度と、データセット間の評価において好適なマージンを報告した。
論文 参考訳(メタデータ) (2022-04-28T17:31:43Z) - Deep Performer: Score-to-Audio Music Performance Synthesis [30.95307878579825]
Deep Performer(ディープ・パーフォーマー)は、音楽の楽譜合成のための新しいシステムである。
音声とは異なり、音楽はポリフォニーや長い音符を含むことが多い。
提案モデルでは, 鮮明なポリフォニーとハーモニック構造で楽曲を合成できることが示されている。
論文 参考訳(メタデータ) (2022-02-12T10:36:52Z) - KaraSinger: Score-Free Singing Voice Synthesis with VQ-VAE using
Mel-spectrograms [42.59716267275078]
そこで我々はKaraSingerと呼ばれる新しいニューラルネットワークモデルを提案する。
KaraSingerは、歌唱音声のメルスペクトルを離散コード列に圧縮するベクトル量子化変分オートエンコーダ(VQ-VAE)と、対応する歌詞が与えられた離散コードを予測する言語モデル(LM)とを備える。
複数のアマチュア歌手が歌った550曲の英語ポップソングのプロプライエタリコレクションを用いて,提案したデザイン選択の有効性を検証した。
論文 参考訳(メタデータ) (2021-10-08T10:00:23Z) - DiffSinger: Diffusion Acoustic Model for Singing Voice Synthesis [53.19363127760314]
DiffSingerは、音楽スコアで調整されたメログラムにノイズを反復的に変換するパラメータ化されたマルコフチェーンです。
中国の歌唱データセットで行った評価は、DiffSingerが最先端のSVSワークを顕著な差で上回っていることを示している。
論文 参考訳(メタデータ) (2021-05-06T05:21:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。