論文の概要: RDSinger: Reference-based Diffusion Network for Singing Voice Synthesis
- arxiv url: http://arxiv.org/abs/2410.21641v1
- Date: Tue, 29 Oct 2024 01:01:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:39:14.215799
- Title: RDSinger: Reference-based Diffusion Network for Singing Voice Synthesis
- Title(参考訳): RDSinger:歌声合成のための参照型拡散ネットワーク
- Authors: Kehan Sui, Jinxu Xiang, Fang Jin,
- Abstract要約: 歌声合成(SVS)は,音楽スコアから高忠実な歌唱音声を生成することを目的としている。
拡散モデルは、画像やビデオ作成のような様々な生成タスクにおいて、例外的なパフォーマンスを示している。
本稿では,SVSタスクのための高品質な音声を生成する参照型デノナイジング拡散ネットワーク RDSinger を紹介する。
- 参考スコア(独自算出の注目度): 3.7937714754535503
- License:
- Abstract: Singing voice synthesis (SVS) aims to produce high-fidelity singing audio from music scores, requiring a detailed understanding of notes, pitch, and duration, unlike text-to-speech tasks. Although diffusion models have shown exceptional performance in various generative tasks like image and video creation, their application in SVS is hindered by time complexity and the challenge of capturing acoustic features, particularly during pitch transitions. Some networks learn from the prior distribution and use the compressed latent state as a better start in the diffusion model, but the denoising step doesn't consistently improve quality over the entire duration. We introduce RDSinger, a reference-based denoising diffusion network that generates high-quality audio for SVS tasks. Our approach is inspired by Animate Anyone, a diffusion image network that maintains intricate appearance features from reference images. RDSinger utilizes FastSpeech2 mel-spectrogram as a reference to mitigate denoising step artifacts. Additionally, existing models could be influenced by misleading information on the compressed latent state during pitch transitions. We address this issue by applying Gaussian blur on partial reference mel-spectrogram and adjusting loss weights in these regions. Extensive ablation studies demonstrate the efficiency of our method. Evaluations on OpenCpop, a Chinese singing dataset, show that RDSinger outperforms current state-of-the-art SVS methods in performance.
- Abstract(参考訳): 歌声合成(SVS)は、テキスト・トゥ・音声タスクとは異なり、音符、ピッチ、持続時間に関する詳細な理解を必要とする、高忠実な歌声音声を音楽スコアから生成することを目的としている。
拡散モデルは画像やビデオ生成などの様々な生成タスクにおいて例外的な性能を示してきたが、SVSにおけるそれらの応用は、特にピッチ遷移において、時間的複雑さと音響的特徴を捉えることの難しさによって妨げられている。
一部のネットワークは、以前の分布から学習し、圧縮された潜在状態を拡散モデルのより良い出発点として使用する。
本稿では,SVSタスクのための高品質な音声を生成する参照型デノナイジング拡散ネットワーク RDSinger を紹介する。
我々のアプローチは、参照画像から複雑な外観特徴を維持する拡散画像ネットワークであるAnimate Anyoneにインスパイアされている。
RDSingerはFastSpeech2 mel-spectrogramをステップアーティファクトの緩和に利用している。
さらに、既存のモデルはピッチ遷移中に圧縮された潜在状態の誤った情報に影響される可能性がある。
部分参照メル-スペクトログラムにガウスのぼかしを適用し、これらの領域における損失重みを調整することでこの問題に対処する。
広範囲にわたるアブレーション研究は,本手法の効率を実証している。
中国の歌唱データセットであるOpenCpopの評価によると、RDSingerは現在の最先端のSVSメソッドよりもパフォーマンスが高い。
関連論文リスト
- Autoregressive Diffusion Transformer for Text-to-Speech Synthesis [39.32761051774537]
連続空間$mathbb Rd$のベクトル列として音響を符号化し、これらの列を自己回帰的に生成する。
高ビットレート連続音声表現は、ほとんど欠陥のない再構成を可能にし、我々のモデルは、ほぼ完璧な音声編集を実現できる。
論文 参考訳(メタデータ) (2024-06-08T18:57:13Z) - SpecDiff-GAN: A Spectrally-Shaped Noise Diffusion GAN for Speech and
Music Synthesis [0.0]
本稿では,HiFi-GANに基づくニューラルボコーダSpecDiff-GANを紹介する。
いくつかのデータセットに対して,提案モデルによる音声合成と音楽合成の利点を示す。
論文 参考訳(メタデータ) (2024-01-30T09:17:57Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - TVTSv2: Learning Out-of-the-box Spatiotemporal Visual Representations at
Scale [59.01246141215051]
言語指導の観点から,その劣化要因を分析した。
本稿では,テキストエンコーダの一般化能力を維持するために,教師なし事前学習戦略を提案する。
最大10億のパラメータを持つTVTSv2と呼ばれる一連のモデルを作成します。
論文 参考訳(メタデータ) (2023-05-23T15:44:56Z) - Self-Supervised Learning for Speech Enhancement through Synthesis [5.924928860260821]
そこで本研究では,ボコーダが雑音表現を受け入れ,クリーンな音声を直接合成する方法を学習する,デノナイズドボコーダ(DeVo)アプローチを提案する。
10msのレイテンシとパフォーマンスの低下を最小限に抑えながら,ストリーミングオーディオ上で動作可能な因果バージョンを実証した。
論文 参考訳(メタデータ) (2022-11-04T16:06:56Z) - SVTS: Scalable Video-to-Speech Synthesis [105.29009019733803]
本稿では,ビデオ・トゥ・スペクトログラム予測器と事前学習したニューラルボコーダの2つのコンポーネントからなるスケーラブルなビデオ音声合成フレームワークを提案する。
私たちは、挑戦的なLSS3データセットで不可解な結果を示す最初の人です。
論文 参考訳(メタデータ) (2022-05-04T13:34:07Z) - A Study of Designing Compact Audio-Visual Wake Word Spotting System
Based on Iterative Fine-Tuning in Neural Network Pruning [57.28467469709369]
視覚情報を利用した小型音声覚醒単語スポッティング(WWS)システムの設計について検討する。
繰り返し微調整方式(LTH-IF)で抽選券仮説を通したニューラルネットワークプルーニング戦略を導入する。
提案システムでは,ノイズ条件の異なる単一モード(オーディオのみ,ビデオのみ)システムに対して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-17T08:26:25Z) - DiffSVC: A Diffusion Probabilistic Model for Singing Voice Conversion [51.83469048737548]
本稿では拡散確率モデルに基づくSVCシステムであるDiffSVCを提案する。
DiffSVCでは、破壊されたメルスペクトログラムとその対応するステップ情報を入力として、付加されたガウスノイズを予測するデノナイジングモジュールを訓練する。
実験により、DiffSVCは、現在の最先端SVCアプローチと自然性および音声類似性の観点から、優れた変換性能が得られることが示された。
論文 参考訳(メタデータ) (2021-05-28T14:26:40Z) - DiffSinger: Diffusion Acoustic Model for Singing Voice Synthesis [53.19363127760314]
DiffSingerは、音楽スコアで調整されたメログラムにノイズを反復的に変換するパラメータ化されたマルコフチェーンです。
中国の歌唱データセットで行った評価は、DiffSingerが最先端のSVSワークを顕著な差で上回っていることを示している。
論文 参考訳(メタデータ) (2021-05-06T05:21:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。