論文の概要: FastSAG: Towards Fast Non-Autoregressive Singing Accompaniment Generation
- arxiv url: http://arxiv.org/abs/2405.07682v1
- Date: Mon, 13 May 2024 12:14:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 13:45:23.831228
- Title: FastSAG: Towards Fast Non-Autoregressive Singing Accompaniment Generation
- Title(参考訳): FastSAG: 高速な非自動歌唱伴奏生成を目指して
- Authors: Jianyi Chen, Wei Xue, Xu Tan, Zhen Ye, Qifeng Liu, Yike Guo,
- Abstract要約: 我々は高品質でコヒーレントな伴奏を生成できる高速なSAG法を開発した。
音声信号から推定される条件を慎重に設計することにより、ターゲット伴奏のメルスペクトログラムを直接生成する非AR拡散ベースフレームワークを開発した。
本研究では,本手法がSingSongよりも優れたサンプルを生成でき,少なくとも30倍の速度で生成を加速できることを実証した。
- 参考スコア(独自算出の注目度): 36.20472357852932
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Singing Accompaniment Generation (SAG), which generates instrumental music to accompany input vocals, is crucial to developing human-AI symbiotic art creation systems. The state-of-the-art method, SingSong, utilizes a multi-stage autoregressive (AR) model for SAG, however, this method is extremely slow as it generates semantic and acoustic tokens recursively, and this makes it impossible for real-time applications. In this paper, we aim to develop a Fast SAG method that can create high-quality and coherent accompaniments. A non-AR diffusion-based framework is developed, which by carefully designing the conditions inferred from the vocal signals, generates the Mel spectrogram of the target accompaniment directly. With diffusion and Mel spectrogram modeling, the proposed method significantly simplifies the AR token-based SingSong framework, and largely accelerates the generation. We also design semantic projection, prior projection blocks as well as a set of loss functions, to ensure the generated accompaniment has semantic and rhythm coherence with the vocal signal. By intensive experimental studies, we demonstrate that the proposed method can generate better samples than SingSong, and accelerate the generation by at least 30 times. Audio samples and code are available at https://fastsag.github.io/.
- Abstract(参考訳): Singing Accompaniment Generation (SAG) は,ヒト-AI共生アート作成システムの構築に不可欠である。
最新技術であるSingSongは、SAGのための多段階自己回帰(AR)モデルを使用しているが、この手法は意味的および音響的トークンを再帰的に生成するため非常に遅いため、リアルタイムアプリケーションでは不可能である。
本稿では,高品質でコヒーレントな伴奏を生成できる高速なSAG手法を提案する。
音声信号から推定される条件を慎重に設計することにより、ターゲット伴奏のメルスペクトログラムを直接生成する非AR拡散ベースフレームワークを開発した。
拡散とメルスペクトルモデリングにより,提案手法はARトークンベースのSingSongフレームワークを著しく単純化し,生成を著しく高速化する。
また、音声信号とのセマンティック・リズム整合性を確保するために、先行投影ブロックや損失関数のセットも設計する。
本研究では,本手法がSingSongよりも優れたサンプルを生成でき,少なくとも30倍の速度で生成を加速できることを実証した。
オーディオサンプルとコードはhttps://fastsag.github.io/.com/で公開されている。
関連論文リスト
- An End-to-End Approach for Chord-Conditioned Song Generation [14.951089833579063]
歌唱課題は、歌詞から声楽と伴奏からなる音楽を合成することを目的としている。
この問題を軽減するため,コードから曲生成ネットワークまで,音楽作曲から重要な概念を導入する。
そこで本研究では,CSG(Chord-Conditioned Song Generator)と呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-09-10T08:07:43Z) - DITTO-2: Distilled Diffusion Inference-Time T-Optimization for Music Generation [43.61383132919089]
制御可能な音楽生成方法は、人間中心のAIベースの音楽生成に不可欠である。
DITTO-2(Distilled Diffusion Inference-Time T-Optimization)を提案する。
論文 参考訳(メタデータ) (2024-05-30T17:40:11Z) - SpecDiff-GAN: A Spectrally-Shaped Noise Diffusion GAN for Speech and
Music Synthesis [0.0]
本稿では,HiFi-GANに基づくニューラルボコーダSpecDiff-GANを紹介する。
いくつかのデータセットに対して,提案モデルによる音声合成と音楽合成の利点を示す。
論文 参考訳(メタデータ) (2024-01-30T09:17:57Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - RMSSinger: Realistic-Music-Score based Singing Voice Synthesis [56.51475521778443]
RMS-SVSは、異なる音符タイプでリアル音楽のスコアを与えられた高品質な歌声を生成することを目的としている。
RMS-SVS方式であるRMSSingerを提案する。
RMSSingerでは,時間を要する音素の持続時間アノテーションと複雑な音素レベルのメルノートアライメントを避けるために,単語レベルのモデリングを導入する。
論文 参考訳(メタデータ) (2023-05-18T03:57:51Z) - DiffSinger: Diffusion Acoustic Model for Singing Voice Synthesis [53.19363127760314]
DiffSingerは、音楽スコアで調整されたメログラムにノイズを反復的に変換するパラメータ化されたマルコフチェーンです。
中国の歌唱データセットで行った評価は、DiffSingerが最先端のSVSワークを顕著な差で上回っていることを示している。
論文 参考訳(メタデータ) (2021-05-06T05:21:42Z) - Hierarchical Timbre-Painting and Articulation Generation [92.59388372914265]
本稿では,f0と大音量に基づく高速かつ高忠実な楽曲生成手法を提案する。
合成音声は、対象楽器の音色及び調音を模倣する。
論文 参考訳(メタデータ) (2020-08-30T05:27:39Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。