論文の概要: Music Consistency Models
- arxiv url: http://arxiv.org/abs/2404.13358v1
- Date: Sat, 20 Apr 2024 11:52:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 19:19:56.967297
- Title: Music Consistency Models
- Title(参考訳): 音楽の一貫性モデル
- Authors: Zhengcong Fei, Mingyuan Fan, Junshi Huang,
- Abstract要約: 本稿では,音楽クリップのメル-スペクトログラムを効率よく合成するために,一貫性モデルの概念を活用する音楽一貫性モデル(textttMusicCM)を提案する。
既存のテキストから音楽への拡散モデルに基づいて、textttMusicCMモデルは、一貫性の蒸留と逆微分器の訓練を取り入れている。
実験結果から, 計算効率, 忠実度, 自然性の観点から, モデルの有効性が明らかとなった。
- 参考スコア(独自算出の注目度): 31.415900049111023
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Consistency models have exhibited remarkable capabilities in facilitating efficient image/video generation, enabling synthesis with minimal sampling steps. It has proven to be advantageous in mitigating the computational burdens associated with diffusion models. Nevertheless, the application of consistency models in music generation remains largely unexplored. To address this gap, we present Music Consistency Models (\texttt{MusicCM}), which leverages the concept of consistency models to efficiently synthesize mel-spectrogram for music clips, maintaining high quality while minimizing the number of sampling steps. Building upon existing text-to-music diffusion models, the \texttt{MusicCM} model incorporates consistency distillation and adversarial discriminator training. Moreover, we find it beneficial to generate extended coherent music by incorporating multiple diffusion processes with shared constraints. Experimental results reveal the effectiveness of our model in terms of computational efficiency, fidelity, and naturalness. Notable, \texttt{MusicCM} achieves seamless music synthesis with a mere four sampling steps, e.g., only one second per minute of the music clip, showcasing the potential for real-time application.
- Abstract(参考訳): 一貫性モデルは、画像/ビデオの効率的な生成を容易にし、最小限のサンプリングステップで合成することができる。
拡散モデルに関連する計算負担を軽減するのに有利であることが証明されている。
それでも、音楽生成における一貫性モデルの適用は、ほとんど未検討のままである。
このギャップに対処するために,音楽クリップのメル-スペクトログラムを効率よく合成し,サンプリングステップ数を最小化しながら高品質を維持し,一貫性モデルの概念を活用する音楽一貫性モデル(\texttt{MusicCM})を提案する。
既存のテキストから音楽への拡散モデルに基づいて、 texttt{MusicCM} モデルは、一貫性の蒸留と逆微分器の訓練を取り入れている。
さらに,複数の拡散過程を共有制約に組み込むことで,拡張コヒーレントな音楽を生成することにも有用である。
実験結果から, 計算効率, 忠実度, 自然性の観点から, モデルの有効性が明らかとなった。
注目すべきは、‘texttt{MusicCM} は、わずか4ステップのサンプリングステップでシームレスな音楽合成を実現することだ。
関連論文リスト
- One Step Diffusion via Shortcut Models [109.72495454280627]
単一ネットワークとトレーニングフェーズを用いて高品質なサンプルを生成する,生成モデルのファミリであるショートカットモデルを導入する。
ショートカットモデルは、現在のノイズレベルと所望のステップサイズにネットワークを条件付け、生成プロセスでモデルをスキップすることができる。
蒸留と比較して、ショートカットモデルは複雑性を1つのネットワークとトレーニングフェーズに減らし、推論時に様々なステップ予算を許容する。
論文 参考訳(メタデータ) (2024-10-16T13:34:40Z) - Diff-A-Riff: Musical Accompaniment Co-creation via Latent Diffusion Models [0.0]
ディフ・A・リフ(Diff-A-Riff)は、あらゆる音楽的文脈に適応する高品質な楽器を生成するために設計された潜在拡散モデルである。
48kHzの擬似ステレオオーディオを生成し、推論時間とメモリ使用量を大幅に削減する。
論文 参考訳(メタデータ) (2024-06-12T16:34:26Z) - DITTO: Diffusion Inference-Time T-Optimization for Music Generation [49.90109850026932]
Diffusion Inference-Time T-Optimization (DITTO) は、事前訓練されたテキストから音楽への拡散モデルを推論時に制御するためのフレームワークである。
我々は、インペイント、アウトペイント、ループ化、強度、メロディ、音楽構造制御など、驚くほど幅広い音楽生成応用を実証する。
論文 参考訳(メタデータ) (2024-01-22T18:10:10Z) - VideoLCM: Video Latent Consistency Model [52.3311704118393]
VideoLCMは、既存の遅延ビデオ拡散モデルの上に構築され、遅延一貫性モデルをトレーニングするための一貫性蒸留技術が組み込まれている。
ビデオLCMは4ステップのみのサンプリングで高忠実でスムーズなビデオ合成を実現し,リアルタイム合成の可能性を示す。
論文 参考訳(メタデータ) (2023-12-14T16:45:36Z) - Fast Diffusion GAN Model for Symbolic Music Generation Controlled by
Emotions [1.6004393678882072]
本稿では,離散的なシンボリック音楽を生成するために,ジェネレーティブ・アドバイサル・ネットワークと組み合わせた拡散モデルを提案する。
まず、訓練された変分オートエンコーダを用いて、感情ラベル付きシンボリック音楽データセットの埋め込みを得た。
以上の結果から,所望の感情を持つシンボリック音楽を生成するための拡散モデルの有効性が示された。
論文 参考訳(メタデータ) (2023-10-21T15:35:43Z) - Taming Diffusion Models for Music-driven Conducting Motion Generation [1.0624606551524207]
本稿では,Diffusion-Conductorについて述べる。
本稿では,特徴のロバスト性を改善するためのランダムマスキング手法を提案し,幾何損失関数のペアを用いて正規化を付加する。
また,Frechet Gesture Distance (FGD) や Beat Consistency Score (BC) など,より包括的な動作評価のための新しい指標も設計した。
論文 参考訳(メタデータ) (2023-06-15T03:49:24Z) - HiddenSinger: High-Quality Singing Voice Synthesis via Neural Audio
Codec and Latent Diffusion Models [25.966328901566815]
ニューラルオーディオと潜時拡散モデルを用いた高品質な歌声合成システムHiddenSingerを提案する。
さらに,提案手法を教師なし音声学習フレームワークであるHiddenSinger-Uに拡張し,モデルを訓練する。
実験結果から,従来のモデルよりも音質が優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-12T01:21:41Z) - Boosting Fast and High-Quality Speech Synthesis with Linear Diffusion [85.54515118077825]
本稿では, 常微分方程式に基づく線形拡散モデル(LinDiff)を提案する。
計算複雑性を低減するため、LinDiffでは、入力信号を小さなパッチに分割するパッチベースの処理アプローチを採用している。
我々のモデルは、より高速な合成速度で自己回帰モデルに匹敵する品質の音声を合成することができる。
論文 参考訳(メタデータ) (2023-06-09T07:02:43Z) - DiffSinger: Diffusion Acoustic Model for Singing Voice Synthesis [53.19363127760314]
DiffSingerは、音楽スコアで調整されたメログラムにノイズを反復的に変換するパラメータ化されたマルコフチェーンです。
中国の歌唱データセットで行った評価は、DiffSingerが最先端のSVSワークを顕著な差で上回っていることを示している。
論文 参考訳(メタデータ) (2021-05-06T05:21:42Z) - Hybrid modeling: Applications in real-time diagnosis [64.5040763067757]
我々は、機械学習にインスパイアされたモデルと物理モデルを組み合わせた、新しいハイブリッドモデリングアプローチの概要を述べる。
このようなモデルをリアルタイム診断に利用しています。
論文 参考訳(メタデータ) (2020-03-04T00:44:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。