論文の概要: Music Style Transfer With Diffusion Model
- arxiv url: http://arxiv.org/abs/2404.14771v1
- Date: Tue, 23 Apr 2024 06:22:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 15:00:46.326069
- Title: Music Style Transfer With Diffusion Model
- Title(参考訳): 拡散モデルによる音楽スタイルの伝達
- Authors: Hong Huang, Yuyi Wang, Luyao Li, Jun Lin,
- Abstract要約: 本研究では,拡散モデル(DM)に基づく音楽スタイルの転送フレームワークを提案し,スペクトル法を用いてマルチ・マルチ・マルチ音楽スタイルの転送を実現する。
GuideDiff法は、スペクトルを高忠実度オーディオに復元し、音声生成速度を加速し、生成されたオーディオのノイズを低減するために用いられる。
- 参考スコア(独自算出の注目度): 11.336043499372792
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Previous studies on music style transfer have mainly focused on one-to-one style conversion, which is relatively limited. When considering the conversion between multiple styles, previous methods required designing multiple modes to disentangle the complex style of the music, resulting in large computational costs and slow audio generation. The existing music style transfer methods generate spectrograms with artifacts, leading to significant noise in the generated audio. To address these issues, this study proposes a music style transfer framework based on diffusion models (DM) and uses spectrogram-based methods to achieve multi-to-multi music style transfer. The GuideDiff method is used to restore spectrograms to high-fidelity audio, accelerating audio generation speed and reducing noise in the generated audio. Experimental results show that our model has good performance in multi-mode music style transfer compared to the baseline and can generate high-quality audio in real-time on consumer-grade GPUs.
- Abstract(参考訳): 音楽のスタイル変換に関するこれまでの研究は、主に1対1のスタイル変換に焦点を合わせてきたが、これは比較的限定的である。
複数のスタイル間の変換を考える場合、従来の手法では複雑なスタイルをアンタングルするために複数のモードを設計しなければならなかったため、計算コストが大きくなり、オーディオ生成が遅くなった。
既存の音楽スタイルの転送手法は、アーティファクトでスペクトログラムを生成し、生成されたオーディオに大きなノイズをもたらす。
これらの課題に対処するために,拡散モデル(DM)に基づく音楽スタイルの転送フレームワークを提案し,マルチ・マルチ・マルチな音楽スタイルの転送を実現するためにスペクトログラムを用いた手法を用いた。
GuideDiff法は、スペクトルを高忠実度オーディオに復元し、音声生成速度を加速し、生成されたオーディオのノイズを低減するために用いられる。
実験結果から,本モデルはベースラインと比較してマルチモード音楽スタイルの転送性能が良好であり,コンシューマグレードのGPUで高品質な音声をリアルタイムに生成できることが示唆された。
関連論文リスト
- Combining audio control and style transfer using latent diffusion [1.705371629600151]
本稿では,単一モデル内での明示的な制御とスタイル転送を統一することを目的とする。
我々のモデルは、明示的な制御または他のオーディオ例を通して構造を指定しながら、音色ターゲットにマッチする音声を生成することができる。
本手法は,異なるジャンルのターゲットオーディオのスタイルにリズミカル・メロディックなコンテンツを転送することで,完全な楽曲のカバーバージョンを生成することができることを示す。
論文 参考訳(メタデータ) (2024-07-31T23:27:27Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - Controllable Music Production with Diffusion Models and Guidance
Gradients [3.187381965457262]
44.1kHzステレオオーディオにおいて,拡散モデルから条件付き生成を用いて,様々な現実的なタスクに対処する方法を実証する。
このシナリオには、継続性、音楽オーディオのインペイントと再生、2つの異なる音楽トラック間のスムーズな遷移の生成、既存のオーディオクリップへの所望のスタイル特性の転送などが含まれる。
論文 参考訳(メタデータ) (2023-11-01T16:01:01Z) - MusicLDM: Enhancing Novelty in Text-to-Music Generation Using
Beat-Synchronous Mixup Strategies [32.482588500419006]
我々は,静的拡散とAudioLDMアーキテクチャを音楽領域に適応させる,最先端のテキスト・音楽モデルMusicLDMを構築した。
我々は、ビート同期オーディオミキサップとビート同期潜在ミキサップという、データ拡張のための2つの異なるミックスアップ戦略を提案する。
一般的な評価指標に加えて,CLAPスコアに基づくいくつかの新しい評価指標を設計し,提案したMusicLDMとビート同期ミックスアップ手法が生成した楽曲の品質とノベルティの両方を改善することを示す。
論文 参考訳(メタデータ) (2023-08-03T05:35:37Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - Music Mixing Style Transfer: A Contrastive Learning Approach to
Disentangle Audio Effects [23.29395422386749]
入力されたマルチトラックのミキシングスタイルを参照歌のミキシングスタイルに変換するエンド・ツー・エンドのミキシングスタイル転送システムを提案する。
これは、基準音楽記録からオーディオ効果関連情報のみを抽出するために、コントラスト目的で事前訓練されたエンコーダで達成される。
論文 参考訳(メタデータ) (2022-11-04T03:45:17Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - Self-Supervised VQ-VAE For One-Shot Music Style Transfer [2.6381163133447836]
本稿ではベクトル量子化変分オートエンコーダ(VQ-VAE)の拡張に基づくワンショット音色変換法を提案する。
提案手法は,客観的な指標を用いて評価し,選択した基準線を上回り得ることを示す。
論文 参考訳(メタデータ) (2021-02-10T21:42:49Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。