論文の概要: A Training-Free Approach for Music Style Transfer with Latent Diffusion Models
- arxiv url: http://arxiv.org/abs/2411.15913v1
- Date: Sun, 24 Nov 2024 16:53:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:22:27.994329
- Title: A Training-Free Approach for Music Style Transfer with Latent Diffusion Models
- Title(参考訳): 潜時拡散モデルを用いた音楽スタイルの学習自由アプローチ
- Authors: Sooyoung Kim, Joonwoo Kwon, Heehwan Wang, Shinjae Yoo, Yuewei Lin, Jiook Cha,
- Abstract要約: 本稿では,事前学習型潜在拡散モデル(LDM)を利用した新しい学習自由アプローチを提案する。
LDMの自己注意機能を操作することで、コンテンツ音楽への参照音楽のスタイルを、追加のトレーニングなしで効果的に転送する。
- 参考スコア(独自算出の注目度): 5.734429262507927
- License:
- Abstract: Music style transfer, while offering exciting possibilities for personalized music generation, often requires extensive training or detailed textual descriptions. This paper introduces a novel training-free approach leveraging pre-trained Latent Diffusion Models (LDMs). By manipulating the self-attention features of the LDM, we effectively transfer the style of reference music onto content music without additional training. Our method achieves superior style transfer and melody preservation compared to existing methods. This work opens new creative avenues for personalized music generation.
- Abstract(参考訳): 音楽スタイルの転送は、パーソナライズされた音楽生成のためのエキサイティングな可能性を提供する一方で、広範囲のトレーニングや詳細なテキスト記述を必要とすることが多い。
本稿では,事前学習した潜在拡散モデル(LDM)を利用した新しい学習自由アプローチを提案する。
LDMの自己注意機能を操作することで、コンテンツ音楽への参照音楽のスタイルを、追加のトレーニングなしで効果的に転送する。
本手法は既存の方法に比べて優れたスタイル転送とメロディ保存を実現する。
この作品は、パーソナライズされた音楽生成のための新しい創造的な道を開く。
関連論文リスト
- Foundation Models for Music: A Survey [77.77088584651268]
ファンデーションモデル(FM)は音楽を含む様々な分野に大きな影響を与えている。
本総説では,音楽の事前学習モデルと基礎モデルについて概観する。
論文 参考訳(メタデータ) (2024-08-26T15:13:14Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - MusicMagus: Zero-Shot Text-to-Music Editing via Diffusion Models [24.582948932985726]
本稿では,テキスト・ツー・ミュージック・モデルによって生成される音楽の編集に対する新しいアプローチを提案する。
本手法は,テキスト編集をテキストテンプレート空間操作に変換するとともに,一貫性を強制する余分な制約を加える。
実験により, ゼロショットと特定の教師付きベースラインの双方に対して, スタイルおよび音色伝達評価において優れた性能を示した。
論文 参考訳(メタデータ) (2024-02-09T04:34:08Z) - MusicLDM: Enhancing Novelty in Text-to-Music Generation Using
Beat-Synchronous Mixup Strategies [32.482588500419006]
我々は,静的拡散とAudioLDMアーキテクチャを音楽領域に適応させる,最先端のテキスト・音楽モデルMusicLDMを構築した。
我々は、ビート同期オーディオミキサップとビート同期潜在ミキサップという、データ拡張のための2つの異なるミックスアップ戦略を提案する。
一般的な評価指標に加えて,CLAPスコアに基づくいくつかの新しい評価指標を設計し,提案したMusicLDMとビート同期ミックスアップ手法が生成した楽曲の品質とノベルティの両方を改善することを示す。
論文 参考訳(メタデータ) (2023-08-03T05:35:37Z) - Transfer Learning for Underrepresented Music Generation [0.9645196221785693]
我々は,イランの民謡を,大規模な生成音楽モデルであるMusicVAEのOODジャンルの例とみなす。
イランのフォーク・ミュージック・データセットにMusicVAEを効率よく適応させることで、将来、あまり表現されていない音楽ジャンルを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-06-01T01:53:10Z) - GETMusic: Generating Any Music Tracks with a Unified Representation and
Diffusion Framework [58.64512825534638]
シンボリック・ミュージック・ジェネレーションは、ユーザーが音楽を作るのに役立つ音符を作成することを目的としている。
私たちは「GETMusic」と呼ばれるフレームワークを紹介します。「GET'」は「GEnerate Music Tracks」の略です。
GETScoreは、音符をトークンとして表現し、2D構造でトークンを整理する。
提案する表現は,非自己回帰生成モデルと組み合わせて,任意のソース・ターゲットトラックの組み合わせでGETMusicに音楽を生成する。
論文 参考訳(メタデータ) (2023-05-18T09:53:23Z) - ERNIE-Music: Text-to-Waveform Music Generation with Diffusion Models [67.66825818489406]
本稿では拡散モデルの利用を基盤としたテキストから波形への音楽生成モデルを提案する。
本手法は,波形生成プロセスの指針となる条件因子として,自由形式のテキストプロンプトの革新的導入を前提としている。
波形領域における我々の生成した音楽は、多様性、品質、およびテキスト音楽の関連性において、以前の作品よりも大きなマージンで優れていたことを実証する。
論文 参考訳(メタデータ) (2023-02-09T06:27:09Z) - Personalized Popular Music Generation Using Imitation and Structure [1.971709238332434]
そこで本研究では,特定の例のシード曲から構造,メロディ,和音,バススタイルを捉え,模倣できる統計的機械学習モデルを提案する。
10曲のポップソングによる評価は,我々の新しい表現と手法が高品質なスタイリスティック音楽を作り出すことができることを示している。
論文 参考訳(メタデータ) (2021-05-10T23:43:00Z) - Self-Supervised VQ-VAE For One-Shot Music Style Transfer [2.6381163133447836]
本稿ではベクトル量子化変分オートエンコーダ(VQ-VAE)の拡張に基づくワンショット音色変換法を提案する。
提案手法は,客観的な指標を用いて評価し,選択した基準線を上回り得ることを示す。
論文 参考訳(メタデータ) (2021-02-10T21:42:49Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z) - Incorporating Music Knowledge in Continual Dataset Augmentation for
Music Generation [69.06413031969674]
Aug-Genは、リソース制約のあるドメインでトレーニングされた任意の音楽生成システムに対するデータセット拡張の方法である。
我々は、Aug-Gen をトランスフォーマーベースのコラール生成に J.S. Bach のスタイルで適用し、これによりより長いトレーニングが可能となり、より優れた生成出力が得られることを示す。
論文 参考訳(メタデータ) (2020-06-23T21:06:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。