論文の概要: MusicMagus: Zero-Shot Text-to-Music Editing via Diffusion Models
- arxiv url: http://arxiv.org/abs/2402.06178v1
- Date: Fri, 9 Feb 2024 04:34:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 17:50:11.590219
- Title: MusicMagus: Zero-Shot Text-to-Music Editing via Diffusion Models
- Title(参考訳): MusicMagus: 拡散モデルによるゼロショットテキスト音楽編集
- Authors: Yixiao Zhang, Yukara Ikemiya, Gus Xia, Naoki Murata, Marco Mart\'inez,
Wei-Hsiang Liao, Yuki Mitsufuji, Simon Dixon
- Abstract要約: 本稿では,テキスト・ツー・ミュージック・モデルによって生成される音楽の編集に対する新しいアプローチを提案する。
本手法は,テキスト編集をテキストテンプレート空間操作に変換するとともに,一貫性を強制する余分な制約を加える。
実験により, ゼロショットと特定の教師付きベースラインの双方に対して, スタイルおよび音色伝達評価において優れた性能を示した。
- 参考スコア(独自算出の注目度): 23.317338028844556
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent advances in text-to-music generation models have opened new avenues in
musical creativity. However, music generation usually involves iterative
refinements, and how to edit the generated music remains a significant
challenge. This paper introduces a novel approach to the editing of music
generated by such models, enabling the modification of specific attributes,
such as genre, mood and instrument, while maintaining other aspects unchanged.
Our method transforms text editing to \textit{latent space manipulation} while
adding an extra constraint to enforce consistency. It seamlessly integrates
with existing pretrained text-to-music diffusion models without requiring
additional training. Experimental results demonstrate superior performance over
both zero-shot and certain supervised baselines in style and timbre transfer
evaluations. Additionally, we showcase the practical applicability of our
approach in real-world music editing scenarios.
- Abstract(参考訳): テキストから音楽への生成モデルの最近の進歩は、音楽の創造性に新たな道を開いた。
しかし、音楽生成は通常反復的な洗練が伴い、生成した音楽の編集方法が重要な課題である。
本稿では,このようなモデルが生成する楽曲の編集に新たなアプローチを導入し,ジャンルやムード,楽器などの特定の属性の変更を可能とし,他の側面をそのままに維持する。
本手法では,テキスト編集を\textit{latent space manipulation}に変換し,一貫性を強制するために余分な制約を付加する。
既存の事前訓練されたテキストから音楽への拡散モデルとシームレスに統合する。
実験により, ゼロショットと特定の教師付きベースラインの双方に対して, スタイルおよび音色伝達評価において優れた性能を示した。
さらに,実際の音楽編集シナリオにおいて,本手法の実用性を示す。
関連論文リスト
- A Training-Free Approach for Music Style Transfer with Latent Diffusion Models [5.734429262507927]
本稿では,事前学習型潜在拡散モデル(LDM)を利用した新しい学習自由アプローチを提案する。
LDMの自己注意機能を操作することで、コンテンツ音楽への参照音楽のスタイルを、追加のトレーニングなしで効果的に転送する。
論文 参考訳(メタデータ) (2024-11-24T16:53:34Z) - MusicFlow: Cascaded Flow Matching for Text Guided Music Generation [53.63948108922333]
MusicFlowは、フローマッチングに基づくケースドテキストから音楽への生成モデルである。
学習目的としてマスク予測を活用することで,音楽の充実や継続といった他のタスクにモデルを一般化することができる。
論文 参考訳(メタデータ) (2024-10-27T15:35:41Z) - MuseBarControl: Enhancing Fine-Grained Control in Symbolic Music Generation through Pre-Training and Counterfactual Loss [51.85076222868963]
制御信号と対応する音楽トークンを直接リンクする事前学習タスクを導入する。
次に、生成した音楽と制御プロンプトとの整合性を向上する新たな対実的損失を実現する。
論文 参考訳(メタデータ) (2024-07-05T08:08:22Z) - MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。
本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。
音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-06-07T06:38:59Z) - Instruct-MusicGen: Unlocking Text-to-Music Editing for Music Language Models via Instruction Tuning [24.6866990804501]
Instruct-MusicGenは、事前訓練されたMusicGenモデルを微調整して、効率的に編集命令に従う新しいアプローチである。
注目すべきは、Instruct-MusicGenはオリジナルのMusicGenモデルに8%新しいパラメータを導入し、5Kステップでのみ列車を走らせることだ。
論文 参考訳(メタデータ) (2024-05-28T17:27:20Z) - InstructME: An Instruction Guided Music Edit And Remix Framework with
Latent Diffusion Models [42.2977676825086]
本稿では,遅延拡散モデルに基づくインストラクションガイド付き音楽編集・リミックスフレームワークであるInstructMEを開発する。
本フレームワークは,編集前後の一貫性を維持するため,U-Netをマルチスケールアグリゲーションで強化する。
提案手法は, 音質, テキスト関連性, 調和性において, 先行するシステムを大幅に上回っている。
論文 参考訳(メタデータ) (2023-08-28T07:11:42Z) - FateZero: Fusing Attentions for Zero-shot Text-based Video Editing [104.27329655124299]
本研究では,FateZeroを提案する。FateZeroは,実世界のビデオに対して,プロンプトごとのトレーニングや使用専用のマスクを使わずに,ゼロショットのテキストベースの編集手法である。
本手法は、ゼロショットテキスト駆動型ビデオスタイルと、訓練されたテキスト・ツー・イメージモデルからローカル属性を編集する機能を示す最初の方法である。
論文 参考訳(メタデータ) (2023-03-16T17:51:13Z) - ERNIE-Music: Text-to-Waveform Music Generation with Diffusion Models [67.66825818489406]
本稿では拡散モデルの利用を基盤としたテキストから波形への音楽生成モデルを提案する。
本手法は,波形生成プロセスの指針となる条件因子として,自由形式のテキストプロンプトの革新的導入を前提としている。
波形領域における我々の生成した音楽は、多様性、品質、およびテキスト音楽の関連性において、以前の作品よりも大きなマージンで優れていたことを実証する。
論文 参考訳(メタデータ) (2023-02-09T06:27:09Z) - Noise2Music: Text-conditioned Music Generation with Diffusion Models [73.74580231353684]
本研究では,テキストプロンプトから高品質な30秒音楽クリップを生成するために,一連の拡散モデルを訓練するNoss2Musicを紹介する。
生成した音声は、ジャンル、テンポ、楽器、ムード、時代など、テキストプロンプトの重要な要素を忠実に反映できるだけでなく、テキストプロンプトを忠実に反映できる。
トレーニングセットのオーディオのためにペア化されたテキストを生成し、拡散モデルによって取り込まれたテキストプロンプトの埋め込みを抽出するために使用される。
論文 参考訳(メタデータ) (2023-02-08T07:27:27Z) - Actions Speak Louder than Listening: Evaluating Music Style Transfer
based on Editing Experience [4.986422167919228]
本研究では,音楽生成モデルのユーザによる編集経験を体系的に評価するための編集テストを提案する。
その結果, ベースラインモデルに対する改善は, 編集試験によって定量的に反映できることが示唆された。
論文 参考訳(メタデータ) (2021-10-25T12:20:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。