Fugu-MT 論文翻訳(概要): MusicMagus: Zero-Shot Text-to-Music Editing via Diffusion Models

論文の概要: MusicMagus: Zero-Shot Text-to-Music Editing via Diffusion Models

arxiv url: http://arxiv.org/abs/2402.06178v1
Date: Fri, 9 Feb 2024 04:34:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-12 17:50:11.590219
Title: MusicMagus: Zero-Shot Text-to-Music Editing via Diffusion Models
Title（参考訳）: MusicMagus: 拡散モデルによるゼロショットテキスト音楽編集
Authors: Yixiao Zhang, Yukara Ikemiya, Gus Xia, Naoki Murata, Marco Mart\'inez, Wei-Hsiang Liao, Yuki Mitsufuji, Simon Dixon
Abstract要約: 本稿では,テキスト・ツー・ミュージック・モデルによって生成される音楽の編集に対する新しいアプローチを提案する。本手法は,テキスト編集をテキストテンプレート空間操作に変換するとともに,一貫性を強制する余分な制約を加える。実験により, ゼロショットと特定の教師付きベースラインの双方に対して, スタイルおよび音色伝達評価において優れた性能を示した。
参考スコア（独自算出の注目度）: 23.317338028844556
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Recent advances in text-to-music generation models have opened new avenues in musical creativity. However, music generation usually involves iterative refinements, and how to edit the generated music remains a significant challenge. This paper introduces a novel approach to the editing of music generated by such models, enabling the modification of specific attributes, such as genre, mood and instrument, while maintaining other aspects unchanged. Our method transforms text editing to \textit{latent space manipulation} while adding an extra constraint to enforce consistency. It seamlessly integrates with existing pretrained text-to-music diffusion models without requiring additional training. Experimental results demonstrate superior performance over both zero-shot and certain supervised baselines in style and timbre transfer evaluations. Additionally, we showcase the practical applicability of our approach in real-world music editing scenarios.
Abstract（参考訳）: テキストから音楽への生成モデルの最近の進歩は、音楽の創造性に新たな道を開いた。しかし、音楽生成は通常反復的な洗練が伴い、生成した音楽の編集方法が重要な課題である。本稿では,このようなモデルが生成する楽曲の編集に新たなアプローチを導入し,ジャンルやムード,楽器などの特定の属性の変更を可能とし,他の側面をそのままに維持する。本手法では,テキスト編集を\textit{latent space manipulation}に変換し,一貫性を強制するために余分な制約を付加する。既存の事前訓練されたテキストから音楽への拡散モデルとシームレスに統合する。実験により, ゼロショットと特定の教師付きベースラインの双方に対して, スタイルおよび音色伝達評価において優れた性能を示した。さらに,実際の音楽編集シナリオにおいて,本手法の実用性を示す。

関連論文リスト

EditGen: Harnessing Cross-Attention Control for Instruction-Based Auto-Regressive Audio Editing [54.10773655199149]
自動回帰モデルにおける効率的な音声編集のためのクロスアテンション制御の活用について検討する。画像編集手法に触発されて,横断的・自己認識的メカニズムを通じて編集をガイドするPrompt-to-Promptライクなアプローチを開発した。
論文参考訳（メタデータ） (2025-07-15T08:44:11Z)
Diff-TONE: Timestep Optimization for iNstrument Editing in Text-to-Music Diffusion Models [13.29289368130043]
本稿では,既存のテキスト・音楽拡散モデルの楽器編集への応用について検討する。具体的には、既存のオーディオトラックに対して、事前訓練されたテキストから音楽への拡散モデルを利用して、基礎となるコンテンツを保存しながら、楽器を編集することを目的とする。本手法では,テキストから音楽への拡散モデルのさらなる学習は必要とせず,生成過程の速度を損なうこともない。
論文参考訳（メタデータ） (2025-06-18T15:01:25Z)
Extending Visual Dynamics for Video-to-Music Generation [51.274561293909926]
DyViMは、ビデオから音楽への生成のための動的モデリングを強化する新しいフレームワークである。高レベルのセマンティクスは、クロスアテンションメカニズムを通じて伝達される。実験では、DyViMが最先端(SOTA)法よりも優れていることを示した。
論文参考訳（メタデータ） (2025-04-10T09:47:26Z)
SongGen: A Single Stage Auto-regressive Transformer for Text-to-Song Generation [75.86473375730392]
SongGenは、コントロール可能な曲を生成するための、完全なオープンソースでシングルステージの自動回帰トランスフォーマーである。音声と伴奏の混合を生成する混合モードと、それらを別々に合成するデュアルトラックモードの2つの出力モードをサポートする。コミュニティの関与と今後の研究を促進するため、私たちは、モデルの重み付け、トレーニングコード、注釈付きデータ、前処理パイプラインをリリースします。
論文参考訳（メタデータ） (2025-02-18T18:52:21Z)
ImprovNet: Generating Controllable Musical Improvisations with Iterative Corruption Refinement [6.873190001575463]
ImprovNetは、表現力と制御性のある即興演奏を生成するトランスフォーマーベースのアーキテクチャである。ジャンル固有のスタイルでメロディーを調和させ、短期間の即時継続および補充タスクを実行することができる。
論文参考訳（メタデータ） (2025-02-06T21:45:38Z)
A Training-Free Approach for Music Style Transfer with Latent Diffusion Models [5.734429262507927]
本稿では,事前学習型潜在拡散モデル(LDM)を利用した新しい学習自由アプローチを提案する。 LDMの自己注意機能を操作することで、コンテンツ音楽への参照音楽のスタイルを、追加のトレーニングなしで効果的に転送する。
論文参考訳（メタデータ） (2024-11-24T16:53:34Z)
MusicFlow: Cascaded Flow Matching for Text Guided Music Generation [53.63948108922333]
MusicFlowは、フローマッチングに基づくケースドテキストから音楽への生成モデルである。学習目的としてマスク予測を活用することで,音楽の充実や継続といった他のタスクにモデルを一般化することができる。
論文参考訳（メタデータ） (2024-10-27T15:35:41Z)
Efficient Fine-Grained Guidance for Diffusion-Based Symbolic Music Generation [14.156461396686248]
拡散モデルにFGG(Fined Guidance)アプローチを導入する。 FGGは拡散モデルをガイドし、専門家作曲家の制御と意図とより密に整合した音楽を生成する。このアプローチは拡散モデルにより、即興性やインタラクティブな音楽生成といった高度な応用に優れる。
論文参考訳（メタデータ） (2024-10-11T00:41:46Z)
MuseBarControl: Enhancing Fine-Grained Control in Symbolic Music Generation through Pre-Training and Counterfactual Loss [51.85076222868963]
制御信号と対応する音楽トークンを直接リンクする事前学習タスクを導入する。次に、生成した音楽と制御プロンプトとの整合性を向上する新たな対実的損失を実現する。
論文参考訳（メタデータ） (2024-07-05T08:08:22Z)
MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文参考訳（メタデータ） (2024-06-07T06:38:59Z)
Instruct-MusicGen: Unlocking Text-to-Music Editing for Music Language Models via Instruction Tuning [24.6866990804501]
Instruct-MusicGenは、事前訓練されたMusicGenモデルを微調整して、効率的に編集命令に従う新しいアプローチである。注目すべきは、Instruct-MusicGenはオリジナルのMusicGenモデルに8%新しいパラメータを導入し、5Kステップでのみ列車を走らせることだ。
論文参考訳（メタデータ） (2024-05-28T17:27:20Z)
InstructME: An Instruction Guided Music Edit And Remix Framework with Latent Diffusion Models [42.2977676825086]
本稿では,遅延拡散モデルに基づくインストラクションガイド付き音楽編集・リミックスフレームワークであるInstructMEを開発する。本フレームワークは,編集前後の一貫性を維持するため,U-Netをマルチスケールアグリゲーションで強化する。提案手法は, 音質, テキスト関連性, 調和性において, 先行するシステムを大幅に上回っている。
論文参考訳（メタデータ） (2023-08-28T07:11:42Z)
FateZero: Fusing Attentions for Zero-shot Text-based Video Editing [104.27329655124299]
本研究では,FateZeroを提案する。FateZeroは,実世界のビデオに対して,プロンプトごとのトレーニングや使用専用のマスクを使わずに,ゼロショットのテキストベースの編集手法である。本手法は、ゼロショットテキスト駆動型ビデオスタイルと、訓練されたテキスト・ツー・イメージモデルからローカル属性を編集する機能を示す最初の方法である。
論文参考訳（メタデータ） (2023-03-16T17:51:13Z)
ERNIE-Music: Text-to-Waveform Music Generation with Diffusion Models [67.66825818489406]
本稿では拡散モデルの利用を基盤としたテキストから波形への音楽生成モデルを提案する。本手法は,波形生成プロセスの指針となる条件因子として,自由形式のテキストプロンプトの革新的導入を前提としている。波形領域における我々の生成した音楽は、多様性、品質、およびテキスト音楽の関連性において、以前の作品よりも大きなマージンで優れていたことを実証する。
論文参考訳（メタデータ） (2023-02-09T06:27:09Z)
Noise2Music: Text-conditioned Music Generation with Diffusion Models [73.74580231353684]
本研究では,テキストプロンプトから高品質な30秒音楽クリップを生成するために,一連の拡散モデルを訓練するNoss2Musicを紹介する。生成した音声は、ジャンル、テンポ、楽器、ムード、時代など、テキストプロンプトの重要な要素を忠実に反映できるだけでなく、テキストプロンプトを忠実に反映できる。トレーニングセットのオーディオのためにペア化されたテキストを生成し、拡散モデルによって取り込まれたテキストプロンプトの埋め込みを抽出するために使用される。
論文参考訳（メタデータ） (2023-02-08T07:27:27Z)
Actions Speak Louder than Listening: Evaluating Music Style Transfer based on Editing Experience [4.986422167919228]
本研究では,音楽生成モデルのユーザによる編集経験を体系的に評価するための編集テストを提案する。その結果, ベースラインモデルに対する改善は, 編集試験によって定量的に反映できることが示唆された。
論文参考訳（メタデータ） (2021-10-25T12:20:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。