論文の概要: MusRec: Zero-Shot Text-to-Music Editing via Rectified Flow and Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2511.04376v1
- Date: Thu, 06 Nov 2025 14:01:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.442831
- Title: MusRec: Zero-Shot Text-to-Music Editing via Rectified Flow and Diffusion Transformers
- Title(参考訳): MusRec: 正規化フローと拡散変換器によるゼロショットテキスト音楽編集
- Authors: Ali Boudaghi, Hadi Zare,
- Abstract要約: MusRecは、現実世界の音楽の多様な編集タスクを効率よく効率的に実行できる最初のゼロショットテキスト-音楽編集モデルである。
実験により,本手法は音楽コンテンツ保存,構造的整合性,忠実さの編集において,既存の手法よりも優れていることが示された。
- 参考スコア(独自算出の注目度): 3.096755173613532
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Music editing has emerged as an important and practical area of artificial intelligence, with applications ranging from video game and film music production to personalizing existing tracks according to user preferences. However, existing models face significant limitations, such as being restricted to editing synthesized music generated by their own models, requiring highly precise prompts, or necessitating task-specific retraining, thus lacking true zero-shot capability. Leveraging recent advances in rectified flow and diffusion transformers, we introduce MusRec, the first zero-shot text-to-music editing model capable of performing diverse editing tasks on real-world music efficiently and effectively. Experimental results demonstrate that our approach outperforms existing methods in preserving musical content, structural consistency, and editing fidelity, establishing a strong foundation for controllable music editing in real-world scenarios.
- Abstract(参考訳): 音楽編集は、ビデオゲームや映画音楽制作から、ユーザの好みに応じて既存の曲をパーソナライズするアプリケーションまで、人工知能の重要かつ実践的な領域として現れてきた。
しかし、既存のモデルは、独自のモデルによって生成された合成音楽を編集することを制限すること、非常に正確なプロンプトを必要とすること、タスク固有の再訓練を必要とすることなど、重大な制限に直面しているため、真のゼロショット能力が欠如している。
修正フローと拡散トランスフォーマーの最近の進歩を生かして,実世界の音楽における多様な編集タスクを効率的に効率的に行うことができる最初のゼロショットテキスト-音楽編集モデルMusRecを紹介する。
実験により,本手法は,音楽コンテンツ保存,構造整合性,編集忠実性を向上し,現実のシナリオにおける制御可能な音楽編集の強力な基盤を確立した。
関連論文リスト
- O-DisCo-Edit: Object Distortion Control for Unified Realistic Video Editing [88.93410369258203]
O-DisCo-Editは、新しいオブジェクト歪み制御(O-DisCo)を組み込んだ統合フレームワークである
この信号はランダムノイズと適応ノイズに基づいて、単一の表現内に幅広い編集キューを柔軟にカプセル化する。
O-DisCo-Editは、効果的なトレーニングパラダイムによる効率的な高忠実な編集を可能にする。
論文 参考訳(メタデータ) (2025-09-01T16:29:39Z) - EditGen: Harnessing Cross-Attention Control for Instruction-Based Auto-Regressive Audio Editing [54.10773655199149]
自動回帰モデルにおける効率的な音声編集のためのクロスアテンション制御の活用について検討する。
画像編集手法に触発されて,横断的・自己認識的メカニズムを通じて編集をガイドするPrompt-to-Promptライクなアプローチを開発した。
論文 参考訳(メタデータ) (2025-07-15T08:44:11Z) - UniMuMo: Unified Text, Music and Motion Generation [57.72514622935806]
任意のテキスト,音楽,動作データを入力条件として取り込んで,3つのモードすべてにまたがる出力を生成する,統一型マルチモーダルモデルUniMuMoを導入する。
音楽、動き、テキストをトークンベースの表現に変換することで、我々のモデルはエンコーダ・デコーダ・トランスフォーマアーキテクチャを通じてこれらのモダリティをブリッジする。
論文 参考訳(メタデータ) (2024-10-06T16:04:05Z) - MuseBarControl: Enhancing Fine-Grained Control in Symbolic Music Generation through Pre-Training and Counterfactual Loss [51.85076222868963]
制御信号と対応する音楽トークンを直接リンクする事前学習タスクを導入する。
次に、生成した音楽と制御プロンプトとの整合性を向上する新たな対実的損失を実現する。
論文 参考訳(メタデータ) (2024-07-05T08:08:22Z) - Instruct-MusicGen: Unlocking Text-to-Music Editing for Music Language Models via Instruction Tuning [24.6866990804501]
Instruct-MusicGenは、事前訓練されたMusicGenモデルを微調整して、効率的に編集命令に従う新しいアプローチである。
注目すべきは、Instruct-MusicGenはオリジナルのMusicGenモデルに8%新しいパラメータを導入し、5Kステップでのみ列車を走らせることだ。
論文 参考訳(メタデータ) (2024-05-28T17:27:20Z) - MusicMagus: Zero-Shot Text-to-Music Editing via Diffusion Models [24.582948932985726]
本稿では,テキスト・ツー・ミュージック・モデルによって生成される音楽の編集に対する新しいアプローチを提案する。
本手法は,テキスト編集をテキストテンプレート空間操作に変換するとともに,一貫性を強制する余分な制約を加える。
実験により, ゼロショットと特定の教師付きベースラインの双方に対して, スタイルおよび音色伝達評価において優れた性能を示した。
論文 参考訳(メタデータ) (2024-02-09T04:34:08Z) - GETMusic: Generating Any Music Tracks with a Unified Representation and
Diffusion Framework [58.64512825534638]
シンボリック・ミュージック・ジェネレーションは、ユーザーが音楽を作るのに役立つ音符を作成することを目的としている。
私たちは「GETMusic」と呼ばれるフレームワークを紹介します。「GET'」は「GEnerate Music Tracks」の略です。
GETScoreは、音符をトークンとして表現し、2D構造でトークンを整理する。
提案する表現は,非自己回帰生成モデルと組み合わせて,任意のソース・ターゲットトラックの組み合わせでGETMusicに音楽を生成する。
論文 参考訳(メタデータ) (2023-05-18T09:53:23Z) - RMSSinger: Realistic-Music-Score based Singing Voice Synthesis [56.51475521778443]
RMS-SVSは、異なる音符タイプでリアル音楽のスコアを与えられた高品質な歌声を生成することを目的としている。
RMS-SVS方式であるRMSSingerを提案する。
RMSSingerでは,時間を要する音素の持続時間アノテーションと複雑な音素レベルのメルノートアライメントを避けるために,単語レベルのモデリングを導入する。
論文 参考訳(メタデータ) (2023-05-18T03:57:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。