Fugu-MT 論文翻訳(概要): Instruct-MusicGen: Unlocking Text-to-Music Editing for Music Language Models via Instruction Tuning

論文の概要: Instruct-MusicGen: Unlocking Text-to-Music Editing for Music Language Models via Instruction Tuning

arxiv url: http://arxiv.org/abs/2405.18386v2
Date: Wed, 29 May 2024 17:05:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-30 11:12:33.872622
Title: Instruct-MusicGen: Unlocking Text-to-Music Editing for Music Language Models via Instruction Tuning
Title（参考訳）: Instruction-MusicGen:インストラクションチューニングによる音楽モデルのためのテキスト-音楽編集のアンロック
Authors: Yixiao Zhang, Yukara Ikemiya, Woosung Choi, Naoki Murata, Marco A. Martínez-Ramírez, Liwei Lin, Gus Xia, Wei-Hsiang Liao, Yuki Mitsufuji, Simon Dixon,
Abstract要約: Instruct-MusicGenは、事前訓練されたMusicGenモデルを微調整して、効率的に編集命令に従う新しいアプローチである。注目すべきは、Instruct-MusicGenはオリジナルのMusicGenモデルに8%新しいパラメータを導入し、5Kステップでのみ列車を走らせることだ。
参考スコア（独自算出の注目度）: 24.6866990804501
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Recent advances in text-to-music editing, which employ text queries to modify music (e.g.\ by changing its style or adjusting instrumental components), present unique challenges and opportunities for AI-assisted music creation. Previous approaches in this domain have been constrained by the necessity to train specific editing models from scratch, which is both resource-intensive and inefficient; other research uses large language models to predict edited music, resulting in imprecise audio reconstruction. To Combine the strengths and address these limitations, we introduce Instruct-MusicGen, a novel approach that finetunes a pretrained MusicGen model to efficiently follow editing instructions such as adding, removing, or separating stems. Our approach involves a modification of the original MusicGen architecture by incorporating a text fusion module and an audio fusion module, which allow the model to process instruction texts and audio inputs concurrently and yield the desired edited music. Remarkably, Instruct-MusicGen only introduces 8% new parameters to the original MusicGen model and only trains for 5K steps, yet it achieves superior performance across all tasks compared to existing baselines, and demonstrates performance comparable to the models trained for specific tasks. This advancement not only enhances the efficiency of text-to-music editing but also broadens the applicability of music language models in dynamic music production environments.
Abstract（参考訳）: テキスト・ツー・ミュージック編集の最近の進歩は、テキストクエリを使って音楽を変更する(例えば、スタイルを変更したり、楽器の部品を調整したりすることで)。この領域の従来からのアプローチは、リソース集約的かつ非効率な、特定の編集モデルをゼロから訓練する必要性によって制約されてきた。 Instruct-MusicGenは、事前訓練されたMusicGenモデルを微調整し、茎の追加、削除、分離といった編集命令を効率的に追従する新しいアプローチである。提案手法では,テキスト融合モジュールとオーディオ融合モジュールを組み込むことで,オリジナルのMusicGenアーキテクチャを改良し,命令文と音声入力を同時に処理し,所望の編集音楽を出力する。注目すべきなのは、Instruct-MusicGenはオリジナルのMusicGenモデルに8%の新しいパラメータのみを導入し、5Kステップのみをトレーニングするが、既存のベースラインと比較してすべてのタスクで優れたパフォーマンスを実現し、特定のタスクのためにトレーニングされたモデルに匹敵するパフォーマンスを示す。この進歩は、テキスト間編集の効率を向上するだけでなく、動的音楽制作環境における音楽言語モデルの適用性も拡大する。

関連論文リスト

Muse: Towards Reproducible Long-Form Song Generation with Fine-Grained Style Control [66.46754271097555]
我々は, きめ細かなスタイル条件付き長大な楽曲生成のための, 完全オープンソースシステムをリリースする。データセットは116kの完全ライセンスの合成曲で構成され、自動生成の歌詞とスタイル記述がある。我々は、個別の音声トークンで拡張されたQwenベースの言語モデルの単一ステージ教師付き微調整によりMuseを訓練する。
論文参考訳（メタデータ） (2026-01-07T14:40:48Z)
InstructAudio: Unified speech and music generation with natural language instruction [52.76518112649456]
InstructAudioは、音響属性の命令ベースの制御を可能にする統一的なフレームワークである。英語と中国語で表現力のある音声、音楽、対話生成をサポートする。
論文参考訳（メタデータ） (2025-11-23T15:15:21Z)
MusRec: Zero-Shot Text-to-Music Editing via Rectified Flow and Diffusion Transformers [3.096755173613532]
MusRecは、現実世界の音楽の多様な編集タスクを効率よく効率的に実行できる最初のゼロショットテキスト-音楽編集モデルである。実験により,本手法は音楽コンテンツ保存,構造的整合性,忠実さの編集において,既存の手法よりも優れていることが示された。
論文参考訳（メタデータ） (2025-11-06T14:01:52Z)
CompLex: Music Theory Lexicon Constructed by Autonomous Agents for Automatic Music Generation [12.545590455588856]
本稿では,AIによる楽曲生成作業における包括的音楽理論の活用を目指す。我々は,37,432項目からなるCompLexというレキシコンを生成する新しい自動音楽レキシコン構築モデルを提案する。 CompLexは、最先端の3つのテキストから音楽への生成モデルに対して、素晴らしいパフォーマンス向上を示している。
論文参考訳（メタデータ） (2025-08-27T06:36:49Z)
EditGen: Harnessing Cross-Attention Control for Instruction-Based Auto-Regressive Audio Editing [54.10773655199149]
自動回帰モデルにおける効率的な音声編集のためのクロスアテンション制御の活用について検討する。画像編集手法に触発されて,横断的・自己認識的メカニズムを通じて編集をガイドするPrompt-to-Promptライクなアプローチを開発した。
論文参考訳（メタデータ） (2025-07-15T08:44:11Z)
Diff-TONE: Timestep Optimization for iNstrument Editing in Text-to-Music Diffusion Models [13.29289368130043]
本稿では,既存のテキスト・音楽拡散モデルの楽器編集への応用について検討する。具体的には、既存のオーディオトラックに対して、事前訓練されたテキストから音楽への拡散モデルを利用して、基礎となるコンテンツを保存しながら、楽器を編集することを目的とする。本手法では,テキストから音楽への拡散モデルのさらなる学習は必要とせず,生成過程の速度を損なうこともない。
論文参考訳（メタデータ） (2025-06-18T15:01:25Z)
SongGen: A Single Stage Auto-regressive Transformer for Text-to-Song Generation [75.86473375730392]
SongGenは、コントロール可能な曲を生成するための、完全なオープンソースでシングルステージの自動回帰トランスフォーマーである。音声と伴奏の混合を生成する混合モードと、それらを別々に合成するデュアルトラックモードの2つの出力モードをサポートする。コミュニティの関与と今後の研究を促進するため、私たちは、モデルの重み付け、トレーニングコード、注釈付きデータ、前処理パイプラインをリリースします。
論文参考訳（メタデータ） (2025-02-18T18:52:21Z)
MusicFlow: Cascaded Flow Matching for Text Guided Music Generation [53.63948108922333]
MusicFlowは、フローマッチングに基づくケースドテキストから音楽への生成モデルである。学習目的としてマスク予測を活用することで,音楽の充実や継続といった他のタスクにモデルを一般化することができる。
論文参考訳（メタデータ） (2024-10-27T15:35:41Z)
UniMuMo: Unified Text, Music and Motion Generation [57.72514622935806]
任意のテキスト,音楽,動作データを入力条件として取り込んで,3つのモードすべてにまたがる出力を生成する,統一型マルチモーダルモデルUniMuMoを導入する。音楽、動き、テキストをトークンベースの表現に変換することで、我々のモデルはエンコーダ・デコーダ・トランスフォーマアーキテクチャを通じてこれらのモダリティをブリッジする。
論文参考訳（メタデータ） (2024-10-06T16:04:05Z)
MusiConGen: Rhythm and Chord Control for Transformer-Based Text-to-Music Generation [19.878013881045817]
MusiConGenは、一時条件付きトランスフォーマーベースのテキスト-音楽モデルである。条件信号として自動的に抽出されたリズムとコードを統合する。 MusiConGenは,特定の条件に整合したリアルなバックトラック音楽を生成することができることを示す。
論文参考訳（メタデータ） (2024-07-21T05:27:53Z)
MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文参考訳（メタデータ） (2024-04-09T15:35:52Z)
Arrange, Inpaint, and Refine: Steerable Long-term Music Audio Generation and Editing via Content-based Controls [6.176747724853209]
LLM(Large Language Models)は、高品質な音楽を生成する上で有望であるが、自動回帰生成に焦点をあてることで、音楽編集タスクにおける有用性を制限している。本稿では,パラメータ効率の高いヘテロジニアスアダプタとマスキングトレーニングスキームを組み合わせた新しいアプローチを提案する。提案手法は, フレームレベルのコンテンツベース制御を統合し, トラックコンディショニングとスコアコンディショニングによる音楽アレンジメントを容易にする。
論文参考訳（メタデータ） (2024-02-14T19:00:01Z)
MusicMagus: Zero-Shot Text-to-Music Editing via Diffusion Models [24.582948932985726]
本稿では,テキスト・ツー・ミュージック・モデルによって生成される音楽の編集に対する新しいアプローチを提案する。本手法は,テキスト編集をテキストテンプレート空間操作に変換するとともに,一貫性を強制する余分な制約を加える。実験により, ゼロショットと特定の教師付きベースラインの双方に対して, スタイルおよび音色伝達評価において優れた性能を示した。
論文参考訳（メタデータ） (2024-02-09T04:34:08Z)
InstructME: An Instruction Guided Music Edit And Remix Framework with Latent Diffusion Models [42.2977676825086]
本稿では,遅延拡散モデルに基づくインストラクションガイド付き音楽編集・リミックスフレームワークであるInstructMEを開発する。本フレームワークは,編集前後の一貫性を維持するため,U-Netをマルチスケールアグリゲーションで強化する。提案手法は, 音質, テキスト関連性, 調和性において, 先行するシステムを大幅に上回っている。
論文参考訳（メタデータ） (2023-08-28T07:11:42Z)
MusicLDM: Enhancing Novelty in Text-to-Music Generation Using Beat-Synchronous Mixup Strategies [32.482588500419006]
我々は,静的拡散とAudioLDMアーキテクチャを音楽領域に適応させる,最先端のテキスト・音楽モデルMusicLDMを構築した。我々は、ビート同期オーディオミキサップとビート同期潜在ミキサップという、データ拡張のための2つの異なるミックスアップ戦略を提案する。一般的な評価指標に加えて,CLAPスコアに基づくいくつかの新しい評価指標を設計し,提案したMusicLDMとビート同期ミックスアップ手法が生成した楽曲の品質とノベルティの両方を改善することを示す。
論文参考訳（メタデータ） (2023-08-03T05:35:37Z)
Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文参考訳（メタデータ） (2023-06-08T15:31:05Z)
GETMusic: Generating Any Music Tracks with a Unified Representation and Diffusion Framework [58.64512825534638]
シンボリック・ミュージック・ジェネレーションは、ユーザーが音楽を作るのに役立つ音符を作成することを目的としている。私たちは「GETMusic」と呼ばれるフレームワークを紹介します。「GET'」は「GEnerate Music Tracks」の略です。 GETScoreは、音符をトークンとして表現し、2D構造でトークンを整理する。提案する表現は,非自己回帰生成モデルと組み合わせて,任意のソース・ターゲットトラックの組み合わせでGETMusicに音楽を生成する。
論文参考訳（メタデータ） (2023-05-18T09:53:23Z)
Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文参考訳（メタデータ） (2022-11-21T07:19:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。