Fugu-MT 論文翻訳(概要): InstructME: An Instruction Guided Music Edit And Remix Framework with Latent Diffusion Models

論文の概要: InstructME: An Instruction Guided Music Edit And Remix Framework with Latent Diffusion Models

arxiv url: http://arxiv.org/abs/2308.14360v3
Date: Tue, 12 Dec 2023 06:55:08 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-13 19:56:23.151806
Title: InstructME: An Instruction Guided Music Edit And Remix Framework with Latent Diffusion Models
Title（参考訳）: instructme:潜在拡散モデルを用いた指導型音楽編集・リミックスフレームワーク
Authors: Bing Han, Junyu Dai, Weituo Hao, Xinyan He, Dong Guo, Jitong Chen, Yuxuan Wang, Yanmin Qian and Xuchen Song
Abstract要約: 本稿では,遅延拡散モデルに基づくインストラクションガイド付き音楽編集・リミックスフレームワークであるInstructMEを開発する。本フレームワークは,編集前後の一貫性を維持するため,U-Netをマルチスケールアグリゲーションで強化する。提案手法は, 音質, テキスト関連性, 調和性において, 先行するシステムを大幅に上回っている。
参考スコア（独自算出の注目度）: 42.2977676825086
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Music editing primarily entails the modification of instrument tracks or remixing in the whole, which offers a novel reinterpretation of the original piece through a series of operations. These music processing methods hold immense potential across various applications but demand substantial expertise. Prior methodologies, although effective for image and audio modifications, falter when directly applied to music. This is attributed to music's distinctive data nature, where such methods can inadvertently compromise the intrinsic harmony and coherence of music. In this paper, we develop InstructME, an Instruction guided Music Editing and remixing framework based on latent diffusion models. Our framework fortifies the U-Net with multi-scale aggregation in order to maintain consistency before and after editing. In addition, we introduce chord progression matrix as condition information and incorporate it in the semantic space to improve melodic harmony while editing. For accommodating extended musical pieces, InstructME employs a chunk transformer, enabling it to discern long-term temporal dependencies within music sequences. We tested InstructME in instrument-editing, remixing, and multi-round editing. Both subjective and objective evaluations indicate that our proposed method significantly surpasses preceding systems in music quality, text relevance and harmony. Demo samples are available at https://musicedit.github.io/
Abstract（参考訳）: 音楽編集は、主に楽器のトラックの修正や全体のリミックスを伴い、一連の操作を通じてオリジナル曲の新たな再解釈を提供する。これらの音楽処理手法は様々な応用において大きな可能性を秘めているが、かなりの専門知識を必要とする。以前の手法は、画像や音声の修正に効果があるが、直接音楽に適用すると劣化する。これは音楽の独特なデータの性質に起因しており、そのような手法は音楽の本質的な調和とコヒーレンスを必然的に損なうことができる。本稿では,遅延拡散モデルに基づくインストラクションガイド付き音楽編集・リミックスフレームワークであるInstructMEを開発する。本フレームワークは,編集前後の一貫性を維持するため,U-Netをマルチスケールアグリゲーションで強化する。さらに,コンディション情報としてコード進行行列を導入し,それを意味空間に組み込んで,編集中の旋律調和を改善する。拡張された楽曲に合わせてinstructmeはチャンクトランスフォーマを使用して、音楽シーケンス内の長期的な時間依存を識別する。 instructmeをインスツルメンテーション,リミックス,マルチラウンド編集でテストした。主観的評価と客観的評価は,提案手法が音楽品質,テキスト関連性,調和性において先行するシステムを大幅に上回ることを示している。デモサンプルはhttps://musicedit.github.io/で入手できる。

関連論文リスト

MuseCPBench: an Empirical Study of Music Editing Methods through Music Context Preservation [30.88898550337434]
音楽編集は現代音楽制作において重要な役割を担い、映画、放送、ゲーム開発に応用されている。既存の作品の多くは、編集中に変化のない音楽の面を保存できる能力の評価を見落としている。 MCP評価ベンチマークであるMuseCPBenchを紹介する。
論文参考訳（メタデータ） (2025-12-16T17:44:56Z)
EditGen: Harnessing Cross-Attention Control for Instruction-Based Auto-Regressive Audio Editing [54.10773655199149]
自動回帰モデルにおける効率的な音声編集のためのクロスアテンション制御の活用について検討する。画像編集手法に触発されて,横断的・自己認識的メカニズムを通じて編集をガイドするPrompt-to-Promptライクなアプローチを開発した。
論文参考訳（メタデータ） (2025-07-15T08:44:11Z)
Let Your Video Listen to Your Music! [62.27731415767459]
本稿では,音楽トラックのリズムに合わせてビデオを自動的に編集する新しいフレームワークMVAAを提案する。我々は、タスクをMVAAの2段階のプロセスにモジュール化し、動きをオーディオビートと整列させ、次にリズム対応のビデオ編集を行います。このハイブリッドアプローチは、CogVideoX-5b-I2Vをバックボーンとして使用した1つのNVIDIA 4090 GPU上で10分以内の適応を可能にする。
論文参考訳（メタデータ） (2025-06-23T17:52:16Z)
Diff-TONE: Timestep Optimization for iNstrument Editing in Text-to-Music Diffusion Models [13.29289368130043]
本稿では,既存のテキスト・音楽拡散モデルの楽器編集への応用について検討する。具体的には、既存のオーディオトラックに対して、事前訓練されたテキストから音楽への拡散モデルを利用して、基礎となるコンテンツを保存しながら、楽器を編集することを目的とする。本手法では,テキストから音楽への拡散モデルのさらなる学習は必要とせず,生成過程の速度を損なうこともない。
論文参考訳（メタデータ） (2025-06-18T15:01:25Z)
Instruct-MusicGen: Unlocking Text-to-Music Editing for Music Language Models via Instruction Tuning [24.6866990804501]
Instruct-MusicGenは、事前訓練されたMusicGenモデルを微調整して、効率的に編集命令に従う新しいアプローチである。注目すべきは、Instruct-MusicGenはオリジナルのMusicGenモデルに8%新しいパラメータを導入し、5Kステップでのみ列車を走らせることだ。
論文参考訳（メタデータ） (2024-05-28T17:27:20Z)
MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文参考訳（メタデータ） (2024-04-09T15:35:52Z)
Arrange, Inpaint, and Refine: Steerable Long-term Music Audio Generation and Editing via Content-based Controls [6.176747724853209]
LLM(Large Language Models)は、高品質な音楽を生成する上で有望であるが、自動回帰生成に焦点をあてることで、音楽編集タスクにおける有用性を制限している。本稿では,パラメータ効率の高いヘテロジニアスアダプタとマスキングトレーニングスキームを組み合わせた新しいアプローチを提案する。提案手法は, フレームレベルのコンテンツベース制御を統合し, トラックコンディショニングとスコアコンディショニングによる音楽アレンジメントを容易にする。
論文参考訳（メタデータ） (2024-02-14T19:00:01Z)
Performance Conditioning for Diffusion-Based Multi-Instrument Music Synthesis [15.670399197114012]
本稿では,特定の性能と記録環境に生成モデルを条件付け,多施設合成の制御を強化することを提案する。パフォーマンスコンディショニング(Performance Conditioning)とは、特定の演奏から採った特定の楽器のスタイルと音色で音楽を合成する生成モデルを示すツールである。試作機は,多種多様な楽器と最先端のFADリアリズムスコアを用いた未計算性能を用いて評価した。
論文参考訳（メタデータ） (2023-09-21T17:44:57Z)
Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文参考訳（メタデータ） (2023-06-08T15:31:05Z)
RMSSinger: Realistic-Music-Score based Singing Voice Synthesis [56.51475521778443]
RMS-SVSは、異なる音符タイプでリアル音楽のスコアを与えられた高品質な歌声を生成することを目的としている。 RMS-SVS方式であるRMSSingerを提案する。 RMSSingerでは,時間を要する音素の持続時間アノテーションと複雑な音素レベルのメルノートアライメントを避けるために,単語レベルのモデリングを導入する。
論文参考訳（メタデータ） (2023-05-18T03:57:51Z)
Controllable deep melody generation via hierarchical music structure representation [14.891975420982511]
MusicFrameworksは階層的な音楽構造表現であり、フル長のメロディを作成するための多段階の生成プロセスである。各フレーズでメロディを生成するために、2つの異なるトランスフォーマーベースネットワークを用いてリズムとベーシックメロディを生成する。さまざまな曲をカスタマイズしたり追加したりするために、音楽フレームワークのコード、基本的なメロディ、リズム構造を変更して、それに応じてネットワークがメロディを生成する。
論文参考訳（メタデータ） (2021-09-02T01:31:14Z)
Differential Music: Automated Music Generation Using LSTM Networks with Representation Based on Melodic and Harmonic Intervals [0.0]
本稿では,LSTMネットワークを用いた自動作曲のための生成AIモデルを提案する。絶対的なピッチではなく音楽の動きに基づく音楽情報の符号化に新しいアプローチをとる。実験結果は、音楽やトーンを聴くと約束を示す。
論文参考訳（メタデータ） (2021-08-23T23:51:08Z)
PopMAG: Pop Music Accompaniment Generation [190.09996798215738]
単一シーケンスでの同時マルチトラック生成が可能なMUlti-track MIDI表現(MuMIDI)を提案する。 MuMIDIはシーケンス長を拡大し、長期音楽モデリングの新しい課題をもたらす。我々は,ポップミュージックの伴奏生成をPopMAGと呼ぶ。
論文参考訳（メタデータ） (2020-08-18T02:28:36Z)
Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文参考訳（メタデータ） (2020-04-20T17:53:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。