論文の概要: InstructME: An Instruction Guided Music Edit And Remix Framework with
Latent Diffusion Models
- arxiv url: http://arxiv.org/abs/2308.14360v2
- Date: Wed, 6 Sep 2023 07:43:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 18:16:08.884457
- Title: InstructME: An Instruction Guided Music Edit And Remix Framework with
Latent Diffusion Models
- Title(参考訳): instructme:潜在拡散モデルを用いた指導型音楽編集・リミックスフレームワーク
- Authors: Bing Han, Junyu Dai, Xuchen Song, Weituo Hao, Xinyan He, Dong Guo,
Jitong Chen, Yuxuan Wang and Yanmin Qian
- Abstract要約: 本稿では,遅延拡散モデルに基づくインストラクションガイド付き音楽編集・リミックスフレームワークであるInstructMEを開発する。
本フレームワークは,編集前後の一貫性を維持するため,U-Netをマルチスケールアグリゲーションで強化する。
提案手法は, 音質, テキスト関連性, 調和性において, 先行するシステムを大幅に上回っている。
- 参考スコア(独自算出の注目度): 42.2977676825086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Music editing primarily entails the modification of instrument tracks or
remixing in the whole, which offers a novel reinterpretation of the original
piece through a series of operations. These music processing methods hold
immense potential across various applications but demand substantial expertise.
Prior methodologies, although effective for image and audio modifications,
falter when directly applied to music. This is attributed to music's
distinctive data nature, where such methods can inadvertently compromise the
intrinsic harmony and coherence of music. In this paper, we develop InstructME,
an Instruction guided Music Editing and remixing framework based on latent
diffusion models. Our framework fortifies the U-Net with multi-scale
aggregation in order to maintain consistency before and after editing. In
addition, we introduce chord progression matrix as condition information and
incorporate it in the semantic space to improve melodic harmony while editing.
For accommodating extended musical pieces, InstructME employs a chunk
transformer, enabling it to discern long-term temporal dependencies within
music sequences. We tested InstructME in instrument-editing, remixing, and
multi-round editing. Both subjective and objective evaluations indicate that
our proposed method significantly surpasses preceding systems in music quality,
text relevance and harmony. Demo samples are available at
https://musicedit.github.io/
- Abstract(参考訳): 音楽編集は、主に楽器のトラックの修正や全体のリミックスを伴い、一連の操作を通じてオリジナル曲の新たな再解釈を提供する。
これらの音楽処理手法は様々な応用において大きな可能性を秘めているが、かなりの専門知識を必要とする。
以前の手法は、画像や音声の修正に効果があるが、直接音楽に適用すると劣化する。
これは音楽の独特なデータの性質に起因しており、そのような手法は音楽の本質的な調和とコヒーレンスを必然的に損なうことができる。
本稿では,遅延拡散モデルに基づくインストラクションガイド付き音楽編集・リミックスフレームワークであるInstructMEを開発する。
本フレームワークは,編集前後の一貫性を維持するため,U-Netをマルチスケールアグリゲーションで強化する。
さらに,コンディション情報としてコード進行行列を導入し,それを意味空間に組み込んで,編集中の旋律調和を改善する。
拡張された楽曲に合わせてinstructmeはチャンクトランスフォーマを使用して、音楽シーケンス内の長期的な時間依存を識別する。
instructmeをインスツルメンテーション,リミックス,マルチラウンド編集でテストした。
主観的評価と客観的評価は,提案手法が音楽品質,テキスト関連性,調和性において先行するシステムを大幅に上回ることを示している。
デモサンプルはhttps://musicedit.github.io/で入手できる。
関連論文リスト
- Instruct-MusicGen: Unlocking Text-to-Music Editing for Music Language Models via Instruction Tuning [24.6866990804501]
Instruct-MusicGenは、事前訓練されたMusicGenモデルを微調整して、効率的に編集命令に従う新しいアプローチである。
注目すべきは、Instruct-MusicGenはオリジナルのMusicGenモデルに8%新しいパラメータを導入し、5Kステップでのみ列車を走らせることだ。
論文 参考訳(メタデータ) (2024-05-28T17:27:20Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - Arrange, Inpaint, and Refine: Steerable Long-term Music Audio Generation and Editing via Content-based Controls [6.176747724853209]
LLM(Large Language Models)は、高品質な音楽を生成する上で有望であるが、自動回帰生成に焦点をあてることで、音楽編集タスクにおける有用性を制限している。
本稿では,パラメータ効率の高いヘテロジニアスアダプタとマスキングトレーニングスキームを組み合わせた新しいアプローチを提案する。
提案手法は, フレームレベルのコンテンツベース制御を統合し, トラックコンディショニングとスコアコンディショニングによる音楽アレンジメントを容易にする。
論文 参考訳(メタデータ) (2024-02-14T19:00:01Z) - Performance Conditioning for Diffusion-Based Multi-Instrument Music
Synthesis [15.670399197114012]
本稿では,特定の性能と記録環境に生成モデルを条件付け,多施設合成の制御を強化することを提案する。
パフォーマンスコンディショニング(Performance Conditioning)とは、特定の演奏から採った特定の楽器のスタイルと音色で音楽を合成する生成モデルを示すツールである。
試作機は,多種多様な楽器と最先端のFADリアリズムスコアを用いた未計算性能を用いて評価した。
論文 参考訳(メタデータ) (2023-09-21T17:44:57Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - RMSSinger: Realistic-Music-Score based Singing Voice Synthesis [56.51475521778443]
RMS-SVSは、異なる音符タイプでリアル音楽のスコアを与えられた高品質な歌声を生成することを目的としている。
RMS-SVS方式であるRMSSingerを提案する。
RMSSingerでは,時間を要する音素の持続時間アノテーションと複雑な音素レベルのメルノートアライメントを避けるために,単語レベルのモデリングを導入する。
論文 参考訳(メタデータ) (2023-05-18T03:57:51Z) - Controllable deep melody generation via hierarchical music structure
representation [14.891975420982511]
MusicFrameworksは階層的な音楽構造表現であり、フル長のメロディを作成するための多段階の生成プロセスである。
各フレーズでメロディを生成するために、2つの異なるトランスフォーマーベースネットワークを用いてリズムとベーシックメロディを生成する。
さまざまな曲をカスタマイズしたり追加したりするために、音楽フレームワークのコード、基本的なメロディ、リズム構造を変更して、それに応じてネットワークがメロディを生成する。
論文 参考訳(メタデータ) (2021-09-02T01:31:14Z) - Differential Music: Automated Music Generation Using LSTM Networks with
Representation Based on Melodic and Harmonic Intervals [0.0]
本稿では,LSTMネットワークを用いた自動作曲のための生成AIモデルを提案する。
絶対的なピッチではなく音楽の動きに基づく音楽情報の符号化に新しいアプローチをとる。
実験結果は、音楽やトーンを聴くと約束を示す。
論文 参考訳(メタデータ) (2021-08-23T23:51:08Z) - PopMAG: Pop Music Accompaniment Generation [190.09996798215738]
単一シーケンスでの同時マルチトラック生成が可能なMUlti-track MIDI表現(MuMIDI)を提案する。
MuMIDIはシーケンス長を拡大し、長期音楽モデリングの新しい課題をもたらす。
我々は,ポップミュージックの伴奏生成をPopMAGと呼ぶ。
論文 参考訳(メタデータ) (2020-08-18T02:28:36Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。