論文の概要: Subtractive Training for Music Stem Insertion using Latent Diffusion Models
- arxiv url: http://arxiv.org/abs/2406.19328v1
- Date: Thu, 27 Jun 2024 16:59:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 13:28:34.951022
- Title: Subtractive Training for Music Stem Insertion using Latent Diffusion Models
- Title(参考訳): 潜時拡散モデルを用いた音楽ステム挿入のための抽出訓練
- Authors: Ivan Villa-Renteria, Mason L. Wang, Zachary Shah, Zhe Li, Soohyun Kim, Neelesh Ramachandran, Mert Pilanci,
- Abstract要約: 本稿では,他の楽器を文脈として与えた個々の楽器茎を合成する方法であるSubtractive Trainingを提案する。
以上の結果から,既存のトラックとシームレスにブレンドしたドラムステムを創り出すためのサブトラクティブトレーニングの有効性が示された。
我々はこの技術をMIDIフォーマットに拡張し、不完全なアレンジメントのために、互換性のあるベース、ドラム、ギター部品をうまく生成する。
- 参考スコア(独自算出の注目度): 35.91945598575059
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Subtractive Training, a simple and novel method for synthesizing individual musical instrument stems given other instruments as context. This method pairs a dataset of complete music mixes with 1) a variant of the dataset lacking a specific stem, and 2) LLM-generated instructions describing how the missing stem should be reintroduced. We then fine-tune a pretrained text-to-audio diffusion model to generate the missing instrument stem, guided by both the existing stems and the text instruction. Our results demonstrate Subtractive Training's efficacy in creating authentic drum stems that seamlessly blend with the existing tracks. We also show that we can use the text instruction to control the generation of the inserted stem in terms of rhythm, dynamics, and genre, allowing us to modify the style of a single instrument in a full song while keeping the remaining instruments the same. Lastly, we extend this technique to MIDI formats, successfully generating compatible bass, drum, and guitar parts for incomplete arrangements.
- Abstract(参考訳): 本稿では,他の楽器がコンテキストとして与える個々の楽器茎を合成する,シンプルで斬新な方法であるSubtractive Trainingを提案する。
この方法では、完全な音楽ミックスのデータセットをペアリングする。
1) 特定の茎を欠いたデータセットの変種
2) 欠損した茎をどのように再導入すべきかを LLM で記述した。
そして、事前訓練されたテキスト・音声拡散モデルに微調整を行い、既存の幹とテキスト・インストラクションの両方でガイドされる、欠落した楽器の茎を生成する。
以上の結果から,既存のトラックとシームレスにブレンドしたドラムステムを創り出すためのサブトラクティブトレーニングの有効性が示された。
また,音律,ダイナミクス,ジャンルの観点から,挿入した茎の生成を制御するためにテキスト命令を使用すれば,残した楽器を同じ状態に保ちながら,単一楽器のスタイルを全曲で変更できることを示す。
最後に、このテクニックをMIDIフォーマットに拡張し、不完全なアレンジメントのために、互換性のあるベース、ドラム、ギター部品を生成する。
関連論文リスト
- MuseBarControl: Enhancing Fine-Grained Control in Symbolic Music Generation through Pre-Training and Counterfactual Loss [51.85076222868963]
制御信号と対応する音楽トークンを直接リンクする事前学習タスクを導入する。
次に、生成した音楽と制御プロンプトとの整合性を向上する新たな対実的損失を実現する。
論文 参考訳(メタデータ) (2024-07-05T08:08:22Z) - MusicMagus: Zero-Shot Text-to-Music Editing via Diffusion Models [24.582948932985726]
本稿では,テキスト・ツー・ミュージック・モデルによって生成される音楽の編集に対する新しいアプローチを提案する。
本手法は,テキスト編集をテキストテンプレート空間操作に変換するとともに,一貫性を強制する余分な制約を加える。
実験により, ゼロショットと特定の教師付きベースラインの双方に対して, スタイルおよび音色伝達評価において優れた性能を示した。
論文 参考訳(メタデータ) (2024-02-09T04:34:08Z) - Performance Conditioning for Diffusion-Based Multi-Instrument Music
Synthesis [15.670399197114012]
本稿では,特定の性能と記録環境に生成モデルを条件付け,多施設合成の制御を強化することを提案する。
パフォーマンスコンディショニング(Performance Conditioning)とは、特定の演奏から採った特定の楽器のスタイルと音色で音楽を合成する生成モデルを示すツールである。
試作機は,多種多様な楽器と最先端のFADリアリズムスコアを用いた未計算性能を用いて評価した。
論文 参考訳(メタデータ) (2023-09-21T17:44:57Z) - RMSSinger: Realistic-Music-Score based Singing Voice Synthesis [56.51475521778443]
RMS-SVSは、異なる音符タイプでリアル音楽のスコアを与えられた高品質な歌声を生成することを目的としている。
RMS-SVS方式であるRMSSingerを提案する。
RMSSingerでは,時間を要する音素の持続時間アノテーションと複雑な音素レベルのメルノートアライメントを避けるために,単語レベルのモデリングを導入する。
論文 参考訳(メタデータ) (2023-05-18T03:57:51Z) - Noise2Music: Text-conditioned Music Generation with Diffusion Models [73.74580231353684]
本研究では,テキストプロンプトから高品質な30秒音楽クリップを生成するために,一連の拡散モデルを訓練するNoss2Musicを紹介する。
生成した音声は、ジャンル、テンポ、楽器、ムード、時代など、テキストプロンプトの重要な要素を忠実に反映できるだけでなく、テキストプロンプトを忠実に反映できる。
トレーニングセットのオーディオのためにペア化されたテキストを生成し、拡散モデルによって取り込まれたテキストプロンプトの埋め込みを抽出するために使用される。
論文 参考訳(メタデータ) (2023-02-08T07:27:27Z) - Setting the rhythm scene: deep learning-based drum loop generation from
arbitrary language cues [0.0]
言語キューの「ムード」を具現化した4ピースドラムパターンの2コンパスを生成する新しい手法を提案する。
我々は,このツールを電子音楽とオーディオヴィジュアルサウンドトラック制作のための作曲支援,あるいはライブ演奏のための即興ツールとして想定する。
このモデルのトレーニングサンプルを作成するため,各曲のコンセンサス・ドラムトラックを抽出する新たな手法を考案した。
論文 参考訳(メタデータ) (2022-09-20T21:53:35Z) - Re-creation of Creations: A New Paradigm for Lyric-to-Melody Generation [158.54649047794794]
Re-creation of Creations (ROC)は、歌詞からメロディ生成のための新しいパラダイムである。
ROCは、Lyric-to-Meody生成において、優れたLyric-Meody特徴アライメントを実現する。
論文 参考訳(メタデータ) (2022-08-11T08:44:47Z) - A Unified Model for Zero-shot Music Source Separation, Transcription and
Synthesis [13.263771543118994]
1)混合音源から個々の音源をテキスト化する,2)各音源をMIDI音符に書き起こす,3)分離音源の音色に基づいて新曲を合成する,という3つのタスクの統一モデルを提案する。
このモデルは、人間が音楽を聴くとき、私たちの心は異なる楽器の音を分離できるだけでなく、スコアや音色といったハイレベルな表現も認識できるという事実にインスピレーションを受けています。
論文 参考訳(メタデータ) (2021-08-07T14:28:21Z) - Towards Automatic Instrumentation by Learning to Separate Parts in
Symbolic Multitrack Music [33.679951600368405]
演奏中のソロ音楽の音符に楽器を動的に割り当てる自動楽器の実現可能性について検討する。
オンラインでリアルタイムに使用可能なパフォーマンスユースケースの設定に加えて、自動インスツルメンテーションはオフライン環境での補助的な構成ツールのアプリケーションも見つけることができる。
我々は,パート分離の課題を逐次多クラス分類問題として捉え,音符のシーケンスをパートラベルのシーケンスにマッピングするために機械学習を採用する。
論文 参考訳(メタデータ) (2021-07-13T08:34:44Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。