Fugu-MT 論文翻訳(概要): Subtractive Training for Music Stem Insertion using Latent Diffusion Models

論文の概要: Subtractive Training for Music Stem Insertion using Latent Diffusion Models

arxiv url: http://arxiv.org/abs/2406.19328v1
Date: Thu, 27 Jun 2024 16:59:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-28 13:28:34.951022
Title: Subtractive Training for Music Stem Insertion using Latent Diffusion Models
Title（参考訳）: 潜時拡散モデルを用いた音楽ステム挿入のための抽出訓練
Authors: Ivan Villa-Renteria, Mason L. Wang, Zachary Shah, Zhe Li, Soohyun Kim, Neelesh Ramachandran, Mert Pilanci,
Abstract要約: 本稿では,他の楽器を文脈として与えた個々の楽器茎を合成する方法であるSubtractive Trainingを提案する。以上の結果から,既存のトラックとシームレスにブレンドしたドラムステムを創り出すためのサブトラクティブトレーニングの有効性が示された。我々はこの技術をMIDIフォーマットに拡張し、不完全なアレンジメントのために、互換性のあるベース、ドラム、ギター部品をうまく生成する。
参考スコア（独自算出の注目度）: 35.91945598575059
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present Subtractive Training, a simple and novel method for synthesizing individual musical instrument stems given other instruments as context. This method pairs a dataset of complete music mixes with 1) a variant of the dataset lacking a specific stem, and 2) LLM-generated instructions describing how the missing stem should be reintroduced. We then fine-tune a pretrained text-to-audio diffusion model to generate the missing instrument stem, guided by both the existing stems and the text instruction. Our results demonstrate Subtractive Training's efficacy in creating authentic drum stems that seamlessly blend with the existing tracks. We also show that we can use the text instruction to control the generation of the inserted stem in terms of rhythm, dynamics, and genre, allowing us to modify the style of a single instrument in a full song while keeping the remaining instruments the same. Lastly, we extend this technique to MIDI formats, successfully generating compatible bass, drum, and guitar parts for incomplete arrangements.
Abstract（参考訳）: 本稿では,他の楽器がコンテキストとして与える個々の楽器茎を合成する,シンプルで斬新な方法であるSubtractive Trainingを提案する。この方法では、完全な音楽ミックスのデータセットをペアリングする。 1) 特定の茎を欠いたデータセットの変種 2) 欠損した茎をどのように再導入すべきかを LLM で記述した。そして、事前訓練されたテキスト・音声拡散モデルに微調整を行い、既存の幹とテキスト・インストラクションの両方でガイドされる、欠落した楽器の茎を生成する。以上の結果から,既存のトラックとシームレスにブレンドしたドラムステムを創り出すためのサブトラクティブトレーニングの有効性が示された。また,音律,ダイナミクス,ジャンルの観点から,挿入した茎の生成を制御するためにテキスト命令を使用すれば,残した楽器を同じ状態に保ちながら,単一楽器のスタイルを全曲で変更できることを示す。最後に、このテクニックをMIDIフォーマットに拡張し、不完全なアレンジメントのために、互換性のあるベース、ドラム、ギター部品を生成する。

関連論文リスト

SongGen: A Single Stage Auto-regressive Transformer for Text-to-Song Generation [75.86473375730392]
SongGenは、コントロール可能な曲を生成するための、完全なオープンソースでシングルステージの自動回帰トランスフォーマーである。音声と伴奏の混合を生成する混合モードと、それらを別々に合成するデュアルトラックモードの2つの出力モードをサポートする。コミュニティの関与と今後の研究を促進するため、私たちは、モデルの重み付け、トレーニングコード、注釈付きデータ、前処理パイプラインをリリースします。
論文参考訳（メタデータ） (2025-02-18T18:52:21Z)
DisMix: Disentangling Mixtures of Musical Instruments for Source-level Pitch and Timbre Manipulation [21.06957311285177]
DisMixは、ソースのメロディと楽器を構築するためのビルディングブロックとして、ピッチと音色の表現が機能する生成フレームワークである。表現の操作により, モデルサンプルは, 構成楽器のピッチと音色の組み合わせとを混合する。音源レベル表現の集合に条件付き混合を再構成する非絡み合ったピッチ音色表現と潜時拡散変換器を共同で学習することができる。
論文参考訳（メタデータ） (2024-08-20T12:56:49Z)
Text Conditioned Symbolic Drumbeat Generation using Latent Diffusion Models [0.0]
本研究では,ラテント拡散モデル(LDM)を用いたドラムビート生成のためのテキスト条件付き手法を提案する。マルチモーダルネットワーク内のコントラスト学習を通じてテキストとドラムのエンコーダを事前学習することにより,テキストと音楽のモダリティを密に調整する。生成したドラムビートは新規で、即興のテキストに順応し、人間の音楽家によるものと同等の品質を示す。
論文参考訳（メタデータ） (2024-08-05T13:23:05Z)
MuseBarControl: Enhancing Fine-Grained Control in Symbolic Music Generation through Pre-Training and Counterfactual Loss [51.85076222868963]
制御信号と対応する音楽トークンを直接リンクする事前学習タスクを導入する。次に、生成した音楽と制御プロンプトとの整合性を向上する新たな対実的損失を実現する。
論文参考訳（メタデータ） (2024-07-05T08:08:22Z)
Performance Conditioning for Diffusion-Based Multi-Instrument Music Synthesis [15.670399197114012]
本稿では,特定の性能と記録環境に生成モデルを条件付け,多施設合成の制御を強化することを提案する。パフォーマンスコンディショニング(Performance Conditioning)とは、特定の演奏から採った特定の楽器のスタイルと音色で音楽を合成する生成モデルを示すツールである。試作機は,多種多様な楽器と最先端のFADリアリズムスコアを用いた未計算性能を用いて評価した。
論文参考訳（メタデータ） (2023-09-21T17:44:57Z)
RMSSinger: Realistic-Music-Score based Singing Voice Synthesis [56.51475521778443]
RMS-SVSは、異なる音符タイプでリアル音楽のスコアを与えられた高品質な歌声を生成することを目的としている。 RMS-SVS方式であるRMSSingerを提案する。 RMSSingerでは,時間を要する音素の持続時間アノテーションと複雑な音素レベルのメルノートアライメントを避けるために,単語レベルのモデリングを導入する。
論文参考訳（メタデータ） (2023-05-18T03:57:51Z)
Noise2Music: Text-conditioned Music Generation with Diffusion Models [73.74580231353684]
本研究では,テキストプロンプトから高品質な30秒音楽クリップを生成するために,一連の拡散モデルを訓練するNoss2Musicを紹介する。生成した音声は、ジャンル、テンポ、楽器、ムード、時代など、テキストプロンプトの重要な要素を忠実に反映できるだけでなく、テキストプロンプトを忠実に反映できる。トレーニングセットのオーディオのためにペア化されたテキストを生成し、拡散モデルによって取り込まれたテキストプロンプトの埋め込みを抽出するために使用される。
論文参考訳（メタデータ） (2023-02-08T07:27:27Z)
Setting the rhythm scene: deep learning-based drum loop generation from arbitrary language cues [0.0]
言語キューの「ムード」を具現化した4ピースドラムパターンの2コンパスを生成する新しい手法を提案する。我々は,このツールを電子音楽とオーディオヴィジュアルサウンドトラック制作のための作曲支援,あるいはライブ演奏のための即興ツールとして想定する。このモデルのトレーニングサンプルを作成するため,各曲のコンセンサス・ドラムトラックを抽出する新たな手法を考案した。
論文参考訳（メタデータ） (2022-09-20T21:53:35Z)
Re-creation of Creations: A New Paradigm for Lyric-to-Melody Generation [158.54649047794794]
Re-creation of Creations (ROC)は、歌詞からメロディ生成のための新しいパラダイムである。 ROCは、Lyric-to-Meody生成において、優れたLyric-Meody特徴アライメントを実現する。
論文参考訳（メタデータ） (2022-08-11T08:44:47Z)
Towards Automatic Instrumentation by Learning to Separate Parts in Symbolic Multitrack Music [33.679951600368405]
演奏中のソロ音楽の音符に楽器を動的に割り当てる自動楽器の実現可能性について検討する。オンラインでリアルタイムに使用可能なパフォーマンスユースケースの設定に加えて、自動インスツルメンテーションはオフライン環境での補助的な構成ツールのアプリケーションも見つけることができる。我々は,パート分離の課題を逐次多クラス分類問題として捉え,音符のシーケンスをパートラベルのシーケンスにマッピングするために機械学習を採用する。
論文参考訳（メタデータ） (2021-07-13T08:34:44Z)
Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文参考訳（メタデータ） (2020-08-06T18:29:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。