論文の概要: Unsupervised Source Separation By Steering Pretrained Music Models
- arxiv url: http://arxiv.org/abs/2110.13071v1
- Date: Mon, 25 Oct 2021 16:08:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-26 19:03:22.829583
- Title: Unsupervised Source Separation By Steering Pretrained Music Models
- Title(参考訳): 事前学習音楽モデルによる教師なし音源分離
- Authors: Ethan Manilow, Patrick O'Reilly, Prem Seetharaman, Bryan Pardo
- Abstract要約: 本稿では、音源分離のための音楽生成と音楽タグ付けのために訓練されたディープモデルを再活用する教師なし手法を紹介する。
入力混合物に音声生成モデルを条件付けし、音声生成に用いる音声の潜時符号化を生成する。
この生成されたオーディオは、ソースラベルを生成する事前訓練された音楽タグに供給される。
- 参考スコア(独自算出の注目度): 15.847814664948013
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We showcase an unsupervised method that repurposes deep models trained for
music generation and music tagging for audio source separation, without any
retraining. An audio generation model is conditioned on an input mixture,
producing a latent encoding of the audio used to generate audio. This generated
audio is fed to a pretrained music tagger that creates source labels. The
cross-entropy loss between the tag distribution for the generated audio and a
predefined distribution for an isolated source is used to guide gradient ascent
in the (unchanging) latent space of the generative model. This system does not
update the weights of the generative model or the tagger, and only relies on
moving through the generative model's latent space to produce separated
sources. We use OpenAI's Jukebox as the pretrained generative model, and we
couple it with four kinds of pretrained music taggers (two architectures and
two tagging datasets). Experimental results on two source separation datasets,
show this approach can produce separation estimates for a wider variety of
sources than any tested supervised or unsupervised system. This work points to
the vast and heretofore untapped potential of large pretrained music models for
audio-to-audio tasks like source separation.
- Abstract(参考訳): 本稿では、音源分離のための音楽生成や音楽タグ付けのために訓練されたディープモデルを再活用する教師なし手法を紹介する。
入力混合物に音声生成モデルを条件付けし、音声生成に用いる音声の潜時符号化を生成する。
この生成されたオーディオは、ソースラベルを生成する事前訓練された音楽タグに送られる。
生成音声のタグ分布と分離音源の予め定義された分布とのクロスエントロピー損失を用いて、生成モデルの(不変な)潜在空間における勾配上昇をガイドする。
このシステムは生成モデルやタグの重みを更新せず、生成モデルの潜在空間を移動して分離したソースを生成するのみに依存する。
プリトレーニングされた生成モデルとしてopenaiのjukeboxを使用し、プリトレーニングされた4種類の音楽タガー(2つのアーキテクチャと2つのタギングデータセット)を組み合わせる。
2つのソース分離データセットの実験結果から、この手法は、試験された教師なしシステムや教師なしシステムよりも幅広いソースの分離推定を導出できることを示した。
この研究は、ソース分離のようなオーディオとオーディオのタスクのための、大規模な事前訓練された音楽モデルの、これまでもなかった膨大な可能性を示している。
関連論文リスト
- Multi-Source Music Generation with Latent Diffusion [7.832209959041259]
マルチソース拡散モデル (Multi-Source Diffusion Model, MDM) は、複数の音源の混合として音楽をモデル化することを提案した。
MSLDMは変分オートエンコーダ(VAE)を使用して、各機器のソースを別個の潜在表現にエンコードする。
このアプローチは音楽の総生成と部分生成を大幅に強化する。
論文 参考訳(メタデータ) (2024-09-10T03:41:10Z) - Source Separation of Multi-source Raw Music using a Residual Quantized Variational Autoencoder [0.0]
残差量子化変分オートエンコーダアーキテクチャに基づくニューラルオーディオモデルを開発した。
モデルはオーディオソースを分離することができ、ほぼSoTA結果を達成することができ、計算能力は大幅に低下する。
論文 参考訳(メタデータ) (2024-08-12T17:30:17Z) - Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。
本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。
実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-06-01T06:40:22Z) - Tango 2: Aligning Diffusion-based Text-to-Audio Generations through Direct Preference Optimization [70.13218512896032]
テキストプロンプトから音声を生成することは、音楽や映画産業におけるそのようなプロセスの重要な側面である。
我々の仮説は、これらのオーディオ生成の側面が、限られたデータの存在下でのオーディオ生成性能をどのように改善するかに焦点を当てている。
我々は、各プロンプトが勝者の音声出力と、拡散モデルが学習するための敗者音声出力を持つ選好データセットを合成的に作成する。
論文 参考訳(メタデータ) (2024-04-15T17:31:22Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - Controllable Music Production with Diffusion Models and Guidance
Gradients [3.187381965457262]
44.1kHzステレオオーディオにおいて,拡散モデルから条件付き生成を用いて,様々な現実的なタスクに対処する方法を実証する。
このシナリオには、継続性、音楽オーディオのインペイントと再生、2つの異なる音楽トラック間のスムーズな遷移の生成、既存のオーディオクリップへの所望のスタイル特性の転送などが含まれる。
論文 参考訳(メタデータ) (2023-11-01T16:01:01Z) - Multi-Source Diffusion Models for Simultaneous Music Generation and Separation [17.124189082882395]
私たちは、音楽ソース分離のための標準データセットであるSlakh2100でモデルをトレーニングします。
我々の手法は、生成タスクと分離タスクの両方を処理できる単一のモデルの最初の例である。
論文 参考訳(メタデータ) (2023-02-04T23:18:36Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z) - Separate And Diffuse: Using a Pretrained Diffusion Model for Improving
Source Separation [99.19786288094596]
上界をランダムな生成モデルに一般化する方法を示す。
複数のベンチマークで2, 3, 5, 10, 20人の話者に最先端の結果を示す。
論文 参考訳(メタデータ) (2023-01-25T18:21:51Z) - Zero-shot Audio Source Separation through Query-based Learning from
Weakly-labeled Data [26.058278155958668]
本稿では,大規模だがラベルの弱いデータセットであるAudioSetから,ユニバーサルオーディオソースセパレータをトレーニングするための3成分パイプラインを提案する。
提案手法は,複数の音源の音源分離に単一モデルを用い,弱いラベル付きデータにのみ依存する。
提案したオーディオセパレータはゼロショット設定で使用することができ、トレーニングで見たことのない種類のオーディオソースを分離することを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-15T05:13:43Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。