論文の概要: Unsupervised Source Separation By Steering Pretrained Music Models
- arxiv url: http://arxiv.org/abs/2110.13071v1
- Date: Mon, 25 Oct 2021 16:08:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-26 19:03:22.829583
- Title: Unsupervised Source Separation By Steering Pretrained Music Models
- Title(参考訳): 事前学習音楽モデルによる教師なし音源分離
- Authors: Ethan Manilow, Patrick O'Reilly, Prem Seetharaman, Bryan Pardo
- Abstract要約: 本稿では、音源分離のための音楽生成と音楽タグ付けのために訓練されたディープモデルを再活用する教師なし手法を紹介する。
入力混合物に音声生成モデルを条件付けし、音声生成に用いる音声の潜時符号化を生成する。
この生成されたオーディオは、ソースラベルを生成する事前訓練された音楽タグに供給される。
- 参考スコア(独自算出の注目度): 15.847814664948013
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We showcase an unsupervised method that repurposes deep models trained for
music generation and music tagging for audio source separation, without any
retraining. An audio generation model is conditioned on an input mixture,
producing a latent encoding of the audio used to generate audio. This generated
audio is fed to a pretrained music tagger that creates source labels. The
cross-entropy loss between the tag distribution for the generated audio and a
predefined distribution for an isolated source is used to guide gradient ascent
in the (unchanging) latent space of the generative model. This system does not
update the weights of the generative model or the tagger, and only relies on
moving through the generative model's latent space to produce separated
sources. We use OpenAI's Jukebox as the pretrained generative model, and we
couple it with four kinds of pretrained music taggers (two architectures and
two tagging datasets). Experimental results on two source separation datasets,
show this approach can produce separation estimates for a wider variety of
sources than any tested supervised or unsupervised system. This work points to
the vast and heretofore untapped potential of large pretrained music models for
audio-to-audio tasks like source separation.
- Abstract(参考訳): 本稿では、音源分離のための音楽生成や音楽タグ付けのために訓練されたディープモデルを再活用する教師なし手法を紹介する。
入力混合物に音声生成モデルを条件付けし、音声生成に用いる音声の潜時符号化を生成する。
この生成されたオーディオは、ソースラベルを生成する事前訓練された音楽タグに送られる。
生成音声のタグ分布と分離音源の予め定義された分布とのクロスエントロピー損失を用いて、生成モデルの(不変な)潜在空間における勾配上昇をガイドする。
このシステムは生成モデルやタグの重みを更新せず、生成モデルの潜在空間を移動して分離したソースを生成するのみに依存する。
プリトレーニングされた生成モデルとしてopenaiのjukeboxを使用し、プリトレーニングされた4種類の音楽タガー(2つのアーキテクチャと2つのタギングデータセット)を組み合わせる。
2つのソース分離データセットの実験結果から、この手法は、試験された教師なしシステムや教師なしシステムよりも幅広いソースの分離推定を導出できることを示した。
この研究は、ソース分離のようなオーディオとオーディオのタスクのための、大規模な事前訓練された音楽モデルの、これまでもなかった膨大な可能性を示している。
関連論文リスト
- Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - Controllable Music Production with Diffusion Models and Guidance
Gradients [3.187381965457262]
44.1kHzステレオオーディオにおいて,拡散モデルから条件付き生成を用いて,様々な現実的なタスクに対処する方法を実証する。
このシナリオには、継続性、音楽オーディオのインペイントと再生、2つの異なる音楽トラック間のスムーズな遷移の生成、既存のオーディオクリップへの所望のスタイル特性の転送などが含まれる。
論文 参考訳(メタデータ) (2023-11-01T16:01:01Z) - Benchmarks and leaderboards for sound demixing tasks [68.8204255655161]
音源分離タスクのための2つの新しいベンチマークを導入する。
これらのベンチマークでは、音のデミックスやアンサンブルなどの人気モデルを比較します。
また,特定の茎に最適な異なるモデルのアンサンブルに基づく,音声分離のための新しいアプローチも開発している。
論文 参考訳(メタデータ) (2023-05-12T14:00:26Z) - Multi-Source Diffusion Models for Simultaneous Music Generation and
Separation [4.452944123741912]
私たちは、音楽ソース分離のための標準データセットであるSlakh2100でモデルをトレーニングします。
我々の手法は、生成タスクと分離タスクの両方を処理できる単一のモデルの最初の例である。
論文 参考訳(メタデータ) (2023-02-04T23:18:36Z) - ArchiSound: Audio Generation with Diffusion [0.0]
本研究では,音声生成のための拡散モデルの可能性について検討する。
重畳した1次元U-Netを用いたテキスト条件付き潜在音声拡散手法を提案する。
各モデルに対して、単一のコンシューマGPU上でリアルタイムにターゲットとする、合理的な推論速度の維持に取り組みます。
論文 参考訳(メタデータ) (2023-01-30T20:23:26Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z) - Separate And Diffuse: Using a Pretrained Diffusion Model for Improving
Source Separation [99.19786288094596]
上界をランダムな生成モデルに一般化する方法を示す。
複数のベンチマークで2, 3, 5, 10, 20人の話者に最先端の結果を示す。
論文 参考訳(メタデータ) (2023-01-25T18:21:51Z) - Zero-shot Audio Source Separation through Query-based Learning from
Weakly-labeled Data [26.058278155958668]
本稿では,大規模だがラベルの弱いデータセットであるAudioSetから,ユニバーサルオーディオソースセパレータをトレーニングするための3成分パイプラインを提案する。
提案手法は,複数の音源の音源分離に単一モデルを用い,弱いラベル付きデータにのみ依存する。
提案したオーディオセパレータはゼロショット設定で使用することができ、トレーニングで見たことのない種類のオーディオソースを分離することを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-15T05:13:43Z) - Visual Scene Graphs for Audio Source Separation [65.47212419514761]
視覚的に誘導された音源分離のための最先端のアプローチは、典型的には楽器のような特徴的な音を持つ音源を仮定する。
本稿では,シーンの視覚構造をグラフとして埋め込んだ新しい深層学習モデルであるAudio Visual Scene Graph Segmenter (AVSGS)を提案する。
我々のパイプラインは、人工混合音から視覚グラフを用いて音源を分離する自己教師タスクにより、エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2021-09-24T13:40:51Z) - MP3net: coherent, minute-long music generation from raw audio with a
simple convolutional GAN [0.0]
我々は、長距離コヒーレンスで高品質のオーディオサンプルを生成する深い畳み込みGANを紹介します。
人間の耳の聴覚マスキングと心理音響知覚の限界を利用して、真の分布を広げる。
私たちは、単一のクラウドTPUv2で250hのトレーニング後に22kHzのサンプルレートで95sのステレオトラックを作成するためにMP3netを使用します。
論文 参考訳(メタデータ) (2021-01-12T22:37:21Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。