論文の概要: Source Separation of Multi-source Raw Music using a Residual Quantized Variational Autoencoder
- arxiv url: http://arxiv.org/abs/2408.07020v1
- Date: Mon, 12 Aug 2024 17:30:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-14 16:55:31.487668
- Title: Source Separation of Multi-source Raw Music using a Residual Quantized Variational Autoencoder
- Title(参考訳): 残差量子化変分オートエンコーダを用いた複数音源の音源分離
- Authors: Leonardo Berti,
- Abstract要約: 残差量子化変分オートエンコーダアーキテクチャに基づくニューラルオーディオモデルを開発した。
モデルはオーディオソースを分離することができ、ほぼSoTA結果を達成することができ、計算能力は大幅に低下する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: I developed a neural audio codec model based on the residual quantized variational autoencoder architecture. I train the model on the Slakh2100 dataset, a standard dataset for musical source separation, composed of multi-track audio. The model can separate audio sources, achieving almost SoTA results with much less computing power. The code is publicly available at github.com/LeonardoBerti00/Source-Separation-of-Multi-source-Music-using-Residual-Quantizad-Variatio nal-Autoencoder
- Abstract(参考訳): 残差量子化変分オートエンコーダアーキテクチャに基づくニューラルオーディオコーデックモデルを開発した。
私は、マルチトラックオーディオで構成される音楽ソース分離のための標準データセットであるSlakh2100データセットでモデルをトレーニングします。
モデルはオーディオソースを分離することができ、ほぼSoTA結果を達成することができ、計算能力は大幅に低下する。
コードはgithub.com/LeonardoBerti00/Source-Separation-of-Multi-source-Music-using-Residual-Quantizad-Variatio nal-Autoencoderで公開されている。
関連論文リスト
- Learning Source Disentanglement in Neural Audio Codec [20.335701584949526]
我々は、音源符号化と音源分離を組み合わせた新しいアプローチである、ソース分散ニューラルオーディオコーデック(SD-Codec)を紹介する。
SD-Codecは、音声の合成と分離を共同で学習することで、異なるドメインからの音声信号を異なるコードブック(離散表現の集合)に明示的に割り当てる。
実験結果から,SD-Codecは競合的再合成品質を維持するだけでなく,分離結果に支えられ,潜伏空間における異なるソースの絡み合いが成功したことが示唆された。
論文 参考訳(メタデータ) (2024-09-17T14:21:02Z) - Multi-Source Music Generation with Latent Diffusion [7.832209959041259]
マルチソース拡散モデル (Multi-Source Diffusion Model, MDM) は、複数の音源の混合として音楽をモデル化することを提案した。
MSLDMは変分オートエンコーダ(VAE)を使用して、各機器のソースを別個の潜在表現にエンコードする。
このアプローチは音楽の総生成と部分生成を大幅に強化する。
論文 参考訳(メタデータ) (2024-09-10T03:41:10Z) - WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling [65.30937248905958]
言語モデルの重要な構成要素は、高次元の自然信号を低次元の離散トークンに圧縮するトークン化器である。
本稿では,従来の音響領域におけるSOTA音響モデルよりもいくつかの利点があるWavTokenizerを紹介する。
WavTokenizerは、優れたUTMOSスコアを持つ最先端の再構築品質を実現し、本質的によりリッチなセマンティック情報を含んでいる。
論文 参考訳(メタデータ) (2024-08-29T13:43:36Z) - An Independence-promoting Loss for Music Generation with Language Models [64.95095558672996]
音楽生成方式は音声トークンの語彙に依存しており、一般にオートエンコーダによって学習された離散潜在空間の符号として提供される。
本稿では,音楽生成のための言語モデルにおけるトークン化器として使用されるオートエンコーダを正規化するために,独立性向上の損失を導入する。
論文 参考訳(メタデータ) (2024-06-04T13:44:39Z) - Separate Anything You Describe [53.30484933564858]
言語クエリオーディオソース分離(LASS)は,CASA(Computer auditory scene analysis)の新しいパラダイムである
AudioSepは、自然言語クエリによるオープンドメインオーディオソース分離の基礎モデルである。
論文 参考訳(メタデータ) (2023-08-09T16:09:44Z) - Benchmarks and leaderboards for sound demixing tasks [44.99833362998488]
音源分離タスクのための2つの新しいベンチマークを導入する。
これらのベンチマークでは、音のデミックスやアンサンブルなどの人気モデルを比較します。
また,特定の茎に最適な異なるモデルのアンサンブルに基づく,音声分離のための新しいアプローチも開発している。
論文 参考訳(メタデータ) (2023-05-12T14:00:26Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - Zero-shot Audio Source Separation through Query-based Learning from
Weakly-labeled Data [26.058278155958668]
本稿では,大規模だがラベルの弱いデータセットであるAudioSetから,ユニバーサルオーディオソースセパレータをトレーニングするための3成分パイプラインを提案する。
提案手法は,複数の音源の音源分離に単一モデルを用い,弱いラベル付きデータにのみ依存する。
提案したオーディオセパレータはゼロショット設定で使用することができ、トレーニングで見たことのない種類のオーディオソースを分離することを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-15T05:13:43Z) - Unsupervised Source Separation By Steering Pretrained Music Models [15.847814664948013]
本稿では、音源分離のための音楽生成と音楽タグ付けのために訓練されたディープモデルを再活用する教師なし手法を紹介する。
入力混合物に音声生成モデルを条件付けし、音声生成に用いる音声の潜時符号化を生成する。
この生成されたオーディオは、ソースラベルを生成する事前訓練された音楽タグに供給される。
論文 参考訳(メタデータ) (2021-10-25T16:08:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。