論文の概要: A Stem-Agnostic Single-Decoder System for Music Source Separation Beyond Four Stems
- arxiv url: http://arxiv.org/abs/2406.18747v2
- Date: Mon, 26 Aug 2024 01:07:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 22:57:33.314849
- Title: A Stem-Agnostic Single-Decoder System for Music Source Separation Beyond Four Stems
- Title(参考訳): 4つのステムを超える音源分離のためのステム非依存シングルデコーダシステム
- Authors: Karn N. Watcharasupat, Alexander Lerch,
- Abstract要約: Banquetは1つのデコーダを使って複数の幹のソース分離を可能にするシステムである。
バンドスプリットソース分離モデルは、楽器認識PaSSTモデルと共にタンデムでクエリベースのセットアップで動作するように拡張される。
- 参考スコア(独自算出の注目度): 53.30852012059025
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite significant recent progress across multiple subtasks of audio source separation, few music source separation systems support separation beyond the four-stem vocals, drums, bass, and other (VDBO) setup. Of the very few current systems that support source separation beyond this setup, most continue to rely on an inflexible decoder setup that can only support a fixed pre-defined set of stems. Increasing stem support in these inflexible systems correspondingly requires increasing computational complexity, rendering extensions of these systems computationally infeasible for long-tail instruments. In this work, we propose Banquet, a system that allows source separation of multiple stems using just one decoder. A bandsplit source separation model is extended to work in a query-based setup in tandem with a music instrument recognition PaSST model. On the MoisesDB dataset, Banquet, at only 24.9 M trainable parameters, approached the performance level of the significantly more complex 6-stem Hybrid Transformer Demucs on VDBO stems and outperformed it on guitar and piano. The query-based setup allows for the separation of narrow instrument classes such as clean acoustic guitars, and can be successfully applied to the extraction of less common stems such as reeds and organs. Implementation is available at https://github.com/kwatcharasupat/query-bandit.
- Abstract(参考訳): オーディオソース分離の複数のサブタスクにまたがる最近の進歩にもかかわらず、4つのステムボーカル、ドラム、ベース、その他の(VDBO)設定以外の分離をサポートする音源分離システムはほとんどない。
このセットアップ以外のソース分離をサポートする現在のシステムの中で、ほとんどのシステムは、固定された定義済みのステムセットしかサポートできない、柔軟性のないデコーダのセットアップに依存している。
これらの非フレキシブルシステムにおけるステムサポートの増大は、計算複雑性の増大を必要とし、これらのシステムの拡張は、ロングテール機器では計算不可能である。
本研究では,1つのデコーダを用いて複数の幹のソース分離を可能にするシステムであるBanquetを提案する。
バンドスプリットソース分離モデルは、楽器認識PaSSTモデルと共にタンデムでクエリベースのセットアップで動作するように拡張される。
MoisesDBのデータセットでは、わずか24.9Mのトレーニング可能なパラメータで、VDBOステム上のより複雑な6ステムのハイブリッドトランスフォーマーデモークのパフォーマンスレベルにアプローチし、ギターとピアノでパフォーマンスを向上した。
クエリベースの設定により、クリーンなアコースティックギターのような細い楽器のクラスを分離することができ、リードやオルガンのようなあまり一般的でない茎の抽出にうまく適用することができる。
実装はhttps://github.com/kwatcharasupat/query-bandit.comで公開されている。
関連論文リスト
- An Ensemble Approach to Music Source Separation: A Comparative Analysis of Conventional and Hierarchical Stem Separation [0.4893345190925179]
音源分離(英: Music Source separation、MSS)とは、音源を混合した音声信号から分離する作業である。
本稿では,複数の最先端アーキテクチャを組み合わせたMSSのアンサンブル手法を提案する。
論文 参考訳(メタデータ) (2024-10-28T06:18:12Z) - Facing the Music: Tackling Singing Voice Separation in Cinematic Audio Source Separation [5.926447149127937]
シネマティックオーディオソース分離は、オーディオソース分離の新しいサブタスクである。
CASSの典型的なセットアップは3段階の問題であり、混合物を対話(DX)、音楽(MX)、エフェクト(FX)に分離することを目的としている。
専用デコーダBanditとクエリベースの単一デコーダBanquetモデルの4段階問題への非常に簡単な拡張を実演する。
論文 参考訳(メタデータ) (2024-08-07T07:04:29Z) - DiffMoog: a Differentiable Modular Synthesizer for Sound Matching [48.33168531500444]
DiffMoogはモジュラーシンセサイザーで、一般に商用機器で見られるモジュールの集合を包含する。
差別化が可能であるため、ニューラルネットワークとの統合が可能になり、自動サウンドマッチングが可能になる。
我々はDiffMoogとエンドツーエンドのサウンドマッチングフレームワークを組み合わせたオープンソースのプラットフォームを紹介した。
論文 参考訳(メタデータ) (2024-01-23T08:59:21Z) - Toward Deep Drum Source Separation [52.01259769265708]
本稿では,独立した単一構造ドラムステムの大規模オーディオデータセットであるStemGMDを紹介する。
合計1224時間、StemGMDはドラムのオーディオデータセットとしてこれまでで最大である。
我々は、StemGMDを利用して、新しいディープドラムソース分離モデルであるLarsNetを開発した。
論文 参考訳(メタデータ) (2023-12-15T10:23:07Z) - High-Quality Visually-Guided Sound Separation from Diverse Categories [56.92841782969847]
DAVISは拡散に基づくオーディオ視覚分離フレームワークである。
分離された音をガウス雑音から直接合成し、オーディオミックスと視覚情報の両方に条件付けする。
AVEおよびMUSICデータセット上で,DAVISを既存の最先端の識別的音声視覚分離法と比較した。
論文 参考訳(メタデータ) (2023-07-31T19:41:49Z) - Moisesdb: A dataset for source separation beyond 4-stems [0.9176056742068811]
本稿では,音楽音源分離のためのMoisesDBデータセットを紹介する。
45人のアーティストの240曲で構成され、12のジャンルをカバーしている。
それぞれの歌に対して,2階層の階層分類で構成された個々の音声ソースを提供する。
論文 参考訳(メタデータ) (2023-07-29T06:59:37Z) - End-to-End Multi-speaker ASR with Independent Vector Analysis [80.83577165608607]
マルチチャンネル・マルチスピーカ自動音声認識のためのエンドツーエンドシステムを開発した。
本稿では, 独立ベクトル解析(IVA)のパラダイムを基礎として, ソース分離と収差分離のパラダイムを提案する。
論文 参考訳(メタデータ) (2022-04-01T05:45:33Z) - Multitask learning for instrument activation aware music source
separation [83.30944624666839]
本稿では,楽器のアクティベーション情報を用いて音源分離性能を向上させるための新しいマルチタスク構造を提案する。
MUSDBデータセットに含まれる3つの楽器よりも現実的なシナリオである6つの独立した楽器について,本システムについて検討する。
その結果,提案したマルチタスクモデルは,Mixing SecretsとMedleyDBデータセットを混合したベースラインのOpen-Unmixモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-08-03T02:35:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。