Fugu-MT 論文翻訳(概要): Moisesdb: A dataset for source separation beyond 4-stems

論文の概要: Moisesdb: A dataset for source separation beyond 4-stems

arxiv url: http://arxiv.org/abs/2307.15913v1
Date: Sat, 29 Jul 2023 06:59:37 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-01 18:45:42.677411
Title: Moisesdb: A dataset for source separation beyond 4-stems
Title（参考訳）: moisesdb: 4-stem以上のソース分離のためのデータセット
Authors: Igor Pereira, Felipe Ara\'ujo, Filip Korzeniowski, Richard Vogl
Abstract要約: 本稿では,音楽音源分離のためのMoisesDBデータセットを紹介する。 45人のアーティストの240曲で構成され、12のジャンルをカバーしている。それぞれの歌に対して,2階層の階層分類で構成された個々の音声ソースを提供する。
参考スコア（独自算出の注目度）: 0.9176056742068811
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we introduce the MoisesDB dataset for musical source separation. It consists of 240 tracks from 45 artists, covering twelve musical genres. For each song, we provide its individual audio sources, organized in a two-level hierarchical taxonomy of stems. This will facilitate building and evaluating fine-grained source separation systems that go beyond the limitation of using four stems (drums, bass, other, and vocals) due to lack of data. To facilitate the adoption of this dataset, we publish an easy-to-use Python library to download, process and use MoisesDB. Alongside a thorough documentation and analysis of the dataset contents, this work provides baseline results for open-source separation models for varying separation granularities (four, five, and six stems), and discuss their results.
Abstract（参考訳）: 本稿では,音楽音源分離のためのmoisesdbデータセットを提案する。 45人のアーティストの240曲で構成され、12のジャンルをカバーしている。それぞれの歌に対して,2階層の階層分類で構成された個々の音声ソースを提供する。これにより、データ不足による4つのステム(ドラム、ベース、その他のボーカル)の使用制限を超えて、きめ細かいソース分離システムの構築と評価が容易になる。このデータセットの採用を容易にするために,MoisesDBをダウンロード,処理,使用するためのPythonライブラリを公開しています。データセットの内容に関する詳細なドキュメンテーションと分析に加えて、この研究は、さまざまな分離粒度(4, 5, 6幹)のオープンソース分離モデルのベースライン結果を提供し、それらの結果について議論する。

関連論文リスト

Unleashing the Power of Natural Audio Featuring Multiple Sound Sources [54.38251699625379]
ユニバーサルサウンド分離は、混合音声から異なるイベントに対応するクリーンなオーディオトラックを抽出することを目的としている。複雑な混合音声を複数の独立したトラックに分解するために,データエンジンを利用するフレームワークであるClearSepを提案する。実験では、ClearSepは複数の音分離タスクで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-04-24T17:58:21Z)
JamendoMaxCaps: A Large Scale Music-caption Dataset with Imputed Metadata [6.230204066837519]
JamendoMaxCapsは、有名なJamendoプラットフォームから20万以上のフリーライセンスの楽器トラックを特徴とする、大規模な音楽キャプチャデータセットである。データセットには、最先端のキャプションモデルによって生成されたキャプションが含まれており、暗黙のメタデータで強化されている。
論文参考訳（メタデータ） (2025-02-11T11:12:19Z)
Separate This, and All of these Things Around It: Music Source Separation via Hyperellipsoidal Queries [53.30852012059025]
音源分離は音声から音声までの検索作業である。音楽ソース分離における最近の研究は、固定状態パラダイムに挑戦し始めている。本稿では,超楕円体領域をクエリとして使用することにより,ターゲット(位置)とスプレッドの両方を指定するための直感的かつ容易にパラメトリザブルなアプローチを提案する。
論文参考訳（メタデータ） (2025-01-27T16:13:50Z)
A Stem-Agnostic Single-Decoder System for Music Source Separation Beyond Four Stems [53.30852012059025]
Banquetは1つのデコーダを使って複数の幹のソース分離を可能にするシステムである。バンドスプリットソース分離モデルは、楽器認識PaSSTモデルと共にタンデムでクエリベースのセットアップで動作するように拡張される。
論文参考訳（メタデータ） (2024-06-26T20:25:53Z)
Separate Anything You Describe [55.0784713558149]
言語クエリオーディオソース分離(LASS)は,CASA(Computer auditory scene analysis)の新しいパラダイムである AudioSepは、自然言語クエリによるオープンドメインオーディオソース分離の基礎モデルである。
論文参考訳（メタデータ） (2023-08-09T16:09:44Z)
Benchmarks and leaderboards for sound demixing tasks [44.99833362998488]
音源分離タスクのための2つの新しいベンチマークを導入する。これらのベンチマークでは、音のデミックスやアンサンブルなどの人気モデルを比較します。また,特定の茎に最適な異なるモデルのアンサンブルに基づく,音声分離のための新しいアプローチも開発している。
論文参考訳（メタデータ） (2023-05-12T14:00:26Z)
MedleyVox: An Evaluation Dataset for Multiple Singing Voices Separation [10.456845656569444]
複数の歌声をそれぞれの声に分離することは、音源分離研究においてまれに研究される。複数の歌声分離のための評価データセットであるMedleyVoxを紹介する。そこで本研究では,複数の歌唱ミックスを構築するためのストラテジーについて述べる。
論文参考訳（メタデータ） (2022-11-14T12:27:35Z)
Separate What You Describe: Language-Queried Audio Source Separation [53.65665794338574]
言語問合せ音声ソース分離(LASS)の課題について紹介する。 LASSは、ターゲットソースの自然言語クエリに基づいて、ターゲットソースをオーディオミックスから分離することを目的としている。本稿では,音響情報と言語情報を協調処理するエンドツーエンドニューラルネットワークLASS-Netを提案する。
論文参考訳（メタデータ） (2022-03-28T23:47:57Z)
Visual Scene Graphs for Audio Source Separation [65.47212419514761]
視覚的に誘導された音源分離のための最先端のアプローチは、典型的には楽器のような特徴的な音を持つ音源を仮定する。本稿では,シーンの視覚構造をグラフとして埋め込んだ新しい深層学習モデルであるAudio Visual Scene Graph Segmenter (AVSGS)を提案する。我々のパイプラインは、人工混合音から視覚グラフを用いて音源を分離する自己教師タスクにより、エンドツーエンドで訓練される。
論文参考訳（メタデータ） (2021-09-24T13:40:51Z)
Content based singing voice source separation via strong conditioning using aligned phonemes [7.599399338954308]
本稿では,音声情報とともに単語レベルで歌詞を時間順に並べたマルチモーダル・マルチトラック・データセットを提案する。歌声の音源分離を改善するために,音素条件付けをうまく適用できることを示す。
論文参考訳（メタデータ） (2020-08-05T12:25:24Z)
MusPy: A Toolkit for Symbolic Music Generation [32.01713268702699]
MusPyは、シンボリック音楽生成のためのオープンソースのPythonライブラリである。本稿では,現在MusPyが支援している11のデータセットの統計的解析について述べる。
論文参考訳（メタデータ） (2020-08-05T06:16:13Z)
Multitask learning for instrument activation aware music source separation [83.30944624666839]
本稿では,楽器のアクティベーション情報を用いて音源分離性能を向上させるための新しいマルチタスク構造を提案する。 MUSDBデータセットに含まれる3つの楽器よりも現実的なシナリオである6つの独立した楽器について,本システムについて検討する。その結果,提案したマルチタスクモデルは,Mixing SecretsとMedleyDBデータセットを混合したベースラインのOpen-Unmixモデルよりも優れていることがわかった。
論文参考訳（メタデータ） (2020-08-03T02:35:00Z)
dMelodies: A Music Dataset for Disentanglement Learning [70.90415511736089]
我々は、研究者が様々な領域でアルゴリズムの有効性を実証するのに役立つ新しいシンボリック・ミュージック・データセットを提案する。これはまた、音楽用に特別に設計されたアルゴリズムを評価する手段を提供する。データセットは、遠絡学習のためのディープネットワークのトレーニングとテストに十分な大きさ(約13万データポイント)である。
論文参考訳（メタデータ） (2020-07-29T19:20:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。