論文の概要: MedleyVox: An Evaluation Dataset for Multiple Singing Voices Separation
- arxiv url: http://arxiv.org/abs/2211.07302v1
- Date: Mon, 14 Nov 2022 12:27:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 21:31:00.013736
- Title: MedleyVox: An Evaluation Dataset for Multiple Singing Voices Separation
- Title(参考訳): MedleyVox: 複数の歌声分離のための評価データセット
- Authors: Chang-Bin Jeon, Hyeongi Moon, Keunwoo Choi, Ben Sangbae Chon, and
Kyogu Lee
- Abstract要約: 複数の歌声分離のための評価データセットであるMedleyVoxを紹介する。
次に,様々な単一歌唱データセットを用いて複数の歌唱ミックスを構築するための戦略を提案する。
第3に、改良された超解像ネットワーク(iSRNet)を提案する。
- 参考スコア(独自算出の注目度): 10.456845656569444
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Separation of multiple singing voices into each voice is a rarely studied
area in music source separation research. The absence of a benchmark dataset
has hindered its progress. In this paper, we present an evaluation dataset and
provide baseline studies for multiple singing voices separation. First, we
introduce MedleyVox, an evaluation dataset for multiple singing voices
separation that corresponds to such categories. We specify the problem
definition in this dataset by categorizing the problem into i) duet, ii)
unison, iii)main vs. rest, and iv) N-singing separation. Second, we present a
strategy for construction of multiple singing mixtures using various
single-singing datasets. This can be used to obtain training data. Third, we
propose the improved super-resolution network (iSRNet). Jointly trained with
the Conv-TasNet and the multi-singing mixture construction strategy, the
proposed iSRNet achieved comparable performance to ideal time-frequency masks
on duet and unison subsets of MedleyVox. Audio samples, the dataset, and codes
are available on our GitHub page (https://github.com/jeonchangbin49/MedleyVox).
- Abstract(参考訳): 複数の歌声をそれぞれの声に分離することは、音源分離研究においてまれに研究される分野である。
ベンチマークデータセットの欠如は、その進捗を妨げている。
本稿では,評価データセットと,複数の歌声分離のためのベースライン研究について述べる。
まず,これらのカテゴリに対応する複数の歌声分離のための評価データセットであるMedleyVoxを紹介する。
このデータセットの問題を分類して問題定義を指定する。
i) デュエット
ii) ユニゾン
iii)メイン対レスト、及び
iv) n-singing separation。
第2に,様々な単一音声データセットを用いた複数の歌唱混合音の構築戦略を提案する。
これはトレーニングデータを取得するために使用できる。
第3に,改良型スーパーレゾリューションネットワーク(isrnet)を提案する。
Conv-TasNetとマルチシング混合構成戦略を併用して、提案したiSRNetは、MedleyVoxのデュエットおよびユニゾンサブセット上の理想的な時間周波数マスクに匹敵する性能を達成した。
オーディオサンプル、データセット、コードはGitHubのページにある(https://github.com/jeonchangbin49/MedleyVox)。
関連論文リスト
- High-Quality Visually-Guided Sound Separation from Diverse Categories [56.92841782969847]
DAVISは拡散に基づくオーディオ視覚分離フレームワークである。
分離された音をガウス雑音から直接合成し、オーディオミックスと視覚情報の両方に条件付けする。
AVEおよびMUSICデータセット上で,DAVISを既存の最先端の識別的音声視覚分離法と比較した。
論文 参考訳(メタデータ) (2023-07-31T19:41:49Z) - Learning Phone Recognition from Unpaired Audio and Phone Sequences Based
on Generative Adversarial Network [58.82343017711883]
そこで本研究では,不適切な音声系列や発話から直接学習する方法について検討する。
GAN訓練を第1段階に導入し,無声音声と音声シーケンスのマッピング関係を求める。
第2段階では、発電機の出力からトレーニングするために別のHMMモデルが導入され、性能が向上する。
論文 参考訳(メタデータ) (2022-07-29T09:29:28Z) - Investigating Multi-Feature Selection and Ensembling for Audio
Classification [0.8602553195689513]
ディープラーニングアルゴリズムは、様々な領域で素晴らしいパフォーマンスを示している。
オーディオはここ数十年、興味深いパターンのために多くの研究者を惹きつけてきた。
音声分類の性能向上のために、特徴選択と組み合わせが重要な役割を担っている。
論文 参考訳(メタデータ) (2022-06-15T13:11:08Z) - MultiSV: Dataset for Far-Field Multi-Channel Speaker Verification [0.0]
本稿では,テキスト非依存型マルチチャネル話者検証システムの訓練と評価を目的とした包括的コーパスを提案する。
また、難聴、難聴、音声強調などの実験にも容易に利用できる。
論文 参考訳(メタデータ) (2021-11-11T20:55:58Z) - Fast accuracy estimation of deep learning based multi-class musical
source separation [79.10962538141445]
本稿では,ニューラルネットワークのトレーニングやチューニングを行うことなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。
理想的な比マスクを持つオラクルの原理に基づいて、我々の手法は最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。
論文 参考訳(メタデータ) (2020-10-19T13:05:08Z) - Multi-microphone Complex Spectral Mapping for Utterance-wise and
Continuous Speech Separation [79.63545132515188]
残響条件下での話者分離のためのマルチマイクロホン複合スペクトルマッピングを提案する。
本システムは,所定の形状に配置された固定数のマイクロホンに基づいて,室内インパルス応答のシミュレーションに基づいて学習する。
シミュレーションされたSMS-WSJコーパスと実記録したLibriCSSデータセット上で,最先端の分離性能が得られる。
論文 参考訳(メタデータ) (2020-10-04T22:13:13Z) - Content based singing voice source separation via strong conditioning
using aligned phonemes [7.599399338954308]
本稿では,音声情報とともに単語レベルで歌詞を時間順に並べたマルチモーダル・マルチトラック・データセットを提案する。
歌声の音源分離を改善するために,音素条件付けをうまく適用できることを示す。
論文 参考訳(メタデータ) (2020-08-05T12:25:24Z) - dMelodies: A Music Dataset for Disentanglement Learning [70.90415511736089]
我々は、研究者が様々な領域でアルゴリズムの有効性を実証するのに役立つ新しいシンボリック・ミュージック・データセットを提案する。
これはまた、音楽用に特別に設計されたアルゴリズムを評価する手段を提供する。
データセットは、遠絡学習のためのディープネットワークのトレーニングとテストに十分な大きさ(約13万データポイント)である。
論文 参考訳(メタデータ) (2020-07-29T19:20:07Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。