Fugu-MT 論文翻訳(概要): MedleyVox: An Evaluation Dataset for Multiple Singing Voices Separation

論文の概要: MedleyVox: An Evaluation Dataset for Multiple Singing Voices Separation

arxiv url: http://arxiv.org/abs/2211.07302v2
Date: Thu, 4 May 2023 14:13:42 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-05 19:30:22.369018
Title: MedleyVox: An Evaluation Dataset for Multiple Singing Voices Separation
Title（参考訳）: MedleyVox: 複数の歌声分離のための評価データセット
Authors: Chang-Bin Jeon, Hyeongi Moon, Keunwoo Choi, Ben Sangbae Chon, and Kyogu Lee
Abstract要約: 複数の歌声をそれぞれの声に分離することは、音源分離研究においてまれに研究される。複数の歌声分離のための評価データセットであるMedleyVoxを紹介する。そこで本研究では,複数の歌唱ミックスを構築するためのストラテジーについて述べる。
参考スコア（独自算出の注目度）: 10.456845656569444
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Separation of multiple singing voices into each voice is a rarely studied area in music source separation research. The absence of a benchmark dataset has hindered its progress. In this paper, we present an evaluation dataset and provide baseline studies for multiple singing voices separation. First, we introduce MedleyVox, an evaluation dataset for multiple singing voices separation. We specify the problem definition in this dataset by categorizing it into i) unison, ii) duet, iii) main vs. rest, and iv) N-singing separation. Second, to overcome the absence of existing multi-singing datasets for a training purpose, we present a strategy for construction of multiple singing mixtures using various single-singing datasets. Third, we propose the improved super-resolution network (iSRNet), which greatly enhances initial estimates of separation networks. Jointly trained with the Conv-TasNet and the multi-singing mixture construction strategy, the proposed iSRNet achieved comparable performance to ideal time-frequency masks on duet and unison subsets of MedleyVox. Audio samples, the dataset, and codes are available on our website (https://github.com/jeonchangbin49/MedleyVox).
Abstract（参考訳）: 複数の歌声をそれぞれの声に分離することは、音源分離研究においてまれに研究される分野である。ベンチマークデータセットの欠如は、その進捗を妨げている。本稿では,評価データセットと,複数の歌声分離のためのベースライン研究について述べる。まず,複数の歌声分離のための評価データセットであるMedleyVoxを紹介する。我々は、このデータセットで問題定義を分類して指定する。 i (複数形 is) 二デュエット三主対休息及び iv) n-singing separation。第2に,既存の複数歌唱データセットの学習目的の欠如を克服するため,様々なシングル歌唱データセットを用いて複数の歌唱ミックスを構築するための戦略を提案する。第3に,分離ネットワークの初期推定を大幅に向上させる改良された超解像ネットワーク (iSRNet) を提案する。 Conv-TasNetとマルチシング混合構成戦略を併用して、提案したiSRNetは、MedleyVoxのデュエットおよびユニゾンサブセット上の理想的な時間周波数マスクに匹敵する性能を達成した。オーディオサンプル、データセット、コードは当社のウェブサイトから入手できます(https://github.com/jeonchangbin49/medleyvox)。

関連論文リスト

Unleashing the Power of Natural Audio Featuring Multiple Sound Sources [54.38251699625379]
ユニバーサルサウンド分離は、混合音声から異なるイベントに対応するクリーンなオーディオトラックを抽出することを目的としている。複雑な混合音声を複数の独立したトラックに分解するために,データエンジンを利用するフレームワークであるClearSepを提案する。実験では、ClearSepは複数の音分離タスクで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-04-24T17:58:21Z)
High-Quality Visually-Guided Sound Separation from Diverse Categories [56.92841782969847]
DAVISは拡散に基づくオーディオ視覚分離フレームワークである。分離された音をガウス雑音から直接合成し、オーディオミックスと視覚情報の両方に条件付けする。 AVEおよびMUSICデータセット上で,DAVISを既存の最先端の識別的音声視覚分離法と比較した。
論文参考訳（メタデータ） (2023-07-31T19:41:49Z)
Learning Phone Recognition from Unpaired Audio and Phone Sequences Based on Generative Adversarial Network [58.82343017711883]
そこで本研究では,不適切な音声系列や発話から直接学習する方法について検討する。 GAN訓練を第1段階に導入し,無声音声と音声シーケンスのマッピング関係を求める。第2段階では、発電機の出力からトレーニングするために別のHMMモデルが導入され、性能が向上する。
論文参考訳（メタデータ） (2022-07-29T09:29:28Z)
Investigating Multi-Feature Selection and Ensembling for Audio Classification [0.8602553195689513]
ディープラーニングアルゴリズムは、様々な領域で素晴らしいパフォーマンスを示している。オーディオはここ数十年、興味深いパターンのために多くの研究者を惹きつけてきた。音声分類の性能向上のために、特徴選択と組み合わせが重要な役割を担っている。
論文参考訳（メタデータ） (2022-06-15T13:11:08Z)
MultiSV: Dataset for Far-Field Multi-Channel Speaker Verification [0.0]
本稿では,テキスト非依存型マルチチャネル話者検証システムの訓練と評価を目的とした包括的コーパスを提案する。また、難聴、難聴、音声強調などの実験にも容易に利用できる。
論文参考訳（メタデータ） (2021-11-11T20:55:58Z)
Fast accuracy estimation of deep learning based multi-class musical source separation [79.10962538141445]
本稿では,ニューラルネットワークのトレーニングやチューニングを行うことなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。理想的な比マスクを持つオラクルの原理に基づいて、我々の手法は最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。
論文参考訳（メタデータ） (2020-10-19T13:05:08Z)
Multi-microphone Complex Spectral Mapping for Utterance-wise and Continuous Speech Separation [79.63545132515188]
残響条件下での話者分離のためのマルチマイクロホン複合スペクトルマッピングを提案する。本システムは,所定の形状に配置された固定数のマイクロホンに基づいて,室内インパルス応答のシミュレーションに基づいて学習する。シミュレーションされたSMS-WSJコーパスと実記録したLibriCSSデータセット上で,最先端の分離性能が得られる。
論文参考訳（メタデータ） (2020-10-04T22:13:13Z)
Content based singing voice source separation via strong conditioning using aligned phonemes [7.599399338954308]
本稿では,音声情報とともに単語レベルで歌詞を時間順に並べたマルチモーダル・マルチトラック・データセットを提案する。歌声の音源分離を改善するために,音素条件付けをうまく適用できることを示す。
論文参考訳（メタデータ） (2020-08-05T12:25:24Z)
dMelodies: A Music Dataset for Disentanglement Learning [70.90415511736089]
我々は、研究者が様々な領域でアルゴリズムの有効性を実証するのに役立つ新しいシンボリック・ミュージック・データセットを提案する。これはまた、音楽用に特別に設計されたアルゴリズムを評価する手段を提供する。データセットは、遠絡学習のためのディープネットワークのトレーニングとテストに十分な大きさ(約13万データポイント)である。
論文参考訳（メタデータ） (2020-07-29T19:20:07Z)
Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文参考訳（メタデータ） (2020-01-30T18:01:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。