論文の概要: Deep Learning Based Source Separation Applied To Choir Ensembles
- arxiv url: http://arxiv.org/abs/2008.07645v1
- Date: Mon, 17 Aug 2020 22:07:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 04:36:32.561142
- Title: Deep Learning Based Source Separation Applied To Choir Ensembles
- Title(参考訳): 深層学習に基づく音源分離の合唱団への適用
- Authors: Darius Petermann, Pritish Chandna, Helena Cuesta, Jordi Bonada, Emilia
Gomez
- Abstract要約: 合唱歌は、ポリフォニック・ハーモニーで同時に歌う、アンサンブル・ソングの広く普及した形式である。
最も一般的な合唱曲の舞台はソプラノ、アルト、テノール、バス(SATB)の4つのパートで構成されている。
このコーラル設定のソース分離のタスクは、SATB混合物を構成部品に分離する必要がある。
- 参考スコア(独自算出の注目度): 9.711659088922838
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Choral singing is a widely practiced form of ensemble singing wherein a group
of people sing simultaneously in polyphonic harmony. The most commonly
practiced setting for choir ensembles consists of four parts; Soprano, Alto,
Tenor and Bass (SATB), each with its own range of fundamental frequencies
(F$0$s). The task of source separation for this choral setting entails
separating the SATB mixture into the constituent parts. Source separation for
musical mixtures is well studied and many deep learning based methodologies
have been proposed for the same. However, most of the research has been focused
on a typical case which consists in separating vocal, percussion and bass
sources from a mixture, each of which has a distinct spectral structure. In
contrast, the simultaneous and harmonic nature of ensemble singing leads to
high structural similarity and overlap between the spectral components of the
sources in a choral mixture, making source separation for choirs a harder task
than the typical case. This, along with the lack of an appropriate consolidated
dataset has led to a dearth of research in the field so far. In this paper we
first assess how well some of the recently developed methodologies for musical
source separation perform for the case of SATB choirs. We then propose a novel
domain-specific adaptation for conditioning the recently proposed U-Net
architecture for musical source separation using the fundamental frequency
contour of each of the singing groups and demonstrate that our proposed
approach surpasses results from domain-agnostic architectures.
- Abstract(参考訳): 合唱の歌唱は広く実践されているアンサンブルの歌唱形式であり、グループではポリフォニック・ハーモニーで同時に歌う。
最も一般的な合唱曲の舞台はソプラノ、アルト、テノール、バス(SATB)の4つの部分で構成され、それぞれに独自の基本周波数(F$0$s)がある。
このコーラル設定のソース分離のタスクは、SATB混合物を構成部品に分離する必要がある。
音楽ミックスの音源分離はよく研究されており,多くの深層学習手法が提案されている。
しかし、ほとんどの研究は、発声、パーカッション、ベース源を混合物から分離する典型的なケースに焦点を当てており、それぞれが異なるスペクトル構造を持っている。
対照的に、アンサンブル歌唱の同時的かつ調和的な性質は、コーラルミックス中の音源のスペクトル成分間の高い構造的類似性と重なり合いをもたらし、合唱の音源分離が典型よりも難しい課題となる。
これにより、適切な統合データセットの欠如とともに、これまでこの分野における研究の波及につながった。
本稿では,SATB合唱団において,最近開発された音源分離手法がいかに優れているかを評価する。
そこで本研究では,歌唱グループの基本周波数パターンを用いた音源分離のためのu-netアーキテクチャを条件付けする新しいドメイン固有適応法を提案し,提案手法がドメイン非依存アーキテクチャの結果を上回ることを示す。
関連論文リスト
- An Ensemble Approach to Music Source Separation: A Comparative Analysis of Conventional and Hierarchical Stem Separation [0.4893345190925179]
音源分離(英: Music Source separation、MSS)とは、音源を混合した音声信号から分離する作業である。
本稿では,複数の最先端アーキテクチャを組み合わせたMSSのアンサンブル手法を提案する。
論文 参考訳(メタデータ) (2024-10-28T06:18:12Z) - A Stem-Agnostic Single-Decoder System for Music Source Separation Beyond Four Stems [53.30852012059025]
Banquetは1つのデコーダを使って複数の幹のソース分離を可能にするシステムである。
バンドスプリットソース分離モデルは、楽器認識PaSSTモデルと共にタンデムでクエリベースのセットアップで動作するように拡張される。
論文 参考訳(メタデータ) (2024-06-26T20:25:53Z) - High-Quality Visually-Guided Sound Separation from Diverse Categories [56.92841782969847]
DAVISは拡散に基づくオーディオ視覚分離フレームワークである。
分離された音をガウス雑音から直接合成し、オーディオミックスと視覚情報の両方に条件付けする。
AVEおよびMUSICデータセット上で,DAVISを既存の最先端の識別的音声視覚分離法と比較した。
論文 参考訳(メタデータ) (2023-07-31T19:41:49Z) - Hybrid Y-Net Architecture for Singing Voice Separation [0.0]
提案アーキテクチャは、スペクトルと波形の両方の領域から特徴を抽出することで、エンドツーエンドのハイブリッドソース分離を行う。
U-NetアーキテクチャにインスパイアされたY-Netは、スペクトルマスクを予測し、混合信号から発声源を分離する。
論文 参考訳(メタデータ) (2023-03-05T07:54:49Z) - Multi-Source Diffusion Models for Simultaneous Music Generation and Separation [17.124189082882395]
私たちは、音楽ソース分離のための標準データセットであるSlakh2100でモデルをトレーニングします。
我々の手法は、生成タスクと分離タスクの両方を処理できる単一のモデルの最初の例である。
論文 参考訳(メタデータ) (2023-02-04T23:18:36Z) - MedleyVox: An Evaluation Dataset for Multiple Singing Voices Separation [10.456845656569444]
複数の歌声をそれぞれの声に分離することは、音源分離研究においてまれに研究される。
複数の歌声分離のための評価データセットであるMedleyVoxを紹介する。
そこで本研究では,複数の歌唱ミックスを構築するためのストラテジーについて述べる。
論文 参考訳(メタデータ) (2022-11-14T12:27:35Z) - BinauralGrad: A Two-Stage Conditional Diffusion Probabilistic Model for
Binaural Audio Synthesis [129.86743102915986]
我々は、音声を共通部分へ分解することで、異なる視点から合成プロセスを定式化する。
拡散モデルを備えた新しい2段階フレームワークであるBinauralGradを提案する。
実験結果から,BinauralGradは対象評価指標と対象評価指標の両方において,既存のベースラインよりも高い性能を示した。
論文 参考訳(メタデータ) (2022-05-30T02:09:26Z) - SeCo: Separating Unknown Musical Visual Sounds with Consistency Guidance [88.0355290619761]
この作品は未知の楽器の分離に焦点を当てている。
本稿では,未知のカテゴリを分離できるセコ(SeCo)フレームワークを提案する。
本手法は,新たな楽曲カテゴリに適応する能力を示し,基本手法を顕著なマージンで上回る性能を示す。
論文 参考訳(メタデータ) (2022-03-25T09:42:11Z) - Visual Scene Graphs for Audio Source Separation [65.47212419514761]
視覚的に誘導された音源分離のための最先端のアプローチは、典型的には楽器のような特徴的な音を持つ音源を仮定する。
本稿では,シーンの視覚構造をグラフとして埋め込んだ新しい深層学習モデルであるAudio Visual Scene Graph Segmenter (AVSGS)を提案する。
我々のパイプラインは、人工混合音から視覚グラフを用いて音源を分離する自己教師タスクにより、エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2021-09-24T13:40:51Z) - DiffSinger: Diffusion Acoustic Model for Singing Voice Synthesis [53.19363127760314]
DiffSingerは、音楽スコアで調整されたメログラムにノイズを反復的に変換するパラメータ化されたマルコフチェーンです。
中国の歌唱データセットで行った評価は、DiffSingerが最先端のSVSワークを顕著な差で上回っていることを示している。
論文 参考訳(メタデータ) (2021-05-06T05:21:42Z) - A Deep Learning Based Analysis-Synthesis Framework For Unison Singing [2.8139907342344364]
ユニソンの歌は、同じメロディと歌詞を歌う歌手のアンサンブルに与えられる名前である。
一斉混合音の録音において,各歌手の基本周波数分布(F0)を分析した。
本稿では,一斉混合を代表とするカペラ入力と単一音声プロトタイプから一斉合成を行うシステムを提案する。
論文 参考訳(メタデータ) (2020-09-21T13:48:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。