論文の概要: Music Separation Enhancement with Generative Modeling
- arxiv url: http://arxiv.org/abs/2208.12387v1
- Date: Fri, 26 Aug 2022 00:44:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-29 13:34:44.695621
- Title: Music Separation Enhancement with Generative Modeling
- Title(参考訳): 生成モデルによる音楽分離の強化
- Authors: Noah Schaffer, Boaz Cogan, Ethan Manilow, Max Morrison, Prem
Seetharaman, and Bryan Pardo
- Abstract要約: 本稿では,音源分離システムの出力向上を目的とした後処理モデル(Make it Sound Good)を提案する。
クラウドソースによる主観評価は,MSGが後処理したベースとドラムの音源推定を人間のリスナーが好んでいることを示している。
- 参考スコア(独自算出の注目度): 11.545349346125743
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite phenomenal progress in recent years, state-of-the-art music
separation systems produce source estimates with significant perceptual
shortcomings, such as adding extraneous noise or removing harmonics. We propose
a post-processing model (the Make it Sound Good (MSG) post-processor) to
enhance the output of music source separation systems. We apply our
post-processing model to state-of-the-art waveform-based and spectrogram-based
music source separators, including a separator unseen by MSG during training.
Our analysis of the errors produced by source separators shows that waveform
models tend to introduce more high-frequency noise, while spectrogram models
tend to lose transients and high frequency content. We introduce objective
measures to quantify both kinds of errors and show MSG improves the source
reconstruction of both kinds of errors. Crowdsourced subjective evaluations
demonstrate that human listeners prefer source estimates of bass and drums that
have been post-processed by MSG.
- Abstract(参考訳): 近年の驚異的な進歩にもかかわらず、最先端の音楽分離システムは、余分なノイズの追加や高調波の除去など、かなりの知覚上の欠点を伴う音源推定を生成する。
本稿では,音源分離システムの出力向上を目的とした後処理モデル (Make It Sound Good (MSG) ポストプロセッサ) を提案する。
この後処理モデルを,MSGのトレーニング中に見つからないセパレータを含む,最先端の波形ベースおよびスペクトログラムベース音楽ソースセパレータに適用する。
音源分離器による誤差の解析により、波形モデルではより高周波ノイズが生じる傾向がみられ、スペクトログラムモデルでは過渡性と高周波成分が失われる傾向が見られた。
両エラーの定量化のための客観的尺度を導入し,MSGが両エラーのソース再構成を改善することを示す。
クラウドソースによる主観評価は,MSGが後処理したベースとドラムの音源推定を人間のリスナーが好んでいることを示している。
関連論文リスト
- An Ensemble Approach to Music Source Separation: A Comparative Analysis of Conventional and Hierarchical Stem Separation [0.4893345190925179]
音源分離(英: Music Source separation、MSS)とは、音源を混合した音声信号から分離する作業である。
本稿では,複数の最先端アーキテクチャを組み合わせたMSSのアンサンブル手法を提案する。
論文 参考訳(メタデータ) (2024-10-28T06:18:12Z) - Spectral Mapping of Singing Voices: U-Net-Assisted Vocal Segmentation [0.0]
本研究では,音楽スペクトログラムから発声成分を分離する手法を提案する。
我々は、短い時間フーリエ変換(STFT)を用いて、詳細な周波数時間スペクトログラムに音声波を抽出する。
我々は,歌唱音声成分を正確に分析・抽出することを目的とした,スペクトル画像のセグメント化のためのUNetニューラルネットワークを実装した。
論文 参考訳(メタデータ) (2024-05-30T13:47:53Z) - SpecDiff-GAN: A Spectrally-Shaped Noise Diffusion GAN for Speech and
Music Synthesis [0.0]
本稿では,HiFi-GANに基づくニューラルボコーダSpecDiff-GANを紹介する。
いくつかのデータセットに対して,提案モデルによる音声合成と音楽合成の利点を示す。
論文 参考訳(メタデータ) (2024-01-30T09:17:57Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - Separate And Diffuse: Using a Pretrained Diffusion Model for Improving
Source Separation [99.19786288094596]
上界をランダムな生成モデルに一般化する方法を示す。
複数のベンチマークで2, 3, 5, 10, 20人の話者に最先端の結果を示す。
論文 参考訳(メタデータ) (2023-01-25T18:21:51Z) - Music Source Separation with Band-split RNN [25.578400006180527]
本稿では,周波数領域モデルを提案する。このモデルでは,混合物のスペクトルをサブバンドに分割し,インターリーブバンドレベルおよびシーケンスレベルのモデリングを行う。
サブバンドの帯域幅の選択は、対象源の特性に関する事前知識または専門知識によって決定できる。
実験の結果、BSRNNはMUSDB18-HQデータセットのみをトレーニングし、ミュージック・デミキシング(MDX)チャレンジ2021において、いくつかの上位モデルを上回った。
論文 参考訳(メタデータ) (2022-09-30T01:49:52Z) - SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with
Adaptive Noise Spectral Shaping [51.698273019061645]
SpecGradは拡散雑音に適応し、その時間変化スペクトル包絡が条件付き対数メル分光器に近づく。
時間周波数領域で処理され、計算コストは従来のDDPMベースのニューラルボコーダとほぼ同じである。
論文 参考訳(メタデータ) (2022-03-31T02:08:27Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z) - Hierarchical Timbre-Painting and Articulation Generation [92.59388372914265]
本稿では,f0と大音量に基づく高速かつ高忠実な楽曲生成手法を提案する。
合成音声は、対象楽器の音色及び調音を模倣する。
論文 参考訳(メタデータ) (2020-08-30T05:27:39Z) - HpRNet : Incorporating Residual Noise Modeling for Violin in a
Variational Parametric Synthesizer [11.4219428942199]
そこで我々は,高音域の演奏スタイルにおいて,弓音が不可欠な部分であるカルナティック・ヴァイオリン記録のデータセットを提案する。
信号の高調波成分と残差成分、およびそれらの相互依存性についての知見を得る。
論文 参考訳(メタデータ) (2020-08-19T12:48:32Z) - Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。
提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。
静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文 参考訳(メタデータ) (2020-06-23T09:19:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。