論文の概要: Music Source Restoration
- arxiv url: http://arxiv.org/abs/2505.21827v1
- Date: Tue, 27 May 2025 23:27:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.328757
- Title: Music Source Restoration
- Title(参考訳): 音源復元
- Authors: Yongyi Zang, Zheqi Dai, Mark D. Plumbley, Qiuqiang Kong,
- Abstract要約: 本稿では,理想化された音源分離と実世界の音楽制作のギャップを解消する新しい課題である音楽音源復元(MSR)を紹介する。
MSRモデルは、個別に劣化したソースの劣化和として混合され、元の劣化していない信号を回復することを目的としている。
MSRのデータがないため、RawStemsという、未処理のソース信号を持つ578曲のデータセットアノテーションを、8つのプライマリと17のセカンダリ楽器グループに分類し、合計で354.13時間である。
- 参考スコア(独自算出の注目度): 20.814486236405823
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Music Source Restoration (MSR), a novel task addressing the gap between idealized source separation and real-world music production. Current Music Source Separation (MSS) approaches assume mixtures are simple sums of sources, ignoring signal degradations employed during music production like equalization, compression, and reverb. MSR models mixtures as degraded sums of individually degraded sources, with the goal of recovering original, undegraded signals. Due to the lack of data for MSR, we present RawStems, a dataset annotation of 578 songs with unprocessed source signals organized into 8 primary and 17 secondary instrument groups, totaling 354.13 hours. To the best of our knowledge, RawStems is the first dataset that contains unprocessed music stems with hierarchical categories. We consider spectral filtering, dynamic range compression, harmonic distortion, reverb and lossy codec as possible degradations, and establish U-Former as a baseline method, demonstrating the feasibility of MSR on our dataset. We release the RawStems dataset annotations, degradation simulation pipeline, training code and pre-trained models to be publicly available.
- Abstract(参考訳): 本稿では,理想化された音源分離と実世界の音楽制作のギャップを解消する新しい課題である音楽音源復元(MSR)を紹介する。
現在の音楽音源分離(MSS)アプローチでは、ミックスは音源の単純な和であり、等化、圧縮、残響といった音楽制作で使われる信号の劣化を無視していると仮定している。
MSRモデルは、個別に劣化したソースの劣化和として混合され、元の劣化していない信号を回復することを目的としている。
MSRのデータがないため、RawStemsという、未処理のソース信号を持つ578曲のデータセットアノテーションを、8つのプライマリと17のセカンダリ楽器グループに分類し、合計で354.13時間である。
私たちの知る限りでは、RawStemsは、階層的なカテゴリを持つ未処理の音楽ステムを含む最初のデータセットです。
スペクトルフィルタリング,ダイナミックレンジ圧縮,高調波歪み,残響コーデックを可能な劣化として考慮し,ベースライン手法としてU-Formerを確立し,我々のデータセット上でのMSRの実現可能性を示す。
私たちは、RawStemsデータセットアノテーション、劣化シミュレーションパイプライン、トレーニングコード、トレーニング済みのモデルを公開しています。
関連論文リスト
- Restoration Score Distillation: From Corrupted Diffusion Pretraining to One-Step High-Quality Generation [82.39763984380625]
Score Distillation (DSD) の原理的一般化である textitRestoration Score Distillation (RSD) を提案する。
RSDは、ぼやけた画像、不完全画像、低解像度画像など、広範囲の汚職タイプに対応している。
自然と科学の両方のデータセットの様々な復元作業において、教師モデルを一貫して上回っている。
論文 参考訳(メタデータ) (2025-05-19T17:21:03Z) - Score-informed Music Source Separation: Improving Synthetic-to-real Generalization in Classical Music [8.468436398420764]
音源分離は、楽器の混合物を構成トラックに分離する作業である。
本稿では,楽譜の分離を支援する2つの方法として,楽譜情報モデルと楽譜情報のみのモデルを提案する。
スコアインフォームドモデルは、ベースラインアプローチと比較して分離結果を改善するが、合成データから実データへの一般化に苦慮する。
論文 参考訳(メタデータ) (2025-03-10T14:08:31Z) - Generalized Multi-Source Inference for Text Conditioned Music Diffusion Models [26.373204974010086]
マルチソース拡散モデル (Multi-Source Diffusion Models, MDM) は、楽曲の合成作業を可能にする。
本稿では,テキスト埋め込みを前提としたMSDMを任意の時間領域拡散モデルに一般化する。
本稿では,ソースと伴奏のコヒーレントな生成を可能にする推論手法を提案する。
論文 参考訳(メタデータ) (2024-03-18T12:08:01Z) - Benchmarks and leaderboards for sound demixing tasks [44.99833362998488]
音源分離タスクのための2つの新しいベンチマークを導入する。
これらのベンチマークでは、音のデミックスやアンサンブルなどの人気モデルを比較します。
また,特定の茎に最適な異なるモデルのアンサンブルに基づく,音声分離のための新しいアプローチも開発している。
論文 参考訳(メタデータ) (2023-05-12T14:00:26Z) - Blind Restoration of Real-World Audio by 1D Operational GANs [18.462912387382346]
Op-GAN(Operational Generative Adversarial Networks)による実世界の音声信号のブラインド復元手法を提案する。
提案手法はTIMIT-RAR(音声)とGTZAN-RAR(非音声)のベンチマークで広く評価されている。
平均SDRの改善は7.2dB以上と4.9dB以上である。
論文 参考訳(メタデータ) (2022-12-30T10:11:57Z) - Music Separation Enhancement with Generative Modeling [11.545349346125743]
本稿では,音源分離システムの出力向上を目的とした後処理モデル(Make it Sound Good)を提案する。
クラウドソースによる主観評価は,MSGが後処理したベースとドラムの音源推定を人間のリスナーが好んでいることを示している。
論文 参考訳(メタデータ) (2022-08-26T00:44:37Z) - Unsupervised Audio Source Separation Using Differentiable Parametric
Source Models [8.80867379881193]
本研究では,教師なしモデルに基づく深層学習手法を提案する。
ニューラルネットワークは、観測された混合物をソースの和として再構成するように訓練される。
音声アンサンブル分離タスクの実験評価により,提案手法が学習自由法より優れていることが示された。
論文 参考訳(メタデータ) (2022-01-24T11:05:30Z) - Visual Scene Graphs for Audio Source Separation [65.47212419514761]
視覚的に誘導された音源分離のための最先端のアプローチは、典型的には楽器のような特徴的な音を持つ音源を仮定する。
本稿では,シーンの視覚構造をグラフとして埋め込んだ新しい深層学習モデルであるAudio Visual Scene Graph Segmenter (AVSGS)を提案する。
我々のパイプラインは、人工混合音から視覚グラフを用いて音源を分離する自己教師タスクにより、エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2021-09-24T13:40:51Z) - Multi-Stage Progressive Image Restoration [167.6852235432918]
本稿では、これらの競合する目標を最適にバランスできる新しい相乗的設計を提案する。
本提案では, 劣化した入力の復元関数を段階的に学習する多段階アーキテクチャを提案する。
MPRNetという名前の密接な相互接続型マルチステージアーキテクチャは、10のデータセットに対して強力なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2021-02-04T18:57:07Z) - DeFlow: Learning Complex Image Degradations from Unpaired Data with
Conditional Flows [145.83812019515818]
本論文では,不対データから画像劣化を学習するDeFlowを提案する。
共有フローデコーダネットワークの潜在空間における劣化過程をモデル化する。
共同画像復元と超解像におけるDeFlowの定式化を検証した。
論文 参考訳(メタデータ) (2021-01-14T18:58:01Z) - Hierarchical Timbre-Painting and Articulation Generation [92.59388372914265]
本稿では,f0と大音量に基づく高速かつ高忠実な楽曲生成手法を提案する。
合成音声は、対象楽器の音色及び調音を模倣する。
論文 参考訳(メタデータ) (2020-08-30T05:27:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。