論文の概要: Multi-Stage Music Source Restoration with BandSplit-RoFormer Separation and HiFi++ GAN
- arxiv url: http://arxiv.org/abs/2603.04032v1
- Date: Wed, 04 Mar 2026 13:10:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.314066
- Title: Multi-Stage Music Source Restoration with BandSplit-RoFormer Separation and HiFi++ GAN
- Title(参考訳): BandSplit-RoFormer 分離と HiFi++ GAN を用いたマルチステージ音楽音源復元
- Authors: Tobias Morocutti, Emmanouil Karystinaios, Jonathan Greif, Gerhard Widmer,
- Abstract要約: 音楽ソース復元(MSR)は、完全に混合された、マスターされたオーディオからオリジナル、未処理の楽器の復元を目標としている。
本技術報告では,MSR ICASSP Challenge 2025におけるCP-JKUチームのシステムについて述べる。
- 参考スコア(独自算出の注目度): 8.647179779228761
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Music Source Restoration (MSR) targets recovery of original, unprocessed instrument stems from fully mixed and mastered audio, where production effects and distribution artifacts violate common linear-mixture assumptions. This technical report presents the CP-JKU team's system for the MSR ICASSP Challenge 2025. Our approach decomposes MSR into separation and restoration. First, a single BandSplit-RoFormer separator predicts eight stems plus an auxiliary other stem, and is trained with a three-stage curriculum that progresses from 4-stem warm-start fine-tuning (with LoRA) to 8-stem extension via head expansion. Second, we apply a HiFi++ GAN waveform restorer trained as a generalist and then specialized into eight instrument-specific experts.
- Abstract(参考訳): 音楽ソース復元(MSR)は、完全に混合されたマスタードオーディオからオリジナル、未処理の楽器の復元を目標としており、生産効果と流通成果物は一般的な線形混合仮定に反する。
本技術報告では,MSR ICASSP Challenge 2025におけるCP-JKUチームのシステムについて述べる。
MSRは分離と修復に分解される。
まず、1つのBandSplit-RoFormerセパレータが8つの幹と補助的な他の幹を予測する。
第2に、一般化主義者として訓練されたHiFi++ GAN波形復元器を適用し、その後、計器の専門家8名に専門化する。
関連論文リスト
- Summary of The Inaugural Music Source Restoration Challenge [52.405241781545634]
Music Source Restoration (MSR)は、プロの混在したオーディオからオリジナル、未処理の楽器を復元することを目的としている。
MSR Challengeは、Multi-Mel-SNR、Zimtohrli、FAD-CLAPを用いたスタジオ生産混合物の客観的評価を特徴とする。
勝利システムは4.46dBのMulti-Mel-SNRと3.47のMOS-Overallを達成し、それぞれ第2位のシステムに対して91%と18%の相対的な改善を達成した。
論文 参考訳(メタデータ) (2026-01-07T19:31:06Z) - SAM Audio: Segment Anything in Audio [55.50609519820557]
一般的なオーディオソース分離は、マルチモーダルAIシステムにとって重要な機能である。
本稿では,一般的な音声分離のための基礎モデルであるSAM Audioを紹介する。
テキスト、ビジュアル、タイムスパンを単一のフレームワーク内で統合する。
論文 参考訳(メタデータ) (2025-12-19T22:14:23Z) - High-Quality Sound Separation Across Diverse Categories via Visually-Guided Generative Modeling [65.02357548201188]
DAVIS(Diffusion-based Audio-VIsual separation framework)を提案する。
本フレームワークは、混合音声入力と関連する視覚情報に基づいて、ノイズ分布から直接、所望の分離音スペクトルを合成することによって機能する。
論文 参考訳(メタデータ) (2025-09-26T08:46:00Z) - Back to Ear: Perceptually Driven High Fidelity Music Reconstruction [4.380428073231143]
epsilonar-VAEは、変分オートエンコーダ(VAE)を再考し最適化するオープンソースの音楽信号再構成モデルである
実験の結果、epsilonar-VAEは44.1kHzで、様々なメトリクスにわたる主要なオープンソースモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-09-18T12:41:34Z) - Music Source Restoration [20.814486236405823]
本稿では,理想化された音源分離と実世界の音楽制作のギャップを解消する新しい課題である音楽音源復元(MSR)を紹介する。
MSRモデルは、個別に劣化したソースの劣化和として混合され、元の劣化していない信号を回復することを目的としている。
MSRのデータがないため、RawStemsという、未処理のソース信号を持つ578曲のデータセットアノテーションを、8つのプライマリと17のセカンダリ楽器グループに分類し、合計で354.13時間である。
論文 参考訳(メタデータ) (2025-05-27T23:27:31Z) - Separate This, and All of these Things Around It: Music Source Separation via Hyperellipsoidal Queries [53.30852012059025]
音源分離は音声から音声までの検索作業である。
音楽ソース分離における最近の研究は、固定状態パラダイムに挑戦し始めている。
本稿では,超楕円体領域をクエリとして使用することにより,ターゲット(位置)とスプレッドの両方を指定するための直感的かつ容易にパラメトリザブルなアプローチを提案する。
論文 参考訳(メタデータ) (2025-01-27T16:13:50Z) - A Stem-Agnostic Single-Decoder System for Music Source Separation Beyond Four Stems [53.30852012059025]
Banquetは1つのデコーダを使って複数の幹のソース分離を可能にするシステムである。
バンドスプリットソース分離モデルは、楽器認識PaSSTモデルと共にタンデムでクエリベースのセットアップで動作するように拡張される。
論文 参考訳(メタデータ) (2024-06-26T20:25:53Z) - The CHiME-7 DASR Challenge: Distant Meeting Transcription with Multiple
Devices in Diverse Scenarios [61.74042680711718]
第7回CHiMEチャレンジにおいて,CHiME-7 遠隔 ASR (DASR) タスクを紹介した。
このタスクは、複数の、おそらくは異種な記録装置を備えた遠距離フィールド設定での共同ASRとダイアリゼーションを含む。
目的は、参加者が異なる配列のジオメトリをまたいで一般化できる単一のシステムを考案することである。
論文 参考訳(メタデータ) (2023-06-23T18:49:20Z) - Music Separation Enhancement with Generative Modeling [11.545349346125743]
本稿では,音源分離システムの出力向上を目的とした後処理モデル(Make it Sound Good)を提案する。
クラウドソースによる主観評価は,MSGが後処理したベースとドラムの音源推定を人間のリスナーが好んでいることを示している。
論文 参考訳(メタデータ) (2022-08-26T00:44:37Z) - Wavesplit: End-to-End Speech Separation by Speaker Clustering [35.573006591664864]
本稿では,エンドツーエンドのソース分離システムであるWavesplitを紹介する。
1つの混合から、モデルは各ソースの表現を推論し、各ソース信号を推定する。
Wavesplitは他の領域にも適用でき、胎児と母体の心拍数を単一の腹部心電図から分離する。
論文 参考訳(メタデータ) (2020-02-20T18:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。