論文の概要: Summary of The Inaugural Music Source Restoration Challenge
- arxiv url: http://arxiv.org/abs/2601.04343v1
- Date: Wed, 07 Jan 2026 19:31:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:52.885172
- Title: Summary of The Inaugural Music Source Restoration Challenge
- Title(参考訳): 第1回音楽ソース復元チャレンジの概要
- Authors: Yongyi Zang, Jiarui Hai, Wanying Ge, Qiuqiang Kong, Zheqi Dai, Helin Wang, Yuki Mitsufuji, Mark D. Plumbley,
- Abstract要約: Music Source Restoration (MSR)は、プロの混在したオーディオからオリジナル、未処理の楽器を復元することを目的としている。
MSR Challengeは、Multi-Mel-SNR、Zimtohrli、FAD-CLAPを用いたスタジオ生産混合物の客観的評価を特徴とする。
勝利システムは4.46dBのMulti-Mel-SNRと3.47のMOS-Overallを達成し、それぞれ第2位のシステムに対して91%と18%の相対的な改善を達成した。
- 参考スコア(独自算出の注目度): 52.405241781545634
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Music Source Restoration (MSR) aims to recover original, unprocessed instrument stems from professionally mixed and degraded audio, requiring the reversal of both production effects and real-world degradations. We present the inaugural MSR Challenge, which features objective evaluation on studio-produced mixtures using Multi-Mel-SNR, Zimtohrli, and FAD-CLAP, alongside subjective evaluation on real-world degraded recordings. Five teams participated in the challenge. The winning system achieved 4.46 dB Multi-Mel-SNR and 3.47 MOS-Overall, corresponding to relative improvements of 91% and 18% over the second-place system, respectively. Per-stem analysis reveals substantial variation in restoration difficulty across instruments, with bass averaging 4.59 dB across all teams, while percussion averages only 0.29 dB. The dataset, evaluation protocols, and baselines are available at https://msrchallenge.com/.
- Abstract(参考訳): Music Source Restoration (MSR) は、プロが混在し劣化したオーディオからオリジナル、未処理の楽器を復元することを目的としており、プロダクション効果と実世界の劣化の両方を逆転させる必要がある。
本稿では,Multi-Mel-SNR,Zimtohrli,FAD-CLAPを用いたスタジオ制作ミックスの客観的評価と,実際の劣化録音の主観評価を特徴とするMSRチャレンジを提案する。
5チームが挑戦に参加した。
勝利システムは4.46dBのMulti-Mel-SNRと3.47のMOS-Overallを達成し、それぞれ2位システムに対して91%と18%の相対的な改善を達成した。
パーステム分析では、すべてのチームで平均4.59dB、パーカッション平均は0.29dBである。
データセット、評価プロトコル、ベースラインはhttps://msrchallenge.com/で公開されている。
関連論文リスト
- MMMOS: Multi-domain Multi-axis Audio Quality Assessment [49.48516314472825]
既存の非侵襲的評価モデルでは、音声の1つの平均オピニオンスコア(MOS)を予測する。
MMMOSは、プロダクション品質、生産複雑さ、コンテンツ満足度、コンテンツ有用性という4つの軸を推定する、非参照マルチドメインオーディオ品質評価システムである。
MMMOSは平均2乗誤差が20-30%減少し、ケンドールのタウ対ベースラインが4-5%増加した。
論文 参考訳(メタデータ) (2025-07-05T16:42:09Z) - Music Source Restoration [20.814486236405823]
本稿では,理想化された音源分離と実世界の音楽制作のギャップを解消する新しい課題である音楽音源復元(MSR)を紹介する。
MSRモデルは、個別に劣化したソースの劣化和として混合され、元の劣化していない信号を回復することを目的としている。
MSRのデータがないため、RawStemsという、未処理のソース信号を持つ578曲のデータセットアノテーションを、8つのプライマリと17のセカンダリ楽器グループに分類し、合計で354.13時間である。
論文 参考訳(メタデータ) (2025-05-27T23:27:31Z) - Remedy: Learning Machine Translation Evaluation from Human Preferences with Reward Modeling [4.548755617115687]
本稿では、報酬モデリングタスクとして翻訳評価を再構成する新しいMTメトリックフレームワークであるReMedyを提案する。
ReMedyは、不完全な人間のレーティングを直接回帰するのではなく、ペアの好みデータを使って相対的な翻訳品質を学習する。
WMT22-24共有タスクの広範な実験において、ReMedyはセグメントレベルの評価とシステムレベルの評価の両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-04-18T11:11:14Z) - An Early FIRST Reproduction and Improvements to Single-Token Decoding for Fast Listwise Reranking [50.81324768683995]
FIRSTは、学習からランクへの目的を統合し、最初の生成されたトークンのみのロジットを活用する新しいアプローチである。
我々は、FIRSTの評価をTRECディープラーニングデータセット(DL19-22)に拡張し、様々な領域でその堅牢性を検証する。
我々の実験は、単一トークンの高速リランクは、ドメイン外リランクの品質を損なうものではないことを確認した。
論文 参考訳(メタデータ) (2024-11-08T12:08:17Z) - MAgICoRe: Multi-Agent, Iterative, Coarse-to-Fine Refinement for Reasoning [80.15393178083607]
大規模言語モデル(LLM)推論は、テストタイムアグリゲーション戦略、すなわち、複数のサンプルを生成し、生成されたサンプル間で投票することで改善することができる。
Refinementは、LLM生成したフィードバックを使ってソリューションの品質を改善する方法を提供する。
本稿では,問題の難易度を,難易度や難易度に分類することで,過度な改善を回避するMagICoReを提案する。
論文 参考訳(メタデータ) (2024-09-18T17:12:41Z) - D4AM: A General Denoising Framework for Downstream Acoustic Models [45.04967351760919]
音声強調(SE)は、自動音声認識(ASR)システムを支援するフロントエンド戦略として用いられる。
既存のSE手法の訓練目的は、未知のASRシステムに向けたトレーニングのために、音声テキストとノイズクリーンなペアデータを統合するのに完全には有効ではない。
そこで我々は,様々な下流音響モデルのための一般的なデノベーションフレームワークD4AMを提案する。
論文 参考訳(メタデータ) (2023-11-28T08:27:27Z) - Blind Restoration of Real-World Audio by 1D Operational GANs [18.462912387382346]
Op-GAN(Operational Generative Adversarial Networks)による実世界の音声信号のブラインド復元手法を提案する。
提案手法はTIMIT-RAR(音声)とGTZAN-RAR(非音声)のベンチマークで広く評価されている。
平均SDRの改善は7.2dB以上と4.9dB以上である。
論文 参考訳(メタデータ) (2022-12-30T10:11:57Z) - Hybrid Spectrogram and Waveform Source Separation [91.3755431537592]
エンド・ツー・エンドのハイブリッド・ソース分離を行う方法を示し、各ソースに適したドメインをモデルで決定する。
提案されたDemucsアーキテクチャのハイブリッドバージョンは、ソニーが主催したMusic Demixing Challenge 2021で優勝した。
論文 参考訳(メタデータ) (2021-11-05T16:37:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。