論文の概要: SonicMaster: Towards Controllable All-in-One Music Restoration and Mastering
- arxiv url: http://arxiv.org/abs/2508.03448v1
- Date: Tue, 05 Aug 2025 13:49:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.988925
- Title: SonicMaster: Towards Controllable All-in-One Music Restoration and Mastering
- Title(参考訳): SonicMaster: コントロール可能なオールインワン音楽再生とマスタリングを目指して
- Authors: Jan Melechovsky, Ambuj Mehrish, Dorien Herremans,
- Abstract要約: 録音は、過剰な残響、歪み、クリップング、音調の不均衡、狭いステレオ画像などの音質の問題に悩まされることが多い。
SonicMasterは、テキストベースの制御によって幅広いオーディオアーティファクトに対処する、音楽復元とマスタリングのための最初の統一された生成モデルである。
- 参考スコア(独自算出の注目度): 7.309541793344493
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Music recordings often suffer from audio quality issues such as excessive reverberation, distortion, clipping, tonal imbalances, and a narrowed stereo image, especially when created in non-professional settings without specialized equipment or expertise. These problems are typically corrected using separate specialized tools and manual adjustments. In this paper, we introduce SonicMaster, the first unified generative model for music restoration and mastering that addresses a broad spectrum of audio artifacts with text-based control. SonicMaster is conditioned on natural language instructions to apply targeted enhancements, or can operate in an automatic mode for general restoration. To train this model, we construct the SonicMaster dataset, a large dataset of paired degraded and high-quality tracks by simulating common degradation types with nineteen degradation functions belonging to five enhancements groups: equalization, dynamics, reverb, amplitude, and stereo. Our approach leverages a flow-matching generative training paradigm to learn an audio transformation that maps degraded inputs to their cleaned, mastered versions guided by text prompts. Objective audio quality metrics demonstrate that SonicMaster significantly improves sound quality across all artifact categories. Furthermore, subjective listening tests confirm that listeners prefer SonicMaster's enhanced outputs over the original degraded audio, highlighting the effectiveness of our unified approach.
- Abstract(参考訳): 音楽録音は、過度な残響、歪み、クリップング、音調の不均衡、狭いステレオイメージなどのオーディオ品質の問題に悩まされることが多い。
これらの問題は、通常、個別の特別なツールと手動の調整によって修正される。
本稿では,SonicMasterについて紹介する。SonicMasterは,テキストベース制御による幅広いオーディオアーティファクトに対処する,音楽再生とマスタリングのための最初の統一生成モデルである。
SonicMasterは、対象とする拡張を適用するために自然言語命令に条件付けされているか、あるいは一般的な復元のために自動モードで操作することができる。
このモデルをトレーニングするために,5つの拡張グループに属する19の劣化関数(等化,ダイナミクス,リバーブ,振幅,ステレオ)で共通劣化型をシミュレートすることにより,ペア付き劣化トラックと高品質トラックの大規模データセットであるSonicMasterデータセットを構築した。
我々のアプローチは、フローマッチング生成トレーニングパラダイムを利用して、劣化した入力をテキストプロンプトでガイドされたクリーンでマスターされたバージョンにマップするオーディオ変換を学習する。
客観的オーディオ品質メトリクスは、SonicMasterがすべてのアーティファクトカテゴリで音質を大幅に改善することを示している。
さらに、主観的聴取テストは、聴取者が元の劣化した音声よりもSonicMasterの強化された出力を好むことを確認し、我々の統一的アプローチの有効性を強調した。
関連論文リスト
- EditGen: Harnessing Cross-Attention Control for Instruction-Based Auto-Regressive Audio Editing [54.10773655199149]
自動回帰モデルにおける効率的な音声編集のためのクロスアテンション制御の活用について検討する。
画像編集手法に触発されて,横断的・自己認識的メカニズムを通じて編集をガイドするPrompt-to-Promptライクなアプローチを開発した。
論文 参考訳(メタデータ) (2025-07-15T08:44:11Z) - Prosody-Enhanced Acoustic Pre-training and Acoustic-Disentangled Prosody Adapting for Movie Dubbing [60.38045088180188]
高精度な韻律アライメントで高品質なダビング生成を実現するために,音響プロソディディスト2段法を提案する。
我々は、異なる映画における視覚領域シフトの影響を低減するために、ドメイン内感情分析モジュールを組み込んだ。
提案手法は,2つのベンチマークにおける最先端モデルに対して良好に機能する。
論文 参考訳(メタデータ) (2025-03-15T08:25:57Z) - MuseBarControl: Enhancing Fine-Grained Control in Symbolic Music Generation through Pre-Training and Counterfactual Loss [51.85076222868963]
制御信号と対応する音楽トークンを直接リンクする事前学習タスクを導入する。
次に、生成した音楽と制御プロンプトとの整合性を向上する新たな対実的損失を実現する。
論文 参考訳(メタデータ) (2024-07-05T08:08:22Z) - Resource-constrained stereo singing voice cancellation [1.0962868591006976]
ステレオ歌唱音声キャンセリングの問題点について検討する。
提案手法は,客観的なオフラインメトリクスと大規模MUSHRA試験を用いて評価する。
論文 参考訳(メタデータ) (2024-01-22T16:05:30Z) - Exploiting Time-Frequency Conformers for Music Audio Enhancement [21.243039524049614]
コンフォーマーアーキテクチャに基づく音楽強調システムを提案する。
提案手法はコンフォーマーの注意機構を探索し,その性能を検証し,音楽強調作業における最善のアプローチを見出す。
論文 参考訳(メタデータ) (2023-08-24T06:56:54Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - End-to-end Music Remastering System Using Self-supervised and
Adversarial Training [18.346033788545135]
本稿では,入力音声のマスタリングスタイルをターゲットに変換するエンド・ツー・エンドの音楽リマスターシステムを提案する。
システムは自己指導的な方法で訓練され、解放されたポップソングがトレーニングに使用された。
実験の結果を定量的な測定値と主観的聴力テストで検証し,本モデルが対象と類似したマスタリングスタイルのサンプルを生成することを示す。
論文 参考訳(メタデータ) (2022-02-17T08:50:12Z) - Toward Degradation-Robust Voice Conversion [94.60503904292916]
あらゆる音声変換技術は、発話の発声音を訓練中に見つからないあらゆる話者に変換する。
話者の清潔な発話を収集することは困難であり、通常はノイズや残響によって劣化する。
本稿では,任意の音声変換の頑健性の劣化に関する総合的研究を報告する。
論文 参考訳(メタデータ) (2021-10-14T17:00:34Z) - Sep-Stereo: Visually Guided Stereophonic Audio Generation by Associating
Source Separation [96.18178553315472]
本稿では,ステレオ音声の生成を容易にするために,膨大な量のモノデータを活用することを提案する。
ステレオ生成とソース分離の両方を統合フレームワークであるSep-Stereoに統合します。
論文 参考訳(メタデータ) (2020-07-20T06:20:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。