論文の概要: Training-Free Multi-Step Audio Source Separation
- arxiv url: http://arxiv.org/abs/2505.19534v1
- Date: Mon, 26 May 2025 05:40:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.193539
- Title: Training-Free Multi-Step Audio Source Separation
- Title(参考訳): 学習不要なマルチステップ音源分離
- Authors: Yongyi Zang, Jingyi Li, Qiuqiang Kong,
- Abstract要約: 本研究では,事前学習したワンステップ音源分離モデルを,追加訓練を伴わずに多段階分離に利用できることを示す。
本稿では,入力混合物を前ステップの分離結果と最適に混合することにより,分離を反復的に適用する簡易かつ効果的な推論手法を提案する。
実験結果から,多段階分離手法は音声強調処理と音源分離処理の双方で一段階推論を一貫して上回っていることが明らかとなった。
- 参考スコア(独自算出の注目度): 16.187944473839632
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio source separation aims to separate a mixture into target sources. Previous audio source separation systems usually conduct one-step inference, which does not fully explore the separation ability of models. In this work, we reveal that pretrained one-step audio source separation models can be leveraged for multi-step separation without additional training. We propose a simple yet effective inference method that iteratively applies separation by optimally blending the input mixture with the previous step's separation result. At each step, we determine the optimal blending ratio by maximizing a metric. We prove that our method always yield improvement over one-step inference, provide error bounds based on model smoothness and metric robustness, and provide theoretical analysis connecting our method to denoising along linear interpolation paths between noise and clean distributions, a property we link to denoising diffusion bridge models. Our approach effectively delivers improved separation performance as a "free lunch" from existing models. Our empirical results demonstrate that our multi-step separation approach consistently outperforms one-step inference across both speech enhancement and music source separation tasks, and can achieve scaling performance similar to training a larger model, using more data, or in some cases employing a multi-step training objective. These improvements appear not only on the optimization metric during multi-step inference, but also extend to nearly all non-optimized metrics (with one exception). We also discuss limitations of our approach and directions for future research.
- Abstract(参考訳): オーディオソースの分離は、ミックスをターゲットソースに分離することを目的としている。
従来の音源分離システムは通常1ステップの推論を行うが、これはモデルの分離能力を十分に調べるものではない。
本研究では,事前学習したワンステップ音源分離モデルを,追加の訓練を伴わずに多段階分離に活用できることを明らかにする。
本稿では,入力混合物を前ステップの分離結果と最適に混合することにより,分離を反復的に適用する簡易かつ効果的な推論手法を提案する。
各ステップで、計量を最大化して最適なブレンディング比を決定する。
提案手法は, 1ステップの推論よりも常に改善され, モデルの滑らかさと計量ロバスト性に基づく誤差境界が得られ, ノイズとクリーンな分布の間の線形補間経路に沿って denoising する理論解析, 拡散ブリッジモデルにリンクする特性を提供する。
このアプローチは、既存のモデルから「フリーランチ」として、改善された分離性能を効果的に提供します。
実験結果から,我々の多段階分離手法は音声強調タスクと音源分離タスクの両方において一段階の推論を一貫して上回り,大規模モデルのトレーニングやデータ利用,場合によっては多段階学習の目的を生かしたスケーリング性能を達成可能であることが示された。
これらの改善は、マルチステップ推論中の最適化基準に留まらず、ほとんどすべての最適化されていない指標(例外は1つ)にまで拡張されている。
また,今後の研究の方向性とアプローチの限界についても論じる。
関連論文リスト
- Training-free Diffusion Model Alignment with Sampling Demons [15.400553977713914]
提案手法は,報酬関数やモデル再学習を介さずに,推論時の復調過程を導出するための最適化手法である。
提案手法は,高報酬に対応する領域の密度を最適化することにより,雑音分布の制御を行う。
実験の結果,提案手法は平均的美学のテキスト・ツー・イメージ生成を著しく改善することがわかった。
論文 参考訳(メタデータ) (2024-10-08T07:33:49Z) - MMDisCo: Multi-Modal Discriminator-Guided Cooperative Diffusion for Joint Audio and Video Generation [15.29891397291197]
本研究は,最小計算コストで音声映像生成モデルを構築することを目的とする。
そこで本研究では,単一モーダルモデルを用いて,モダリティ間の整合性のあるサンプルを協調的に生成する手法を提案する。
いくつかのベンチマークデータセットに対する実証的な評価により,本手法は比較的少ないパラメータで単一モードの忠実度と多モードアライメントの両方を改善することが示された。
論文 参考訳(メタデータ) (2024-05-28T05:43:03Z) - Multi-scale Diffusion Denoised Smoothing [79.95360025953931]
ランダムな平滑化は、大規模モデルに敵対的ロバスト性を提供する、いくつかの具体的なアプローチの1つになっている。
本報告では, 分割平滑化におけるロバスト性と精度との現在のトレードオフに対処するスケーラブルな手法を提案する。
提案手法と拡散微細調整を併用したマルチスケール平滑化手法により,高騒音レベルで高い信頼性のロバスト性が得られることを示す。
論文 参考訳(メタデータ) (2023-10-25T17:11:21Z) - Boosting Fast and High-Quality Speech Synthesis with Linear Diffusion [85.54515118077825]
本稿では, 常微分方程式に基づく線形拡散モデル(LinDiff)を提案する。
計算複雑性を低減するため、LinDiffでは、入力信号を小さなパッチに分割するパッチベースの処理アプローチを採用している。
我々のモデルは、より高速な合成速度で自己回帰モデルに匹敵する品質の音声を合成することができる。
論文 参考訳(メタデータ) (2023-06-09T07:02:43Z) - Separate And Diffuse: Using a Pretrained Diffusion Model for Improving
Source Separation [99.19786288094596]
上界をランダムな生成モデルに一般化する方法を示す。
複数のベンチマークで2, 3, 5, 10, 20人の話者に最先端の結果を示す。
論文 参考訳(メタデータ) (2023-01-25T18:21:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。