論文の概要: Training-Free Multi-Step Audio Source Separation
- arxiv url: http://arxiv.org/abs/2505.19534v1
- Date: Mon, 26 May 2025 05:40:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.193539
- Title: Training-Free Multi-Step Audio Source Separation
- Title(参考訳): 学習不要なマルチステップ音源分離
- Authors: Yongyi Zang, Jingyi Li, Qiuqiang Kong,
- Abstract要約: 本研究では,事前学習したワンステップ音源分離モデルを,追加訓練を伴わずに多段階分離に利用できることを示す。
本稿では,入力混合物を前ステップの分離結果と最適に混合することにより,分離を反復的に適用する簡易かつ効果的な推論手法を提案する。
実験結果から,多段階分離手法は音声強調処理と音源分離処理の双方で一段階推論を一貫して上回っていることが明らかとなった。
- 参考スコア(独自算出の注目度): 16.187944473839632
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio source separation aims to separate a mixture into target sources. Previous audio source separation systems usually conduct one-step inference, which does not fully explore the separation ability of models. In this work, we reveal that pretrained one-step audio source separation models can be leveraged for multi-step separation without additional training. We propose a simple yet effective inference method that iteratively applies separation by optimally blending the input mixture with the previous step's separation result. At each step, we determine the optimal blending ratio by maximizing a metric. We prove that our method always yield improvement over one-step inference, provide error bounds based on model smoothness and metric robustness, and provide theoretical analysis connecting our method to denoising along linear interpolation paths between noise and clean distributions, a property we link to denoising diffusion bridge models. Our approach effectively delivers improved separation performance as a "free lunch" from existing models. Our empirical results demonstrate that our multi-step separation approach consistently outperforms one-step inference across both speech enhancement and music source separation tasks, and can achieve scaling performance similar to training a larger model, using more data, or in some cases employing a multi-step training objective. These improvements appear not only on the optimization metric during multi-step inference, but also extend to nearly all non-optimized metrics (with one exception). We also discuss limitations of our approach and directions for future research.
- Abstract(参考訳): オーディオソースの分離は、ミックスをターゲットソースに分離することを目的としている。
従来の音源分離システムは通常1ステップの推論を行うが、これはモデルの分離能力を十分に調べるものではない。
本研究では,事前学習したワンステップ音源分離モデルを,追加の訓練を伴わずに多段階分離に活用できることを明らかにする。
本稿では,入力混合物を前ステップの分離結果と最適に混合することにより,分離を反復的に適用する簡易かつ効果的な推論手法を提案する。
各ステップで、計量を最大化して最適なブレンディング比を決定する。
提案手法は, 1ステップの推論よりも常に改善され, モデルの滑らかさと計量ロバスト性に基づく誤差境界が得られ, ノイズとクリーンな分布の間の線形補間経路に沿って denoising する理論解析, 拡散ブリッジモデルにリンクする特性を提供する。
このアプローチは、既存のモデルから「フリーランチ」として、改善された分離性能を効果的に提供します。
実験結果から,我々の多段階分離手法は音声強調タスクと音源分離タスクの両方において一段階の推論を一貫して上回り,大規模モデルのトレーニングやデータ利用,場合によっては多段階学習の目的を生かしたスケーリング性能を達成可能であることが示された。
これらの改善は、マルチステップ推論中の最適化基準に留まらず、ほとんどすべての最適化されていない指標(例外は1つ)にまで拡張されている。
また,今後の研究の方向性とアプローチの限界についても論じる。
関連論文リスト
- Improving Multimodal Learning Balance and Sufficiency through Data Remixing [14.282792733217653]
弱いモダリティを強制する方法は、単調な充足性とマルチモーダルなバランスを達成できない。
マルチモーダルデータのデカップリングや,各モーダルに対するハードサンプルのフィルタリングなど,モダリティの不均衡を軽減するマルチモーダルデータリミックスを提案する。
提案手法は既存の手法とシームレスに統合され,CREMADでは約6.50%$uparrow$,Kineetic-Soundsでは3.41%$uparrow$の精度が向上する。
論文 参考訳(メタデータ) (2025-06-13T08:01:29Z) - Training-free Diffusion Model Alignment with Sampling Demons [15.400553977713914]
提案手法は,報酬関数やモデル再学習を介さずに,推論時の復調過程を導出するための最適化手法である。
提案手法は,高報酬に対応する領域の密度を最適化することにより,雑音分布の制御を行う。
実験の結果,提案手法は平均的美学のテキスト・ツー・イメージ生成を著しく改善することがわかった。
論文 参考訳(メタデータ) (2024-10-08T07:33:49Z) - MMDisCo: Multi-Modal Discriminator-Guided Cooperative Diffusion for Joint Audio and Video Generation [15.29891397291197]
本研究は,最小計算コストで音声映像生成モデルを構築することを目的とする。
そこで本研究では,単一モーダルモデルを用いて,モダリティ間の整合性のあるサンプルを協調的に生成する手法を提案する。
いくつかのベンチマークデータセットに対する実証的な評価により,本手法は比較的少ないパラメータで単一モードの忠実度と多モードアライメントの両方を改善することが示された。
論文 参考訳(メタデータ) (2024-05-28T05:43:03Z) - Multi-scale Diffusion Denoised Smoothing [79.95360025953931]
ランダムな平滑化は、大規模モデルに敵対的ロバスト性を提供する、いくつかの具体的なアプローチの1つになっている。
本報告では, 分割平滑化におけるロバスト性と精度との現在のトレードオフに対処するスケーラブルな手法を提案する。
提案手法と拡散微細調整を併用したマルチスケール平滑化手法により,高騒音レベルで高い信頼性のロバスト性が得られることを示す。
論文 参考訳(メタデータ) (2023-10-25T17:11:21Z) - Score-based Source Separation with Applications to Digital Communication
Signals [72.6570125649502]
拡散モデルを用いた重畳音源の分離手法を提案する。
高周波(RF)システムへの応用によって、我々は、基礎となる離散的な性質を持つ情報源に興味を持っている。
提案手法は,最近提案されたスコア蒸留サンプリング方式のマルチソース拡張と見なすことができる。
論文 参考訳(メタデータ) (2023-06-26T04:12:40Z) - Boosting Fast and High-Quality Speech Synthesis with Linear Diffusion [85.54515118077825]
本稿では, 常微分方程式に基づく線形拡散モデル(LinDiff)を提案する。
計算複雑性を低減するため、LinDiffでは、入力信号を小さなパッチに分割するパッチベースの処理アプローチを採用している。
我々のモデルは、より高速な合成速度で自己回帰モデルに匹敵する品質の音声を合成することができる。
論文 参考訳(メタデータ) (2023-06-09T07:02:43Z) - Separate And Diffuse: Using a Pretrained Diffusion Model for Improving
Source Separation [99.19786288094596]
上界をランダムな生成モデルに一般化する方法を示す。
複数のベンチマークで2, 3, 5, 10, 20人の話者に最先端の結果を示す。
論文 参考訳(メタデータ) (2023-01-25T18:21:51Z) - Unsupervised Audio Source Separation Using Differentiable Parametric
Source Models [8.80867379881193]
本研究では,教師なしモデルに基づく深層学習手法を提案する。
ニューラルネットワークは、観測された混合物をソースの和として再構成するように訓練される。
音声アンサンブル分離タスクの実験評価により,提案手法が学習自由法より優れていることが示された。
論文 参考訳(メタデータ) (2022-01-24T11:05:30Z) - Deblurring via Stochastic Refinement [85.42730934561101]
条件付き拡散モデルに基づくブラインドデブロアリングのための代替フレームワークを提案する。
提案手法は,PSNRなどの歪み指標の点で競合する。
論文 参考訳(メタデータ) (2021-12-05T04:36:09Z) - Learning the Truth From Only One Side of the Story [58.65439277460011]
一般化線形モデルに焦点をあて、このサンプリングバイアスを調整しなければ、モデルは準最適に収束するか、あるいは最適解に収束しないかもしれないことを示す。
理論的保証を伴って適応的なアプローチを提案し、いくつかの既存手法を実証的に上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-08T18:20:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。