論文の概要: User-guided Generative Source Separation
- arxiv url: http://arxiv.org/abs/2507.01339v1
- Date: Wed, 02 Jul 2025 03:58:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.040084
- Title: User-guided Generative Source Separation
- Title(参考訳): ユーザガイドによる生成源分離
- Authors: Yutong Wen, Minje Kim, Paris Smaragdis,
- Abstract要約: 音楽ソース分離(MSS)は、個々の楽器ソースをその混合物から抽出することを目的としている。
GuideSepは拡散に基づくMSSモデルであり、計器的な分離を4段階のセットアップを超えて行うことができる。
目的および主観評価は, GuideSepが高品質な分離を実現することを示す。
- 参考スコア(独自算出の注目度): 21.93943668751019
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Music source separation (MSS) aims to extract individual instrument sources from their mixture. While most existing methods focus on the widely adopted four-stem separation setup (vocals, bass, drums, and other instruments), this approach lacks the flexibility needed for real-world applications. To address this, we propose GuideSep, a diffusion-based MSS model capable of instrument-agnostic separation beyond the four-stem setup. GuideSep is conditioned on multiple inputs: a waveform mimicry condition, which can be easily provided by humming or playing the target melody, and mel-spectrogram domain masks, which offer additional guidance for separation. Unlike prior approaches that relied on fixed class labels or sound queries, our conditioning scheme, coupled with the generative approach, provides greater flexibility and applicability. Additionally, we design a mask-prediction baseline using the same model architecture to systematically compare predictive and generative approaches. Our objective and subjective evaluations demonstrate that GuideSep achieves high-quality separation while enabling more versatile instrument extraction, highlighting the potential of user participation in the diffusion-based generative process for MSS. Our code and demo page are available at https://yutongwen.github.io/GuideSep/
- Abstract(参考訳): 音楽ソース分離(MSS)は、個々の楽器ソースをその混合物から抽出することを目的としている。
既存のほとんどの方法は広く採用されている4段階分離(ボーカル、ベース、ドラム、その他の楽器)に焦点を当てているが、このアプローチは現実世界のアプリケーションに必要な柔軟性を欠いている。
そこで本研究では,4段階のセットアップを超えて,機器に依存しない分離が可能な拡散型MSSモデルである GuideSepを提案する。
GuideSepは、ターゲットメロディをハミングしたり演奏したりすることで容易に提供できる波形模倣条件と、分離のための追加のガイダンスを提供するメル・スペクトログラム・ドメインマスクである。
固定クラスラベルやサウンドクエリに依存する従来の手法とは異なり、我々の条件付けスキームは、生成的アプローチと相まって、より柔軟性と適用性を提供する。
さらに、同じモデルアーキテクチャを用いてマスク予測ベースラインを設計し、予測的および生成的アプローチを体系的に比較する。
目的および主観的評価は,より汎用性の高い楽器抽出を可能にするとともに,MSSの拡散型生成プロセスにおけるユーザ参加の可能性を強調しながら,高品質な分離を実現することを示す。
私たちのコードとデモページはhttps://yutongwen.github.io/GuideSep/で公開されています。
関連論文リスト
- DGMO: Training-Free Audio Source Separation through Diffusion-Guided Mask Optimization [6.6567375919025995]
言語クエリされたオーディオソース分離(LASS)は、自然言語クエリによるオープン語彙の分離を可能にする。
ゼロショットLASSにおける生成前処理を利用した学習自由フレームワークを提案する。
提案手法は,ソース分離のための事前学習拡散モデルを効果的に再利用し,タスク固有の監督なしに競争性能を達成する。
論文 参考訳(メタデータ) (2025-06-03T13:24:57Z) - SAMRefiner: Taming Segment Anything Model for Universal Mask Refinement [40.37217744643069]
マスク改善タスクにSAMを適用することで,汎用的で効率的なアプローチを提案する。
具体的には,SAMの多様な入力プロンプトをマイニングするためのマルチプロンプト掘削手法を提案する。
ターゲットデータセット上のジェネリックSAMRefinerのパフォーマンスをさらに向上するため、IoU適応ステップを追加してSAMRefiner++にメソッドを拡張します。
論文 参考訳(メタデータ) (2025-02-10T18:33:15Z) - Steering Masked Discrete Diffusion Models via Discrete Denoising Posterior Prediction [88.65168366064061]
本稿では,確率論的推論の課題として,事前学習したMDMを操る作業を行う新しいフレームワークであるDDPPを紹介する。
私たちのフレームワークは、3つの新しい目標のファミリーにつながります。
Wet-lab Validation(ウェット・ラブ・バリデーション)を用いて,報酬最適化タンパク質配列の過渡的発現を観察する。
論文 参考訳(メタデータ) (2024-10-10T17:18:30Z) - Dynamic Patch-aware Enrichment Transformer for Occluded Person
Re-Identification [14.219232629274186]
DPEFormer(Dynamic Patch-aware Enrichment Transformer)と呼ばれるエンドツーエンドのソリューションを提案する。
このモデルは,人体情報と隠蔽情報を自動的かつ動的に識別する。
DPSM と DPEFormer 全体が識別ラベルのみを用いて効果的に学習できることを保証するため,本手法では,実効性を有する Occlusion Augmentation (ROA) 戦略も提案する。
論文 参考訳(メタデータ) (2024-02-16T03:53:30Z) - One-Dimensional Deep Image Prior for Curve Fitting of S-Parameters from
Electromagnetic Solvers [57.441926088870325]
Deep Image Prior(ディープ・イメージ・プライオリ、ディープ・イメージ・プライオリ、DIP)は、ランダムなd畳み込みニューラルネットワークの重みを最適化し、ノイズや過度な測定値からの信号に適合させる技術である。
本稿では,Vector Fitting (VF) の実装に対して,ほぼすべてのテスト例において優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-06T20:28:37Z) - Exploiting Temporal Structures of Cyclostationary Signals for
Data-Driven Single-Channel Source Separation [98.95383921866096]
単一チャネルソース分離(SCSS)の問題点について検討する。
我々は、様々なアプリケーション領域に特に適するサイクロ定常信号に焦点を当てる。
本稿では,最小MSE推定器と競合するU-Netアーキテクチャを用いたディープラーニング手法を提案する。
論文 参考訳(メタデータ) (2022-08-22T14:04:56Z) - Dynamic Prototype Mask for Occluded Person Re-Identification [88.7782299372656]
既存の手法では、目に見える部分を識別するために、余分なネットワークによって提供される身体の手がかりを利用することで、この問題に対処している。
2つの自己明快な事前知識に基づく新しい動的プロトタイプマスク(DPM)を提案する。
この条件下では、隠蔽された表現は、選択された部分空間において自然にうまく整列することができる。
論文 参考訳(メタデータ) (2022-07-19T03:31:13Z) - Semantic Image Synthesis via Diffusion Models [174.24523061460704]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に事実上のGANベースのアプローチに従っている。
意味画像合成のためのDDPMに基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Spatial and spectral deep attention fusion for multi-channel speech
separation using deep embedding features [60.20150317299749]
マルチチャネルディープクラスタリング(MDC)は、音声分離に優れた性能を得た。
本研究では,スペクトルおよび空間的特徴の重みを動的に制御し,それらを深く結合するディープ・アテンション・フュージョン法を提案する。
実験結果から,提案手法はMDCベースラインよりも優れ,理想的なバイナリマスク(IBM)よりも優れていた。
論文 参考訳(メタデータ) (2020-02-05T03:49:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。