論文の概要: DGMO: Training-Free Audio Source Separation through Diffusion-Guided Mask Optimization
- arxiv url: http://arxiv.org/abs/2506.02858v2
- Date: Thu, 05 Jun 2025 04:46:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 14:14:43.173341
- Title: DGMO: Training-Free Audio Source Separation through Diffusion-Guided Mask Optimization
- Title(参考訳): DGMO:拡散誘導マスク最適化による学習不要音源分離
- Authors: Geonyoung Lee, Geonhee Han, Paul Hongsuck Seo,
- Abstract要約: 言語クエリされたオーディオソース分離(LASS)は、自然言語クエリによるオープン語彙の分離を可能にする。
ゼロショットLASSにおける生成前処理を利用した学習自由フレームワークを提案する。
提案手法は,ソース分離のための事前学習拡散モデルを効果的に再利用し,タスク固有の監督なしに競争性能を達成する。
- 参考スコア(独自算出の注目度): 6.6567375919025995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language-queried Audio Source Separation (LASS) enables open-vocabulary sound separation via natural language queries. While existing methods rely on task-specific training, we explore whether pretrained diffusion models, originally designed for audio generation, can inherently perform separation without further training. In this study, we introduce a training-free framework leveraging generative priors for zero-shot LASS. Analyzing naive adaptations, we identify key limitations arising from modality-specific challenges. To address these issues, we propose Diffusion-Guided Mask Optimization (DGMO), a test-time optimization framework that refines spectrogram masks for precise, input-aligned separation. Our approach effectively repurposes pretrained diffusion models for source separation, achieving competitive performance without task-specific supervision. This work expands the application of diffusion models beyond generation, establishing a new paradigm for zero-shot audio separation. The code is available at: https://wltschmrz.github.io/DGMO/
- Abstract(参考訳): 言語クエリされたオーディオソース分離(LASS)は、自然言語クエリによるオープン語彙の分離を可能にする。
既存の手法はタスク固有のトレーニングに依存しているが,従来はオーディオ生成用に設計されていた事前学習拡散モデルが,それ以上のトレーニングを行なわずに本質的に分離を行うことができるかどうかを考察する。
本研究では,ゼロショットLASSにおける生成前処理を利用した学習自由フレームワークを提案する。
ナイーブ適応を解析し、モダリティ固有の課題から生じる重要な制約を同定する。
これらの問題に対処するため,DGMO(Diffusion-Guided Mask Optimization)を提案する。
提案手法は,ソース分離のための事前学習拡散モデルを効果的に再利用し,タスク固有の監督なしに競争性能を達成する。
この研究は、生成以上の拡散モデルの適用を拡大し、ゼロショット音声分離のための新しいパラダイムを確立する。
コードは、https://wltschmrz.github.io/DGMO/で入手できる。
関連論文リスト
- ZeroSep: Separate Anything in Audio with Zero Training [42.19808124670159]
機械が複雑な音響環境を理解するためには、音源分離が基本である。
現在の教師付きディープラーニングアプローチは、強力ではあるが、広範なタスク固有のラベル付きデータの必要性によって制限されている。
事前学習したテキスト誘導音声拡散モデルがこれらの制限を克服できるかどうかを検討する。
ゼロショット音源分離は、事前訓練されたテキスト誘導音声拡散モデルにより純粋に達成できる。
論文 参考訳(メタデータ) (2025-05-29T16:31:45Z) - Generalized Interpolating Discrete Diffusion [65.74168524007484]
仮面拡散はその単純さと有効性のために一般的な選択である。
離散拡散過程を補間する一般族の理論的バックボーンを導出する。
GIDDのフレキシビリティをエクスプロイトし、マスクと均一ノイズを組み合わせたハイブリッドアプローチを探索する。
論文 参考訳(メタデータ) (2025-03-06T14:30:55Z) - Diffusion-based Unsupervised Audio-visual Speech Enhancement [26.937216751657697]
本稿では,新しい教師なし音声-視覚音声強調(AVSE)手法を提案する。
拡散に基づく音声視覚音声生成モデルと非負行列分解(NMF)ノイズモデルを組み合わせる。
実験結果から,提案手法は音声のみのアプローチより優れているだけでなく,近年の教師付き生成型AVSE法よりも優れていたことが確認された。
論文 参考訳(メタデータ) (2024-10-04T12:22:54Z) - OpenSep: Leveraging Large Language Models with Textual Inversion for Open World Audio Separation [9.453883041423468]
我々は,大規模言語モデル(LLM)を利用して自動音声分離を行う新しいフレームワークであるOpenSepを提案する。
OpenSepはテキストインバージョンを使用して、市販のオーディオキャプションモデルとオーディオミックスからキャプションを生成し、現在ある音源を効果的に解析する。
その後、数発のLCMを使用して、パースされたソースの詳細なオーディオ特性を抽出し、目に見えない混合物の分離を容易にする。
論文 参考訳(メタデータ) (2024-09-28T06:59:52Z) - DDTSE: Discriminative Diffusion Model for Target Speech Extraction [62.422291953387955]
ターゲット音声抽出(DDTSE)のための識別拡散モデルを提案する。
拡散モデルと同じ前方プロセスを適用し, 判別法と同様の復元損失を利用する。
モデルトレーニング中に推論過程をエミュレートするための2段階のトレーニング戦略を考案する。
論文 参考訳(メタデータ) (2023-09-25T04:58:38Z) - Unsupervised speech enhancement with diffusion-based generative models [0.0]
拡散モデルの生成力を生かし、教師なしの方法で機能する代替手法を提案する。
本研究では,学習したクリーン音声と音声信号推論のための雑音モデルを組み合わせることで,音声強調のための後部サンプリング手法を開発した。
近年の変分オートエンコーダ (VAE) による教師なし手法と, 最先端の拡散型教師方式と比較して, 有望な結果が得られた。
論文 参考訳(メタデータ) (2023-09-19T09:11:31Z) - An Efficient Membership Inference Attack for the Diffusion Model by
Proximal Initialization [58.88327181933151]
本稿では,効率的なクエリベースのメンバシップ推論攻撃(MIA)を提案する。
実験結果から,提案手法は離散時間と連続時間の両方の拡散モデル上で,2つのクエリで競合性能を達成できることが示唆された。
我々の知る限り、本研究はテキスト音声タスクにおけるMIAへの拡散モデルのロバスト性について初めて研究するものである。
論文 参考訳(メタデータ) (2023-05-26T16:38:48Z) - A Cheaper and Better Diffusion Language Model with Soft-Masked Noise [62.719656543880596]
Masked-Diffuse LMは言語モデリングのための新しい拡散モデルであり、言語の言語的特徴に触発されている。
具体的には,テキストデータのノイズを改善するために,戦略的ソフトマスキングによってテキストに劣化を加える言語情報処理を設計する。
我々は,我々のMasked-Diffuse LMが,高効率の最先端拡散モデルよりも優れた生成品質を達成できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:58:42Z) - DiffusionRet: Generative Text-Video Retrieval with Diffusion Model [56.03464169048182]
既存のテキストビデオ検索ソリューションは、条件付き可能性、すなわちp(candidates|query)の最大化に焦点を当てている。
我々は、このタスクを生成的視点から創造的に取り組み、テキストとビデオの相関関係を共同確率p(candidates,query)としてモデル化する。
これは拡散に基づくテキストビデオ検索フレームワーク(DiffusionRet)によって実現され、ノイズから徐々に関節分布を生成するプロセスとして検索タスクをモデル化する。
論文 参考訳(メタデータ) (2023-03-17T10:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。