論文の概要: ZeroSep: Separate Anything in Audio with Zero Training
- arxiv url: http://arxiv.org/abs/2505.23625v1
- Date: Thu, 29 May 2025 16:31:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.991683
- Title: ZeroSep: Separate Anything in Audio with Zero Training
- Title(参考訳): ZeroSep: ゼロトレーニングによるオーディオの分離
- Authors: Chao Huang, Yuesheng Ma, Junxuan Huang, Susan Liang, Yunlong Tang, Jing Bi, Wenqiang Liu, Nima Mesgarani, Chenliang Xu,
- Abstract要約: 機械が複雑な音響環境を理解するためには、音源分離が基本である。
現在の教師付きディープラーニングアプローチは、強力ではあるが、広範なタスク固有のラベル付きデータの必要性によって制限されている。
事前学習したテキスト誘導音声拡散モデルがこれらの制限を克服できるかどうかを検討する。
ゼロショット音源分離は、事前訓練されたテキスト誘導音声拡散モデルにより純粋に達成できる。
- 参考スコア(独自算出の注目度): 42.19808124670159
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio source separation is fundamental for machines to understand complex acoustic environments and underpins numerous audio applications. Current supervised deep learning approaches, while powerful, are limited by the need for extensive, task-specific labeled data and struggle to generalize to the immense variability and open-set nature of real-world acoustic scenes. Inspired by the success of generative foundation models, we investigate whether pre-trained text-guided audio diffusion models can overcome these limitations. We make a surprising discovery: zero-shot source separation can be achieved purely through a pre-trained text-guided audio diffusion model under the right configuration. Our method, named ZeroSep, works by inverting the mixed audio into the diffusion model's latent space and then using text conditioning to guide the denoising process to recover individual sources. Without any task-specific training or fine-tuning, ZeroSep repurposes the generative diffusion model for a discriminative separation task and inherently supports open-set scenarios through its rich textual priors. ZeroSep is compatible with a variety of pre-trained text-guided audio diffusion backbones and delivers strong separation performance on multiple separation benchmarks, surpassing even supervised methods.
- Abstract(参考訳): 機械が複雑な音響環境を理解し、多くのオーディオアプリケーションを支えるためには、音源分離が基本である。
現在の教師付きディープラーニングアプローチは、強力ではあるが、広範囲でタスク固有のラベル付きデータが必要であり、現実の音響シーンの膨大な可変性とオープンセットの性質に一般化するのに苦労しているため、制限されている。
生成基盤モデルの成功に触発されて、事前学習したテキスト誘導音声拡散モデルがこれらの制限を克服できるかどうかを検討する。
ゼロショットソース分離は、適切な設定の下で、トレーニング済みのテキスト誘導オーディオ拡散モデルによって純粋に達成できる。
我々の手法はZeroSepと呼ばれ、混合音声を拡散モデルの潜伏空間に反転させ、テキストコンディショニングを用いて個別の音源を復元する。
タスク固有のトレーニングや微調整がなければ、ZeroSepは差別的な分離タスクのための生成拡散モデルを再利用し、リッチテキストの事前処理を通じてオープンセットシナリオを本質的にサポートします。
ZeroSepは、事前訓練されたテキスト誘導オーディオ拡散バックボーンと互換性があり、複数の分離ベンチマークで強力な分離性能を提供し、教師付きメソッドを超越している。
関連論文リスト
- Text-Queried Audio Source Separation via Hierarchical Modeling [53.94434504259829]
本研究では,HSM-TSSという階層的分解フレームワークを提案し,そのタスクをグローバルな意味誘導特徴分離と構造保存音響再構成に分解する。
Q-Audioアーキテクチャは、事前訓練されたグローバルセマンティックエンコーダとして機能するオーディオとテキストのモダリティを調整するために使用される。
本手法は,複雑な聴覚シーンにおけるクエリとのセマンティック一貫性を保ちながら,データ効率のトレーニングによる最先端の分離性能を実現する。
論文 参考訳(メタデータ) (2025-05-27T11:00:38Z) - SoloSpeech: Enhancing Intelligibility and Quality in Target Speech Extraction through a Cascaded Generative Pipeline [29.85417427778784]
SoloSpeechは、圧縮、抽出、再構築、修正プロセスを統合するカスケード生成パイプラインである。
ターゲット音声抽出および音声分離タスクにおける最先端の知性および品質を実現する。
論文 参考訳(メタデータ) (2025-05-25T21:00:48Z) - Unleashing the Power of Natural Audio Featuring Multiple Sound Sources [54.38251699625379]
ユニバーサルサウンド分離は、混合音声から異なるイベントに対応するクリーンなオーディオトラックを抽出することを目的としている。
複雑な混合音声を複数の独立したトラックに分解するために,データエンジンを利用するフレームワークであるClearSepを提案する。
実験では、ClearSepは複数の音分離タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-04-24T17:58:21Z) - Seeing Speech and Sound: Distinguishing and Locating Audios in Visual Scenes [16.530816405275715]
本稿では,音声と非音声の両方を同時に視覚的シーン内でグラウンド化できる統一モデルを提案する。
既存のアプローチは、通常、音声または非音声のどちらかを独立に、あるいはせいぜい一緒に扱うことに限定されるが、連続的に混合しない。
論文 参考訳(メタデータ) (2025-03-24T16:56:04Z) - Tango 2: Aligning Diffusion-based Text-to-Audio Generations through Direct Preference Optimization [70.13218512896032]
テキストプロンプトから音声を生成することは、音楽や映画産業におけるそのようなプロセスの重要な側面である。
我々の仮説は、これらのオーディオ生成の側面が、限られたデータの存在下でのオーディオ生成性能をどのように改善するかに焦点を当てている。
我々は、各プロンプトが勝者の音声出力と、拡散モデルが学習するための敗者音声出力を持つ選好データセットを合成的に作成する。
論文 参考訳(メタデータ) (2024-04-15T17:31:22Z) - Zero-shot Audio Source Separation through Query-based Learning from
Weakly-labeled Data [26.058278155958668]
本稿では,大規模だがラベルの弱いデータセットであるAudioSetから,ユニバーサルオーディオソースセパレータをトレーニングするための3成分パイプラインを提案する。
提案手法は,複数の音源の音源分離に単一モデルを用い,弱いラベル付きデータにのみ依存する。
提案したオーディオセパレータはゼロショット設定で使用することができ、トレーニングで見たことのない種類のオーディオソースを分離することを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-15T05:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。