論文の概要: SSNAPS: Audio-Visual Separation of Speech and Background Noise with Diffusion Inverse Sampling
- arxiv url: http://arxiv.org/abs/2602.01394v1
- Date: Sun, 01 Feb 2026 18:57:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.765033
- Title: SSNAPS: Audio-Visual Separation of Speech and Background Noise with Diffusion Inverse Sampling
- Title(参考訳): SSNAPS:拡散逆サンプリングによる音声と背景雑音の聴覚的分離
- Authors: Yochai Yemini, Yoav Ellinson, Rami Ben-Ari, Sharon Gannot, Ethan Fetaya,
- Abstract要約: 本稿では,実環境騒音の存在下での単一マイクロホン音声分離と高機能化の課題について論じる。
提案手法は生成的逆サンプリングに基づいており, クリーンな音声と周囲の雑音を, 専用の拡散前処理でモデル化し, 基礎となるすべての音源の復元に共同で活用する。
我々は,1,2,3話者の混在音について評価し,完全に教師なしであるにもかかわらず,全ての条件において指導基準線が指導基準線より常に優れていたことを示す。
- 参考スコア(独自算出の注目度): 23.130313134690443
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the challenge of audio-visual single-microphone speech separation and enhancement in the presence of real-world environmental noise. Our approach is based on generative inverse sampling, where we model clean speech and ambient noise with dedicated diffusion priors and jointly leverage them to recover all underlying sources. To achieve this, we reformulate a recent inverse sampler to match our setting. We evaluate on mixtures of 1, 2, and 3 speakers with noise and show that, despite being entirely unsupervised, our method consistently outperforms leading supervised baselines in \ac{WER} across all conditions. We further extend our framework to handle off-screen speaker separation. Moreover, the high fidelity of the separated noise component makes it suitable for downstream acoustic scene detection. Demo page: https://ssnapsicml.github.io/ssnapsicml2026/
- Abstract(参考訳): 本稿では,実環境騒音の存在下での単一マイクロホン音声分離と高機能化の課題について論じる。
提案手法は生成的逆サンプリングに基づいており, クリーンな音声と周囲の雑音を, 専用の拡散前処理でモデル化し, 基礎となるすべての音源の復元に共同で活用する。
これを実現するために、我々は最近の逆サンプリングを我々の設定に合わせるように再構成する。
我々は,1,2,3話者の混合音について評価し,完全に教師なしであるにもかかわらず,すべての条件において,指導基準線が指導基準線より常に優れていたことを示す。
オフスクリーンの話者分離を扱うために、私たちのフレームワークをさらに拡張します。
さらに、分離された雑音成分の高忠実度は、下流の音響シーン検出に適している。
デモページ:https://ssnapsicml.github.io/ssnapsicml2026/
関連論文リスト
- ViSAudio: End-to-End Video-Driven Binaural Spatial Audio Generation [55.76423101183408]
ViSAudioは、条件付きフローマッチングとデュアルブランチオーディオ生成アーキテクチャを利用するエンドツーエンドフレームワークである。
空間浸漬による高品質なオーディオを生成し、視点の変化、音源の動き、様々な音響環境に適応する。
論文 参考訳(メタデータ) (2025-12-02T18:56:12Z) - High-Quality Sound Separation Across Diverse Categories via Visually-Guided Generative Modeling [65.02357548201188]
DAVIS(Diffusion-based Audio-VIsual separation framework)を提案する。
本フレームワークは、混合音声入力と関連する視覚情報に基づいて、ノイズ分布から直接、所望の分離音スペクトルを合成することによって機能する。
論文 参考訳(メタデータ) (2025-09-26T08:46:00Z) - Diffusion-Based Unsupervised Audio-Visual Speech Separation in Noisy Environments with Noise Prior [24.815262863931334]
クリーン音声と構造化雑音成分の両方をモデル化する生成的教師なし手法を提案する。
提案手法では,視覚的手がかりを取り入れた音声-視覚的スコアモデルを用いて,前代未聞の強い生成音声として機能する。
実験の結果,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2025-09-17T19:25:35Z) - SEED: Speaker Embedding Enhancement Diffusion Model [27.198463567915386]
実世界のアプリケーションに話者認識システムを配置する際の最大の課題は、環境ミスマッチによる性能劣化である。
本稿では,事前学習した話者認識モデルから抽出した話者埋め込みを拡散ベースで取得し,洗練された埋め込みを生成する手法を提案する。
本手法は,従来のシナリオの性能を維持しつつ,ベースラインモデルよりも19.6%の精度で認識精度を向上させることができる。
論文 参考訳(メタデータ) (2025-05-22T15:38:37Z) - Unleashing the Power of Natural Audio Featuring Multiple Sound Sources [54.38251699625379]
ユニバーサルサウンド分離は、混合音声から異なるイベントに対応するクリーンなオーディオトラックを抽出することを目的としている。
複雑な混合音声を複数の独立したトラックに分解するために,データエンジンを利用するフレームワークであるClearSepを提案する。
実験では、ClearSepは複数の音分離タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-04-24T17:58:21Z) - SoundVista: Novel-View Ambient Sound Synthesis via Visual-Acoustic Binding [51.311553815466446]
本稿では,任意のシーンの環境音を新しい視点で生成するSoundVistaを紹介する。
SoundVistaは、わずかに分散したマイクからシーンの録音を事前に取得しているので、そのシーンの音を、目に見えないターゲット視点から合成することができる。
論文 参考訳(メタデータ) (2025-04-08T00:22:16Z) - Seeing Speech and Sound: Distinguishing and Locating Audios in Visual Scenes [16.530816405275715]
本稿では,音声と非音声の両方を同時に視覚的シーン内でグラウンド化できる統一モデルを提案する。
既存のアプローチは、通常、音声または非音声のどちらかを独立に、あるいはせいぜい一緒に扱うことに限定されるが、連続的に混合しない。
論文 参考訳(メタデータ) (2025-03-24T16:56:04Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - Visual Sound Localization in the Wild by Cross-Modal Interference
Erasing [90.21476231683008]
現実のシナリオでは、オーディオは通常、オフスクリーンサウンドとバックグラウンドノイズによって汚染される。
本研究では,音声-視覚的音源定位問題に対処する干渉消去(IEr)フレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-13T21:06:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。