論文の概要: SynSonic: Augmenting Sound Event Detection through Text-to-Audio Diffusion ControlNet and Effective Sample Filtering
- arxiv url: http://arxiv.org/abs/2509.18603v1
- Date: Tue, 23 Sep 2025 03:48:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.685617
- Title: SynSonic: Augmenting Sound Event Detection through Text-to-Audio Diffusion ControlNet and Effective Sample Filtering
- Title(参考訳): SynSonic: Text-to-Audio Diffusion ControlNetと有効サンプルフィルタリングによる音声イベントの検出
- Authors: Jiarui Hai, Mounya Elhilali,
- Abstract要約: 本研究では,音事象検出に適したデータ拡張手法であるSynSonicを提案する。
そこで,SynSonicはPSDS1とPSDS2を改良し,時間的局所化と音響クラス識別の両面で改善した。
- 参考スコア(独自算出の注目度): 13.592413960039044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data synthesis and augmentation are essential for Sound Event Detection (SED) due to the scarcity of temporally labeled data. While augmentation methods like SpecAugment and Mix-up can enhance model performance, they remain constrained by the diversity of existing samples. Recent generative models offer new opportunities, yet their direct application to SED is challenging due to the lack of precise temporal annotations and the risk of introducing noise through unreliable filtering. To address these challenges and enable generative-based augmentation for SED, we propose SynSonic, a data augmentation method tailored for this task. SynSonic leverages text-to-audio diffusion models guided by an energy-envelope ControlNet to generate temporally coherent sound events. A joint score filtering strategy with dual classifiers ensures sample quality, and we explore its practical integration into training pipelines. Experimental results show that SynSonic improves Polyphonic Sound Detection Scores (PSDS1 and PSDS2), enhancing both temporal localization and sound class discrimination.
- Abstract(参考訳): 時間ラベル付きデータの不足のため,音声イベント検出(SED)にはデータ合成と拡張が不可欠である。
SpecAugmentやMix-upのような拡張メソッドはモデルのパフォーマンスを向上させることができるが、既存のサンプルの多様性に制約される。
最近の生成モデルは、新しい機会を提供するが、それらのSEDへの直接的な適用は、正確な時間的アノテーションの欠如と、信頼性の低いフィルタリングによるノイズ導入のリスクのために困難である。
これらの課題に対処し、SEDのための生成ベースの拡張を可能にするために、このタスクに適したデータ拡張手法であるSynSonicを提案する。
SynSonicは、Energy-Envelope ControlNetによって導かれるテキストからオーディオへの拡散モデルを利用して、時間的に一貫性のある音声イベントを生成する。
二重分類器を用いた共同スコアフィルタリング手法により,サンプルの品質が保証され,訓練パイプラインへの実践的な統合が検討される。
実験結果から,SynSonicはポリフォニック・サウンド検出スコア(PSDS1,PSDS2)を改良し,時間的局所化と音響クラス識別の両面で向上した。
関連論文リスト
- Synthio: Augmenting Small-Scale Audio Classification Datasets with Synthetic Data [69.7174072745851]
音声分類データセットを合成データで拡張する新しい手法であるSynthioを提案する。
最初の課題を克服するために、好みの最適化を用いて、T2Aモデルの世代と小規模データセットを整列する。
2つ目の課題に対処するために,大規模言語モデルの推論能力を活用する新しいキャプション生成手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T22:05:36Z) - SpecDiff-GAN: A Spectrally-Shaped Noise Diffusion GAN for Speech and
Music Synthesis [0.0]
本稿では,HiFi-GANに基づくニューラルボコーダSpecDiff-GANを紹介する。
いくつかのデータセットに対して,提案モデルによる音声合成と音楽合成の利点を示す。
論文 参考訳(メタデータ) (2024-01-30T09:17:57Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - Boosting Fast and High-Quality Speech Synthesis with Linear Diffusion [85.54515118077825]
本稿では, 常微分方程式に基づく線形拡散モデル(LinDiff)を提案する。
計算複雑性を低減するため、LinDiffでは、入力信号を小さなパッチに分割するパッチベースの処理アプローチを採用している。
我々のモデルは、より高速な合成速度で自己回帰モデルに匹敵する品質の音声を合成することができる。
論文 参考訳(メタデータ) (2023-06-09T07:02:43Z) - Using growth transform dynamical systems for spatio-temporal data
sonification [9.721342507747158]
有意義な音声シグネチャで情報を符号化するソニフィケーションは、人間のループ内決定のための従来の可視化手法の強化や置き換えにいくつかの利点がある。
本稿では,複雑な成長変換力学系モデルを用いて高次元データを音化するための新しい枠組みを提案する。
本アルゴリズムは,学習タスクや予測タスクの根底にあるデータと最適化パラメータを入力として,ユーザが定義した心理パラメータと組み合わせる。
論文 参考訳(メタデータ) (2021-08-21T16:25:59Z) - CRASH: Raw Audio Score-based Generative Modeling for Controllable
High-resolution Drum Sound Synthesis [0.0]
非条件生音声合成のための新しいスコアベース生成モデルを提案する。
提案手法は,よりフレキシブルな生成機能を提供しながら,生音声におけるGANベースの手法とのギャップを埋める。
論文 参考訳(メタデータ) (2021-06-14T13:48:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。