論文の概要: TLDiffGAN: A Latent Diffusion-GAN Framework with Temporal Information Fusion for Anomalous Sound Detection
- arxiv url: http://arxiv.org/abs/2602.01060v1
- Date: Sun, 01 Feb 2026 07:04:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.56665
- Title: TLDiffGAN: A Latent Diffusion-GAN Framework with Temporal Information Fusion for Anomalous Sound Detection
- Title(参考訳): TLDiffGAN: 異常音検出のための時間情報融合を用いた潜時拡散型GANフレームワーク
- Authors: Chengyuan Ma, Peng Jia, Hongyue Guo, Wenming Yang,
- Abstract要約: 本稿では,2つの補足枝からなる新しいフレームワークTLDiffGANを提案する。
あるブランチは、逆行訓練のために潜伏拡散モデルをGANジェネレータに組み込むことで、判別器のタスクをより困難にし、生成したサンプルの品質を向上させる。
また,よく見落とされがちな微妙で局所的な時間パターンに対する感度を高めるために,TMixup Spectrogram Augmentation法を導入する。
- 参考スコア(独自算出の注目度): 39.234515088121086
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Existing generative models for unsupervised anomalous sound detection are limited by their inability to fully capture the complex feature distribution of normal sounds, while the potential of powerful diffusion models in this domain remains largely unexplored. To address this challenge, we propose a novel framework, TLDiffGAN, which consists of two complementary branches. One branch incorporates a latent diffusion model into the GAN generator for adversarial training, thereby making the discriminator's task more challenging and improving the quality of generated samples. The other branch leverages pretrained audio model encoders to extract features directly from raw audio waveforms for auxiliary discrimination. This framework effectively captures feature representations of normal sounds from both raw audio and Mel spectrograms. Moreover, we introduce a TMixup spectrogram augmentation technique to enhance sensitivity to subtle and localized temporal patterns that are often overlooked. Extensive experiments on the DCASE 2020 Challenge Task 2 dataset demonstrate the superior detection performance of TLDiffGAN, as well as its strong capability in anomalous time-frequency localization.
- Abstract(参考訳): 教師なしの異常音検出のための既存の生成モデルは、通常の音の複雑な特徴分布を完全に捉えることができないために制限されるが、この領域における強力な拡散モデルのポテンシャルは、ほとんど未解明のままである。
この課題に対処するために,2つの補足枝からなる新しいフレームワーク TLDiffGAN を提案する。
あるブランチは、逆行訓練のために潜伏拡散モデルをGANジェネレータに組み込むことで、判別器のタスクをより困難にし、生成したサンプルの品質を向上させる。
他方のブランチは、事前訓練されたオーディオモデルエンコーダを利用して、生の音声波形から直接特徴を抽出し、補助的な識別を行う。
このフレームワークは、生音声とメルスペクトルの両方から、正常な音の特徴表現を効果的にキャプチャする。
さらに,TMixup Spectrogram Augmentation法を導入し,しばしば見落とされがちな微妙で局所的な時間パターンに対する感度を高める。
DCASE 2020 Challenge Task 2データセットの大規模な実験は、TLDiffGANの優れた検出性能と、異常な時間周波数ローカライゼーションの強い能力を示す。
関連論文リスト
- Prior-Guided DETR for Ultrasound Nodule Detection [12.28367495765275]
超音波検出に特化して設計された事前誘導型DETRフレームワークを提案する。
提案するフレームワークは、純粋にデータ駆動の機能学習に頼るのではなく、ネットワークの複数の段階で異なる事前知識を段階的に取り入れている。
2つの臨床的に収集された甲状腺超音波データセットを用いて行った実験により,提案法は18種類の検出法と比較して精度が高いことが示された。
論文 参考訳(メタデータ) (2026-01-05T15:32:58Z) - Noise-to-Notes: Diffusion-based Generation and Refinement for Automatic Drum Transcription [6.453619274330351]
オートマチック・ドラム・リテラル(ADT)は、伝統的に、オーディオ・スペクトログラムからドラムイベントを予測する識別タスクとして定式化されている。
ノイズ・トゥ・ノート(N2N)は、拡散モデルを利用して、音響条件付きガウス雑音を関連する速度でドラムイベントに変換するフレームワークである。
N2Nは、複数のADTベンチマークにまたがって、最先端のパフォーマンスを新たに確立する。
論文 参考訳(メタデータ) (2025-09-26T01:12:43Z) - Frequency Domain-Based Diffusion Model for Unpaired Image Dehazing [92.61216319417208]
そこで本稿では,未確認データにおける有益な知識を十分に活用するための,新しい周波数領域ベース拡散モデルを提案する。
拡散モデル(DM)が示す強い生成能力に着想を得て,周波数領域再構成の観点からデハージング課題に取り組む。
論文 参考訳(メタデータ) (2025-07-02T01:22:46Z) - Frequency-Guided Diffusion Model with Perturbation Training for Skeleton-Based Video Anomaly Detection [43.49146665908238]
ビデオ異常検出(VAD)はコンピュータビジョンにおいて不可欠だが複雑なオープンセットタスクである。
摂動トレーニングを用いた新しい周波数誘導拡散モデルを提案する。
2次元離散コサイン変換(DCT)を用いて、高周波(局所)と低周波(球状)の運動成分を分離する。
論文 参考訳(メタデータ) (2024-12-04T05:43:53Z) - ASD-Diffusion: Anomalous Sound Detection with Diffusion Models [6.659078422704148]
実世界の工場において, 拡散モデル(ASD-Diffusion)に基づく異常音検出法が提案されている。
再構成後の入力から大きくずれた異常を検出するために, 後処理異常フィルタアルゴリズムを提案する。
暗黙的拡散モデルを導入し、推論速度を高速化する。
論文 参考訳(メタデータ) (2024-09-24T10:42:23Z) - DiffATR: Diffusion-based Generative Modeling for Audio-Text Retrieval [49.076590578101985]
ノイズから関節分布を生成する拡散型ATRフレームワーク(DiffATR)を提案する。
優れたパフォーマンスを持つAudioCapsとClothoデータセットの実験は、我々のアプローチの有効性を検証する。
論文 参考訳(メタデータ) (2024-09-16T06:33:26Z) - SpecDiff-GAN: A Spectrally-Shaped Noise Diffusion GAN for Speech and
Music Synthesis [0.0]
本稿では,HiFi-GANに基づくニューラルボコーダSpecDiff-GANを紹介する。
いくつかのデータセットに対して,提案モデルによる音声合成と音楽合成の利点を示す。
論文 参考訳(メタデータ) (2024-01-30T09:17:57Z) - DiffusionAD: Norm-guided One-step Denoising Diffusion for Anomaly Detection [80.20339155618612]
DiffusionADは、再構成サブネットワークとセグメンテーションサブネットワークからなる、新しい異常検出パイプラインである。
高速なワンステップデノゲーションパラダイムは、同等の再現品質を維持しながら、数百倍の加速を達成する。
異常の出現の多様性を考慮し、複数のノイズスケールの利点を統合するためのノルム誘導パラダイムを提案する。
論文 参考訳(メタデータ) (2023-03-15T16:14:06Z) - On the Frequency Bias of Generative Models [61.60834513380388]
我々は、最先端のGANトレーニングにおいて、高周波アーティファクトに対する提案手法を解析した。
既存のアプローチでは、スペクトルアーティファクトを完全に解決できないことが分かっています。
以上の結果から,識別能力の向上に大きな可能性があることが示唆された。
論文 参考訳(メタデータ) (2021-11-03T18:12:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。