論文の概要: MIMII-Gen: Generative Modeling Approach for Simulated Evaluation of Anomalous Sound Detection System
- arxiv url: http://arxiv.org/abs/2409.18542v1
- Date: Fri, 27 Sep 2024 08:21:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-01 21:55:30.255439
- Title: MIMII-Gen: Generative Modeling Approach for Simulated Evaluation of Anomalous Sound Detection System
- Title(参考訳): MIMII-Gen:異常音検出システムのシミュレーション評価のための生成モデルアプローチ
- Authors: Harsh Purohit, Tomoya Nishida, Kota Dohi, Takashi Endo, Yohei Kawaguchi,
- Abstract要約: 不十分な記録と異常の不足は、堅牢な異常検出システムを開発する上で重要な課題である。
本稿では,エンコーダ・デコーダ・フレームワークを統合した遅延拡散モデルを用いて,機械音の多様な異常を生成する手法を提案する。
- 参考スコア(独自算出の注目度): 5.578413517654703
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Insufficient recordings and the scarcity of anomalies present significant challenges in developing and validating robust anomaly detection systems for machine sounds. To address these limitations, we propose a novel approach for generating diverse anomalies in machine sound using a latent diffusion-based model that integrates an encoder-decoder framework. Our method utilizes the Flan-T5 model to encode captions derived from audio file metadata, enabling conditional generation through a carefully designed U-Net architecture. This approach aids our model in generating audio signals within the EnCodec latent space, ensuring high contextual relevance and quality. We objectively evaluated the quality of our generated sounds using the Fr\'echet Audio Distance (FAD) score and other metrics, demonstrating that our approach surpasses existing models in generating reliable machine audio that closely resembles actual abnormal conditions. The evaluation of the anomaly detection system using our generated data revealed a strong correlation, with the area under the curve (AUC) score differing by 4.8\% from the original, validating the effectiveness of our generated data. These results demonstrate the potential of our approach to enhance the evaluation and robustness of anomaly detection systems across varied and previously unseen conditions. Audio samples can be found at \url{https://hpworkhub.github.io/MIMII-Gen.github.io/}.
- Abstract(参考訳): 不十分な記録と異常の不足は、機械音に対するロバストな異常検出システムの開発と検証において重要な課題となる。
これらの制約に対処するため,エンコーダ・デコーダ・フレームワークを組み込んだ潜伏拡散モデルを用いて,機械音の多様な異常を生成する手法を提案する。
提案手法では,Flan-T5モデルを用いて音声ファイルメタデータから派生したキャプションを符号化し,慎重に設計されたU-Netアーキテクチャによる条件生成を実現する。
このアプローチは,EnCodec潜在空間内で音声信号を生成する際のモデルに役立つ。
Fr'echet Audio Distance(FAD)スコアやその他の測定値を用いて、生成した音の質を客観的に評価し、実際の異常条件によく似た信頼性の高い機械音を生成する際に、既存のモデルを超えていることを示す。
その結果, 得られたデータを用いた異常検出システムの評価では, 曲線(AUC)の下の面積は, 原値と4.8倍の差がみられ, 得られたデータの有効性が検証された。
これらの結果は,異常検出システムの評価とロバスト性を高めるためのアプローチの可能性を示すものである。
オーディオサンプルは \url{https://hpworkhub.github.io/MIMII-Gen.github.io/} で見ることができる。
関連論文リスト
- SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。
従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - Do You Remember? Overcoming Catastrophic Forgetting for Fake Audio
Detection [54.20974251478516]
本稿では,破滅的な忘れを克服するために,偽音声検出のための連続学習アルゴリズムを提案する。
検出ネットワークを微調整する場合,本手法では,真の発話と偽発話の比率に応じて,重み付けの方向を適応的に計算する。
本手法は,音声の感情認識などの関連分野に容易に一般化できる。
論文 参考訳(メタデータ) (2023-08-07T05:05:49Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - The role of noise in denoising models for anomaly detection in medical
images [62.0532151156057]
病理脳病変は脳画像に多彩な外観を示す。
正規データのみを用いた教師なし異常検出手法が提案されている。
空間分解能の最適化と雑音の大きさの最適化により,異なるモデル学習体制の性能が向上することを示す。
論文 参考訳(メタデータ) (2023-01-19T21:39:38Z) - Denoising diffusion models for out-of-distribution detection [2.113925122479677]
我々は,確率拡散モデル(DDPM)を自己エンコーダの復号化として活用する。
DDPMを用いてノイズレベルの範囲の入力を再構成し,結果の多次元再構成誤差を用いてアウト・オブ・ディストリビューション入力を分類する。
論文 参考訳(メタデータ) (2022-11-14T20:35:11Z) - Decision Forest Based EMG Signal Classification with Low Volume Dataset
Augmented with Random Variance Gaussian Noise [51.76329821186873]
我々は6種類の手振りを限定的なサンプル数で分類できるモデルを作成し、より広い聴衆によく一般化する。
信号のランダムなバウンドの使用など、より基本的な手法のセットにアピールするが、これらの手法がオンライン環境で持てる力を示したいと考えている。
論文 参考訳(メタデータ) (2022-06-29T23:22:18Z) - Hierarchical Conditional Variational Autoencoder Based Acoustic Anomaly
Detection [8.136103644634348]
既存手法としては、ディープオートエンコーダ(DAE)、変分オートエンコーダ(VAE)、条件変分オートエンコーダ(CVAE)などがある。
階層型条件変分オートエンコーダ(HCVAE)と呼ばれる新しい手法を提案する。
この方法は、産業施設に関する利用可能な分類学的階層的知識を利用して、潜在空間の表現を洗練させる。
論文 参考訳(メタデータ) (2022-06-11T08:15:01Z) - Canonical Polyadic Decomposition and Deep Learning for Machine Fault
Detection [0.0]
マシンからあらゆる種類の障害を学ぶのに十分なデータを集めることは不可能である。
健康状態のみのデータを用いてトレーニングされた新しいアルゴリズムを開発し、教師なしの異常検出を行った。
これらのアルゴリズムの開発における重要な問題は、異常検出性能に影響を与える信号のノイズである。
論文 参考訳(メタデータ) (2021-07-20T14:06:50Z) - Automatic Feature Extraction for Heartbeat Anomaly Detection [7.054093620465401]
医療における異常検出の応用を目的とした、生音声の心拍音の自動抽出に着目する。
1次元非コーダ畳み込みエンコーダとウェーブネットデコーダで構成したオートエンコーダの助けを借りて,特徴を学習する。
論文 参考訳(メタデータ) (2021-02-24T13:55:24Z) - Unsupervised Anomaly Detection with Adversarial Mirrored AutoEncoders [51.691585766702744]
本稿では,識別器のミラー化ワッサースタイン損失を利用して,よりセマンティックレベルの再構築を行う逆自動エンコーダの変種を提案する。
我々は,再建基準の代替として,異常スコアの代替尺度を提案した。
提案手法は,OOD検出ベンチマークにおける異常検出の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2020-03-24T08:26:58Z) - Identifying Audio Adversarial Examples via Anomalous Pattern Detection [4.556497931273283]
音声処理システムに対する最近の敵攻撃の2つが、一部のノードにおいて、予測以上のアクティベーションをもたらすことを示す。
我々はこれらの攻撃を、良性サンプルの性能を低下させることなく、最大0.98のAUCで検出することができる。
論文 参考訳(メタデータ) (2020-02-13T12:08:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。