論文の概要: Unified AI for Accurate Audio Anomaly Detection
- arxiv url: http://arxiv.org/abs/2505.23781v1
- Date: Tue, 20 May 2025 16:56:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-08 12:40:08.582067
- Title: Unified AI for Accurate Audio Anomaly Detection
- Title(参考訳): 高精度オーディオ異常検出のための統一AI
- Authors: Hamideh Khaleghpour, Brett McKinney,
- Abstract要約: 本稿では,高精度な音声異常検出のための統合AIフレームワークを提案する。
高度なノイズ低減、特徴抽出、機械学習モデリング技術を統合する。
このフレームワークはTORGOやLibriSpeechといったベンチマークデータセットで評価されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper presents a unified AI framework for high-accuracy audio anomaly detection by integrating advanced noise reduction, feature extraction, and machine learning modeling techniques. The approach combines spectral subtraction and adaptive filtering to enhance audio quality, followed by feature extraction using traditional methods like MFCCs and deep embeddings from pre-trained models such as OpenL3. The modeling pipeline incorporates classical models (SVM, Random Forest), deep learning architectures (CNNs), and ensemble methods to boost robustness and accuracy. Evaluated on benchmark datasets including TORGO and LibriSpeech, the proposed framework demonstrates superior performance in precision, recall, and classification of slurred vs. normal speech. This work addresses challenges in noisy environments and real-time applications and provides a scalable solution for audio-based anomaly detection.
- Abstract(参考訳): 本稿では,高度なノイズ低減,特徴抽出,機械学習モデリング技術を統合することで,高精度な音声異常検出のための統合AIフレームワークを提案する。
このアプローチはスペクトルサブトラクションと適応フィルタリングを組み合わせてオーディオ品質を高め、続いてMFCCのような従来の手法による特徴抽出とOpenL3のような事前訓練されたモデルからの深い埋め込みを行う。
モデリングパイプラインには、古典的なモデル(SVM、ランダムフォレスト)、ディープラーニングアーキテクチャ(CNN)、堅牢性と正確性を高めるアンサンブルメソッドが含まれている。
TORGO や LibriSpeech などのベンチマークデータセットから評価し、提案フレームワークは、スラリーと通常の音声の精度、リコール、分類において優れた性能を示す。
この研究は、ノイズの多い環境やリアルタイムアプリケーションにおける課題に対処し、オーディオベースの異常検出のためのスケーラブルなソリューションを提供する。
関連論文リスト
- A Hybrid Framework for Statistical Feature Selection and Image-Based Noise-Defect Detection [55.2480439325792]
本稿では,統計的特徴選択と分類技術を統合し,欠陥検出精度を向上させるハイブリッドフレームワークを提案する。
工業画像から抽出した55個の特徴を統計的手法を用いて解析した。
これらの手法をフレキシブルな機械学習アプリケーションに統合することにより、検出精度を改善し、偽陽性や誤分類を減らす。
論文 参考訳(メタデータ) (2024-12-11T22:12:21Z) - Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。
従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - MIMII-Gen: Generative Modeling Approach for Simulated Evaluation of Anomalous Sound Detection System [5.578413517654703]
不十分な記録と異常の不足は、堅牢な異常検出システムを開発する上で重要な課題である。
本稿では,エンコーダ・デコーダ・フレームワークを統合した遅延拡散モデルを用いて,機械音の多様な異常を生成する手法を提案する。
論文 参考訳(メタデータ) (2024-09-27T08:21:31Z) - Robust Learning under Hybrid Noise [24.36707245704713]
本稿では,データリカバリの観点からハイブリッドノイズに対処するため,新たな統合学習フレームワーク"Feature and Label Recovery"(FLR)を提案する。
論文 参考訳(メタデータ) (2024-07-04T16:13:25Z) - Pivotal Auto-Encoder via Self-Normalizing ReLU [20.76999663290342]
トランスフォーメーション学習問題として,単一の隠蔽層スパースオートエンコーダを定式化する。
本稿では,テスト時の騒音レベルに不変な予測モデルを実現する最適化問題を提案する。
実験結果から, 各種ノイズに対する安定性が向上することが示唆された。
論文 参考訳(メタデータ) (2024-06-23T09:06:52Z) - Bring the Noise: Introducing Noise Robustness to Pretrained Automatic
Speech Recognition [13.53738829631595]
本稿では,任意のエンコーダ・デコーダアーキテクチャに適用可能なデノナイズ機能を抽出する新しい手法を提案する。
我々はノイズ音声データベース(NSD)で事前プロセッサを訓練し、ノイズ入力から雑音化されたスペクトルを再構成する。
クリーンコーダは音声からノイズをフィルタリングすることができ、雑音条件下で下流モデルのワード誤り率(WER)を改善できることを示す。
論文 参考訳(メタデータ) (2023-09-05T11:34:21Z) - Adaptive re-calibration of channel-wise features for Adversarial Audio
Classification [0.0]
合成音声検出のための注意特徴融合を用いた特徴量の再検討を提案する。
本研究では,End2EndモデルやResnetベースモデルなど,さまざまな検出手法との比較を行った。
また,線形周波数ケプストラム係数 (LFCC) とメル周波数ケプストラム係数 (MFCC) の組み合わせにより,より優れた入力特徴表現が得られることを示した。
論文 参考訳(メタデータ) (2022-10-21T04:21:56Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - Decision Forest Based EMG Signal Classification with Low Volume Dataset
Augmented with Random Variance Gaussian Noise [51.76329821186873]
我々は6種類の手振りを限定的なサンプル数で分類できるモデルを作成し、より広い聴衆によく一般化する。
信号のランダムなバウンドの使用など、より基本的な手法のセットにアピールするが、これらの手法がオンライン環境で持てる力を示したいと考えている。
論文 参考訳(メタデータ) (2022-06-29T23:22:18Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。