Fugu-MT 論文翻訳(概要): Unified AI for Accurate Audio Anomaly Detection

論文の概要: Unified AI for Accurate Audio Anomaly Detection

arxiv url: http://arxiv.org/abs/2505.23781v1
Date: Tue, 20 May 2025 16:56:08 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-08 12:40:08.582067
Title: Unified AI for Accurate Audio Anomaly Detection
Title（参考訳）: 高精度オーディオ異常検出のための統一AI
Authors: Hamideh Khaleghpour, Brett McKinney,
Abstract要約: 本稿では,高精度な音声異常検出のための統合AIフレームワークを提案する。高度なノイズ低減、特徴抽出、機械学習モデリング技術を統合する。このフレームワークはTORGOやLibriSpeechといったベンチマークデータセットで評価されている。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: This paper presents a unified AI framework for high-accuracy audio anomaly detection by integrating advanced noise reduction, feature extraction, and machine learning modeling techniques. The approach combines spectral subtraction and adaptive filtering to enhance audio quality, followed by feature extraction using traditional methods like MFCCs and deep embeddings from pre-trained models such as OpenL3. The modeling pipeline incorporates classical models (SVM, Random Forest), deep learning architectures (CNNs), and ensemble methods to boost robustness and accuracy. Evaluated on benchmark datasets including TORGO and LibriSpeech, the proposed framework demonstrates superior performance in precision, recall, and classification of slurred vs. normal speech. This work addresses challenges in noisy environments and real-time applications and provides a scalable solution for audio-based anomaly detection.
Abstract（参考訳）: 本稿では,高度なノイズ低減,特徴抽出,機械学習モデリング技術を統合することで,高精度な音声異常検出のための統合AIフレームワークを提案する。このアプローチはスペクトルサブトラクションと適応フィルタリングを組み合わせてオーディオ品質を高め、続いてMFCCのような従来の手法による特徴抽出とOpenL3のような事前訓練されたモデルからの深い埋め込みを行う。モデリングパイプラインには、古典的なモデル(SVM、ランダムフォレスト)、ディープラーニングアーキテクチャ(CNN)、堅牢性と正確性を高めるアンサンブルメソッドが含まれている。 TORGO や LibriSpeech などのベンチマークデータセットから評価し、提案フレームワークは、スラリーと通常の音声の精度、リコール、分類において優れた性能を示す。この研究は、ノイズの多い環境やリアルタイムアプリケーションにおける課題に対処し、オーディオベースの異常検出のためのスケーラブルなソリューションを提供する。

関連論文リスト

A Framework for Evaluating Faithfulness in Explainable AI for Machine Anomalous Sound Detection Using Frequency-Band Perturbation [37.2521660642532]
機械音響解析におけるXAI忠実度を評価するための新しい定量的枠組みを提案する。我々は,XAI技術が信頼性に違いがあることを示し,Occlusionは真のモデル感度と最強のアライメントを示す。
論文参考訳（メタデータ） (2026-01-26T23:06:50Z)
A Hybrid Framework for Statistical Feature Selection and Image-Based Noise-Defect Detection [55.2480439325792]
本稿では,統計的特徴選択と分類技術を統合し,欠陥検出精度を向上させるハイブリッドフレームワークを提案する。工業画像から抽出した55個の特徴を統計的手法を用いて解析した。これらの手法をフレキシブルな機械学習アプリケーションに統合することにより、検出精度を改善し、偽陽性や誤分類を減らす。
論文参考訳（メタデータ） (2024-12-11T22:12:21Z)
Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文参考訳（メタデータ） (2024-10-06T01:03:42Z)
MIMII-Gen: Generative Modeling Approach for Simulated Evaluation of Anomalous Sound Detection System [5.578413517654703]
不十分な記録と異常の不足は、堅牢な異常検出システムを開発する上で重要な課題である。本稿では,エンコーダ・デコーダ・フレームワークを統合した遅延拡散モデルを用いて,機械音の多様な異常を生成する手法を提案する。
論文参考訳（メタデータ） (2024-09-27T08:21:31Z)
Robust Learning under Hybrid Noise [24.36707245704713]
本稿では,データリカバリの観点からハイブリッドノイズに対処するため,新たな統合学習フレームワーク"Feature and Label Recovery"(FLR)を提案する。
論文参考訳（メタデータ） (2024-07-04T16:13:25Z)
Pivotal Auto-Encoder via Self-Normalizing ReLU [20.76999663290342]
トランスフォーメーション学習問題として,単一の隠蔽層スパースオートエンコーダを定式化する。本稿では,テスト時の騒音レベルに不変な予測モデルを実現する最適化問題を提案する。実験結果から, 各種ノイズに対する安定性が向上することが示唆された。
論文参考訳（メタデータ） (2024-06-23T09:06:52Z)
Bring the Noise: Introducing Noise Robustness to Pretrained Automatic Speech Recognition [13.53738829631595]
本稿では,任意のエンコーダ・デコーダアーキテクチャに適用可能なデノナイズ機能を抽出する新しい手法を提案する。我々はノイズ音声データベース(NSD)で事前プロセッサを訓練し、ノイズ入力から雑音化されたスペクトルを再構成する。クリーンコーダは音声からノイズをフィルタリングすることができ、雑音条件下で下流モデルのワード誤り率(WER)を改善できることを示す。
論文参考訳（メタデータ） (2023-09-05T11:34:21Z)
DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文参考訳（メタデータ） (2023-08-14T17:29:41Z)
Adaptive Fake Audio Detection with Low-Rank Model Squeezing [50.7916414913962]
ファインタニングのような従来の手法は計算集約的であり、既知の偽音声タイプの知識を損なう危険性がある。本稿では,新たに登場したニセモノ音声タイプに特化して,低ランク適応行列をトレーニングするコンセプトを紹介する。当社のアプローチには,ストレージメモリ要件の削減やエラー率の低下など,いくつかのメリットがあります。
論文参考訳（メタデータ） (2023-06-08T06:06:42Z)
Adaptive re-calibration of channel-wise features for Adversarial Audio Classification [0.0]
合成音声検出のための注意特徴融合を用いた特徴量の再検討を提案する。本研究では,End2EndモデルやResnetベースモデルなど,さまざまな検出手法との比較を行った。また,線形周波数ケプストラム係数 (LFCC) とメル周波数ケプストラム係数 (MFCC) の組み合わせにより,より優れた入力特徴表現が得られることを示した。
論文参考訳（メタデータ） (2022-10-21T04:21:56Z)
Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文参考訳（メタデータ） (2022-08-20T06:46:55Z)
Decision Forest Based EMG Signal Classification with Low Volume Dataset Augmented with Random Variance Gaussian Noise [51.76329821186873]
我々は6種類の手振りを限定的なサンプル数で分類できるモデルを作成し、より広い聴衆によく一般化する。信号のランダムなバウンドの使用など、より基本的な手法のセットにアピールするが、これらの手法がオンライン環境で持てる力を示したいと考えている。
論文参考訳（メタデータ） (2022-06-29T23:22:18Z)
Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文参考訳（メタデータ） (2020-09-06T13:01:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。