論文の概要: Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining
- arxiv url: http://arxiv.org/abs/2304.03588v2
- Date: Mon, 10 Apr 2023 04:04:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-11 11:44:26.013035
- Title: Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining
- Title(参考訳): 機械IDを用いたコントラスト学習事前学習による音声表現による異常音検出
- Authors: Jian Guan, Feiyang Xiao, Youde Liu, Qiaoxi Zhu, Wenwu Wang
- Abstract要約: コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 52.191658157204856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing contrastive learning methods for anomalous sound detection refine
the audio representation of each audio sample by using the contrast between the
samples' augmentations (e.g., with time or frequency masking). However, they
might be biased by the augmented data, due to the lack of physical properties
of machine sound, thereby limiting the detection performance. This paper uses
contrastive learning to refine audio representations for each machine ID,
rather than for each audio sample. The proposed two-stage method uses
contrastive learning to pretrain the audio representation model by
incorporating machine ID and a self-supervised ID classifier to fine-tune the
learnt model, while enhancing the relation between audio features from the same
ID. Experiments show that our method outperforms the state-of-the-art methods
using contrastive learning or self-supervised classification in overall anomaly
detection performance and stability on DCASE 2020 Challenge Task2 dataset.
- Abstract(参考訳): 異常音検出のための既存のコントラスト学習手法は、サンプルの補間(例えば、時間または周波数マスキング)のコントラストを用いて、各音声サンプルの音声表現を洗練する。
しかし、機械音の物理的特性の欠如により検出性能が制限されるため、強化されたデータに偏っている可能性がある。
本稿では,コントラスト学習を用いて,各音声サンプルではなく,各マシンidの音声表現を洗練する。
提案する二段階学習法は、機械idと自己教師付きid分類器を組み込んだ音声表現モデルの事前学習にコントラスト学習を用いるとともに、同一のidから音声特徴の関係性を高める。
実験の結果,本手法はDCASE 2020 Challenge Task2データセットの総合異常検出性能と安定性において,コントラスト学習や自己教師付き分類を用いた最先端手法よりも優れていた。
関連論文リスト
- A contrastive-learning approach for auditory attention detection [11.28441753596964]
本稿では,参加音声信号の潜在表現と対応する脳波信号との差を最小化するために,自己教師付き学習に基づく手法を提案する。
この結果と以前に公表した手法を比較し,検証セット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-10-24T03:13:53Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - AudioFormer: Audio Transformer learns audio feature representations from
discrete acoustic codes [6.375996974877916]
離散音響符号の取得により音声特徴表現を学習するAudioFormerという手法を提案する。
以上の結果から,AudioFormerはモノモーダル音声分類モデルに比べて性能が大幅に向上したことが示された。
論文 参考訳(メタデータ) (2023-08-14T15:47:25Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - Data Augmentation based Consistency Contrastive Pre-training for
Automatic Speech Recognition [18.303072203996347]
自動音声認識(ASR)タスクにおいて、自己教師付き音響事前学習は驚くべき結果を得た。
音響事前学習法の多くは、コントラスト学習を用いて音響表現を学習する。
本稿では,音声事前学習のためのデータ拡張を利用して,新しいコントラスト学習法(CCL)を設計する。
論文 参考訳(メタデータ) (2021-12-23T13:23:17Z) - Audiovisual transfer learning for audio tagging and sound event
detection [21.574781022415372]
本研究では,2つの音声認識問題,すなわち音声タグ付けと音声イベント検出における伝達学習の利点について検討する。
我々は、スペクトル音響入力のみを利用したベースラインシステムを適用し、事前訓練された聴覚と視覚的特徴を利用する。
オーディオヴィジュアルなマルチラベルデータセット上で,これらのモデルを用いて実験を行う。
論文 参考訳(メタデータ) (2021-06-09T21:55:05Z) - Self-Supervised Learning of Audio-Visual Objects from Video [108.77341357556668]
本稿では,音源の局所化とグループ化,時間とともに情報収集を行うための光フローに着目したモデルを提案する。
本稿では,4つの下流音声指向タスクにおいて,モデルが学習する音声-視覚オブジェクトの埋め込みの有効性を実証する。
論文 参考訳(メタデータ) (2020-08-10T16:18:01Z) - COALA: Co-Aligned Autoencoders for Learning Semantically Enriched Audio
Representations [32.456824945999465]
本稿では,学習した音声とその関連タグの潜在表現を調整し,音声表現を学習する手法を提案する。
組込みモデルの性能評価を行い,その性能を3つの異なるタスクにおける特徴抽出器として評価した。
論文 参考訳(メタデータ) (2020-06-15T13:17:18Z) - Audio Impairment Recognition Using a Correlation-Based Feature
Representation [85.08880949780894]
本稿では,特徴対の相関に基づく手作り特徴の新しい表現を提案する。
実験段階において,コンパクトな特徴次元と計算速度の向上の観点から,優れた性能を示す。
論文 参考訳(メタデータ) (2020-03-22T13:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。