論文の概要: Improving Anomalous Sound Detection via Low-Rank Adaptation Fine-Tuning of Pre-Trained Audio Models
- arxiv url: http://arxiv.org/abs/2409.07016v1
- Date: Wed, 11 Sep 2024 05:19:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-12 15:36:35.546779
- Title: Improving Anomalous Sound Detection via Low-Rank Adaptation Fine-Tuning of Pre-Trained Audio Models
- Title(参考訳): 事前学習音声モデルの低域適応微調整による異常音検出の改善
- Authors: Xinhu Zheng, Anbai Jiang, Bing Han, Yanmin Qian, Pingyi Fan, Jia Liu, Wei-Qiang Zhang,
- Abstract要約: 本稿では,音声事前学習モデルを利用した頑健なAnomalous Sound Detection (ASD)モデルを提案する。
マシン操作データを用いてこれらのモデルを微調整し、データ拡張戦略としてSpecAugを使用します。
実験では,従来のSOTAモデルと比較して6.48%の大幅な改善が得られた。
- 参考スコア(独自算出の注目度): 45.90037602677841
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Anomalous Sound Detection (ASD) has gained significant interest through the application of various Artificial Intelligence (AI) technologies in industrial settings. Though possessing great potential, ASD systems can hardly be readily deployed in real production sites due to the generalization problem, which is primarily caused by the difficulty of data collection and the complexity of environmental factors. This paper introduces a robust ASD model that leverages audio pre-trained models. Specifically, we fine-tune these models using machine operation data, employing SpecAug as a data augmentation strategy. Additionally, we investigate the impact of utilizing Low-Rank Adaptation (LoRA) tuning instead of full fine-tuning to address the problem of limited data for fine-tuning. Our experiments on the DCASE2023 Task 2 dataset establish a new benchmark of 77.75% on the evaluation set, with a significant improvement of 6.48% compared with previous state-of-the-art (SOTA) models, including top-tier traditional convolutional networks and speech pre-trained models, which demonstrates the effectiveness of audio pre-trained models with LoRA tuning. Ablation studies are also conducted to showcase the efficacy of the proposed scheme.
- Abstract(参考訳): 異常音検出(ASD)は、産業環境における様々な人工知能(AI)技術の適用を通じて大きな関心を集めている。
大きな可能性を秘めているが,データ収集の難しさや環境要因の複雑さが主な原因である一般化問題により,実際の生産現場にASDシステムを簡単に展開することは困難である。
本稿では,オーディオ事前学習モデルを活用した頑健なASDモデルを提案する。
具体的には,これらのモデルをマシン操作データを用いて微調整し,データ拡張戦略としてSpecAugを用いる。
さらに,Low-Rank Adaptation (LoRA) チューニングをフル微調整の代わりに活用することによる,微調整のための限られたデータの問題に対処する効果について検討する。
従来型の畳み込みネットワークや音声事前学習モデルなど,従来のSOTAモデルと比較して6.48%の大幅な改善を実現し,LoRAチューニングによる音声事前学習モデルの有効性を実証した。
また,提案手法の有効性を示すためのアブレーション研究も行った。
関連論文リスト
- Acoustic Model Optimization over Multiple Data Sources: Merging and Valuation [13.009945735929445]
本稿では,音声認識分野の課題を解くための新しいパラダイムを提案する。
最初の段階では、完全な音声データの異なるサブセットに基づいて複数の音響モデルを訓練する。
第2段階では、2つの新しいアルゴリズムを用いて高品質な音響モデルを生成する。
論文 参考訳(メタデータ) (2024-10-21T03:48:23Z) - Towards Robust Transcription: Exploring Noise Injection Strategies for Training Data Augmentation [55.752737615873464]
本研究では,SNR(Signal-to-Noise Ratio)レベルにおける白色雑音の影響について検討した。
この研究は、様々な音環境における一貫した性能を維持する転写モデルの開発に向けた予備的な研究として、貴重な洞察を与えてくれることを願っている。
論文 参考訳(メタデータ) (2024-10-18T02:31:36Z) - DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception [78.26734070960886]
現在の知覚モデルは、リソース集約的なデータセットに大きく依存している。
セグメンテーションを通じて知覚認識損失(P.A.損失)を導入し、品質と制御性の両方を改善した。
本手法は,世代間における知覚認識属性(P.A. Attr)の抽出と利用により,データ拡張をカスタマイズする。
論文 参考訳(メタデータ) (2024-03-20T04:58:03Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Not All Steps are Equal: Efficient Generation with Progressive Diffusion
Models [62.155612146799314]
ステップ適応トレーニングと呼ばれる新しい2段階のトレーニング戦略を提案する。
初期段階では、ベース・デノナイジング・モデルはすべてのタイムステップを包含するように訓練される。
タイムステップを別々のグループに分割し、各グループ内でモデルを微調整して、特殊な認知機能を実現します。
論文 参考訳(メタデータ) (2023-12-20T03:32:58Z) - Fine tuning Pre trained Models for Robustness Under Noisy Labels [34.68018860186995]
トレーニングデータセットにノイズの多いラベルが存在することは、機械学習モデルのパフォーマンスに大きな影響を及ぼす可能性がある。
我々は、事前学習されたモデルの事前知識を頑健かつ効率的に伝達するTURNと呼ばれる新しいアルゴリズムを導入する。
論文 参考訳(メタデータ) (2023-10-24T20:28:59Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - Impact of Dataset on Acoustic Models for Automatic Speech Recognition [0.0]
音声認識において、GMM-HMMは音響モデリングに広く用いられてきた。
GMMモデルは、ハイブリッドディープニューラルネットワークモデルのトレーニングデータのアライメントを作成するために広く使用されている。
本研究の目的は,データセットサイズの変化が各種GMM-HMM音響モデルの性能に与える影響を検討することである。
論文 参考訳(メタデータ) (2022-03-25T11:41:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。