論文の概要: Characterizing Continual Learning Scenarios and Strategies for Audio Analysis
- arxiv url: http://arxiv.org/abs/2407.00465v1
- Date: Sat, 29 Jun 2024 15:21:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 03:06:00.777301
- Title: Characterizing Continual Learning Scenarios and Strategies for Audio Analysis
- Title(参考訳): 音声分析のための連続学習シナリオと戦略の特徴付け
- Authors: Ruchi Bhatt, Pratibha Kumari, Dwarikanath Mahapatra, Abdulmotaleb El Saddik, Mukesh Saini,
- Abstract要約: 本稿では,音声分析における継続学習(CL)のアプローチを特徴付ける。
オーディオ分析用のCLデータセットがないため、DCASE 2020から2023データセットを使用して、オーディオベースの監視タスクのためのさまざまなCLシナリオを作成します。
EWC, LwF, SI, GEM, A-GEM, GDumb, Replay, Naive, 累積的, 共同トレーニングなどのCLおよび非CLアプローチについて検討した。
- 参考スコア(独自算出の注目度): 14.96220647325481
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio analysis is useful in many application scenarios. The state-of-the-art audio analysis approaches assume that the data distribution at training and deployment time will be the same. However, due to various real-life environmental factors, the data may encounter drift in its distribution or can encounter new classes in the late future. Thus, a one-time trained model might not perform adequately. In this paper, we characterize continual learning (CL) approaches in audio analysis. In this paper, we characterize continual learning (CL) approaches, intended to tackle catastrophic forgetting arising due to drifts. As there is no CL dataset for audio analysis, we use DCASE 2020 to 2023 datasets to create various CL scenarios for audio-based monitoring tasks. We have investigated the following CL and non-CL approaches: EWC, LwF, SI, GEM, A-GEM, GDumb, Replay, Naive, cumulative, and joint training. The study is very beneficial for researchers and practitioners working in the area of audio analysis for developing adaptive models. We observed that Replay achieved better results than other methods in the DCASE challenge data. It achieved an accuracy of 70.12% for the domain incremental scenario and an accuracy of 96.98% for the class incremental scenario.
- Abstract(参考訳): 音声分析は多くのアプリケーションシナリオで有用である。
最先端のオーディオ分析アプローチでは、トレーニングとデプロイメント時のデータの分散は同じであると仮定している。
しかし、様々な実生活環境要因により、データは分布のドリフトに遭遇したり、将来新しいクラスに遭遇する可能性がある。
したがって、一度訓練されたモデルでは十分な性能が得られない。
本稿では,音声分析における継続学習(CL)のアプローチを特徴付ける。
本稿では,漂流による破滅的な忘れ物に対処することを目的とした連続学習(CL)アプローチを特徴付ける。
オーディオ分析用のCLデータセットがないため、DCASE 2020から2023データセットを使用して、オーディオベースの監視タスクのためのさまざまなCLシナリオを作成します。
EWC, LwF, SI, GEM, A-GEM, GDumb, Replay, Naive, 累積的, 共同トレーニングなどのCLおよび非CLアプローチについて検討した。
この研究は、適応モデルを開発するための音声分析の分野で働く研究者や実践者にとって非常に有益である。
我々はReplayがDCASEチャレンジデータにおける他の手法よりも優れた結果を得たことを観察した。
ドメインインクリメンタルシナリオの精度は70.12%、クラスインクリメンタルシナリオの精度は96.98%に達した。
関連論文リスト
- Exploring Pathological Speech Quality Assessment with ASR-Powered Wav2Vec2 in Data-Scarce Context [7.567181073057191]
本稿では,データ不足にもかかわらずセグメントではなく,音声レベルで学習する手法を提案する。
その結果, ASR に基づく Wav2Vec2 モデルが最高の結果をもたらし, ASR と音声品質評価との間に強い相関関係があることが示唆された。
論文 参考訳(メタデータ) (2024-03-29T13:59:34Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - VI-PANN: Harnessing Transfer Learning and Uncertainty-Aware Variational
Inference for Improved Generalization in Audio Pattern Recognition [0.40964539027092917]
変動予測事前学習型音声ニューラルネットワーク(VI-PANN)を提案する。
我々は、VI-PANNから他の下流音響分類タスクに知識を移す際に生じる不確実性の質を評価する。
論文 参考訳(メタデータ) (2024-01-10T19:55:44Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - Understanding In-Context Learning via Supportive Pretraining Data [55.648777340129364]
In-context Learning (ICL)は、推論時にいくつかの例を示すだけで、様々なNLPタスクにおける言語モデルの性能を改善する。
ICLの能力がなぜ出現するかはよく分かっていないが、モデルがそのようなデモで特別に訓練されたことはない。
我々の研究は、インスタンスレベルの事前学習データを分析して、ICLを理解するための第一歩を踏み出した。
論文 参考訳(メタデータ) (2023-06-26T22:14:04Z) - Leveraging Pre-trained AudioLDM for Sound Generation: A Benchmark Study [51.42020333199243]
本稿では,AudioLDMを用いた音声生成における事前学習のメリットについて検討する。
本研究では,事前学習したAudioLDMの利点,特にデータ共有シナリオの利点を実証する。
様々な頻繁に使用されるデータセットに対して,音生成タスクをベンチマークする。
論文 参考訳(メタデータ) (2023-03-07T12:49:45Z) - Continual Learning for On-Device Speech Recognition using Disentangled
Conformers [54.32320258055716]
本稿では,LibriVoxオーディオブックから派生した話者固有領域適応のための連続学習ベンチマークを提案する。
本稿では,DistangledCLと呼ばれる計算効率のよい連続学習アルゴリズムを提案する。
実験の結果, DisConformer モデルは一般的な ASR のベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-02T18:58:51Z) - Segment-level Metric Learning for Few-shot Bioacoustic Event Detection [56.59107110017436]
本稿では,モデル最適化時の肯定的事象と否定的事象の両方を利用するセグメントレベルの数ショット学習フレームワークを提案する。
本システムでは,DCASE2022チャレンジタスク5(DCASE2022-T5)のF値62.73の検証を行い,ベースラインプロトタイプネットワーク34.02の性能を大きなマージンで向上させる。
論文 参考訳(メタデータ) (2022-07-15T22:41:30Z) - Foundational Models for Continual Learning: An Empirical Study of Latent
Replay [17.322679682451597]
本稿では,下流の連続学習シナリオの基礎として,事前学習型視覚モデルの有効性について検討する。
大規模ベンチマークシナリオにおける各種事前学習モデルの有効性を,潜時および生データ空間におけるバニラ再生設定と比較した。
論文 参考訳(メタデータ) (2022-04-30T19:11:37Z) - TASK3 DCASE2021 Challenge: Sound event localization and detection using
squeeze-excitation residual CNNs [4.4973334555746]
この調査は、昨年同じチームが実施した調査に基づいています。
この手法がそれぞれのデータセットをどのように改善するかを研究することが決定された。
この修正は,MICデータセットを用いたベースラインと比較して,システム性能の向上を示す。
論文 参考訳(メタデータ) (2021-07-30T11:34:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。