論文の概要: Maximizing Audio Event Detection Model Performance on Small Datasets
Through Knowledge Transfer, Data Augmentation, And Pretraining: An Ablation
Study
- arxiv url: http://arxiv.org/abs/2202.03514v1
- Date: Mon, 7 Feb 2022 20:57:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-10 06:15:43.893903
- Title: Maximizing Audio Event Detection Model Performance on Small Datasets
Through Knowledge Transfer, Data Augmentation, And Pretraining: An Ablation
Study
- Title(参考訳): 知識伝達, データ拡張, 事前学習による小型データセットにおける音声事象検出モデルの性能の最大化
- Authors: Daniel Tompkins, Kshitiz Kumar, Jian Wu
- Abstract要約: Xceptionモデルは、音声イベント検出のためのESC-50データセット上で、最先端(SOTA)の精度に達する。
約3分の1のパラメータでSOTA性能に近づいたより小さなXceptionモデルが提示される。
- 参考スコア(独自算出の注目度): 13.382028735430993
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An Xception model reaches state-of-the-art (SOTA) accuracy on the ESC-50
dataset for audio event detection through knowledge transfer from ImageNet
weights, pretraining on AudioSet, and an on-the-fly data augmentation pipeline.
This paper presents an ablation study that analyzes which components contribute
to the boost in performance and training time. A smaller Xception model is also
presented which nears SOTA performance with almost a third of the parameters.
- Abstract(参考訳): Xceptionモデルは、ImageNet重みからの知識伝達、AudioSetでの事前トレーニング、およびオンザフライデータ拡張パイプラインによるオーディオイベント検出のためのESC-50データセットの最先端(SOTA)精度に達する。
本稿では,パフォーマンス向上とトレーニング時間向上に寄与するコンポーネントの分析を行うアブレーション研究について述べる。
より小さなXceptionモデルも提示され、パラメータの約3分の1でSOTAのパフォーマンスに近づいた。
関連論文リスト
- Leveraging Reverberation and Visual Depth Cues for Sound Event Localization and Detection with Distance Estimation [3.2472293599354596]
本報告では,DCASE2024タスク3の課題として,音源距離推定による音声・音声イベントの定位と検出を行うシステムについて述べる。
本モデルでは,ResNet50で抽出したビデオとオーディオの埋め込みを,SELDで事前学習したオーディオエンコーダで処理するAVコンバータをベースとした。
このモデルは、STARSS23データセットの開発セットのオーディオ視覚ベースラインを広いマージンで上回り、DOAEを半分にし、F1を3倍以上改善した。
論文 参考訳(メタデータ) (2024-10-29T17:28:43Z) - TIGER: Time-frequency Interleaved Gain Extraction and Reconstruction for Efficient Speech Separation [19.126525226518975]
パラメータと計算コストを大幅に削減した音声分離モデルを提案する。
TIGERは事前の知識を活用して周波数帯域を分割し、周波数情報を圧縮する。
我々は、TIGERが、最先端(SOTA)モデルTF-GridNetを上回る性能を達成することを示す。
論文 参考訳(メタデータ) (2024-10-02T12:21:06Z) - Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。
RAFは密集した室内音響データを提供する最初のデータセットである。
論文 参考訳(メタデータ) (2024-03-27T17:59:56Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - A Data-Driven Analysis of Robust Automatic Piano Transcription [16.686703489636734]
近年の進歩は、より正確なシステムを生み出すために、新しいニューラルネットワークアーキテクチャを適用することに焦点を当てている。
トレーニングデータの音響特性に対して,これらのモデルが非常に過度に適合することを示す。
トレーニングデータを見ることなく,MAPSデータセット上で88.4F1スコアの最先端のノートオンセット精度を実現する。
論文 参考訳(メタデータ) (2024-02-02T14:11:23Z) - Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual
Downstream Tasks [55.36987468073152]
本稿では,DG-SCT(Dual-Guided Space-Channel-Temporal)アテンション機構を提案する。
DG-SCTモジュールはトレーニング可能なクロスモーダル・インタラクション・レイヤを事前トレーニングされたオーディオ・ビジュアル・エンコーダに組み込む。
提案手法は, AVE, AVVP, AVS, AVQA, AVQAを含む複数のダウンストリームタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2023-11-09T05:24:20Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels [100.43280310123784]
トレーニングセットのサイズを増大させるために,未ラベルデータセットの自動書き起こしの使用について検討した。
近年の文献的傾向であるトレーニングセットのサイズが大きくなると、ノイズのある書き起こしを用いたにもかかわらずWERが減少することが実証された。
提案手法は,RS2 と LRS3 の AV-ASR 上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-25T00:37:34Z) - Pre-training via Denoising for Molecular Property Prediction [53.409242538744444]
本稿では,3次元分子構造の大規模データセットを平衡に利用した事前学習手法について述べる。
近年のノイズレギュラー化の進展に触発されて, 事前学習の目的は, 雑音の除去に基づくものである。
論文 参考訳(メタデータ) (2022-05-31T22:28:34Z) - PSLA: Improving Audio Event Classification with Pretraining, Sampling,
Labeling, and Aggregation [19.09439093130855]
PSLAは,モデルの精度を著しく向上させる訓練手法の集合である。
我々は,AudioSet上で0.474の新たな平均精度(mAP)を実現するモデルを得る。
論文 参考訳(メタデータ) (2021-02-02T01:00:38Z) - Incremental Learning Algorithm for Sound Event Detection [0.8399688944263841]
本稿では,事前学習したモデルから新たなターゲットモデルへの知識移行の問題に対処するため,音事象検出システム(SED)の新たな学習戦略を提案する。
学習済みの知識をソースモデルからターゲットモデルに移行するために、ソースモデルのトップにニューラルアダプタが使用される。
ニューラルアダプタ層は、トレーニングデータを最小限にして新たな音イベントを学習し、ソースモデルと同様の学習済みの音イベントの性能を維持することを目標モデルに促す。
論文 参考訳(メタデータ) (2020-03-26T22:32:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。