論文の概要: PSLA: Improving Audio Event Classification with Pretraining, Sampling,
Labeling, and Aggregation
- arxiv url: http://arxiv.org/abs/2102.01243v1
- Date: Tue, 2 Feb 2021 01:00:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-04 09:50:49.727316
- Title: PSLA: Improving Audio Event Classification with Pretraining, Sampling,
Labeling, and Aggregation
- Title(参考訳): PSLA:プリトレーニング、サンプリング、ラベリング、アグリゲーションによるオーディオイベント分類の改善
- Authors: Yuan Gong, Yu-An Chung, and James Glass
- Abstract要約: PSLAは,モデルの精度を著しく向上させる訓練手法の集合である。
我々は,AudioSet上で0.474の新たな平均精度(mAP)を実現するモデルを得る。
- 参考スコア(独自算出の注目度): 19.09439093130855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio event classification is an active research area and has a wide range of
applications. Since the release of AudioSet, great progress has been made in
advancing the classification accuracy, which mostly comes from the development
of novel model architectures and attention modules. However, we find that
appropriate training techniques are equally important for building audio event
classification models with AudioSet, but have not received the attention they
deserve. To fill the gap, in this work, we present PSLA, a collection of
training techniques that can noticeably boost the model accuracy including
ImageNet pretraining, balanced sampling, data augmentation, label enhancement,
model aggregation and their design choices. By training an EfficientNet with
these techniques, we obtain a model that achieves a new state-of-the-art mean
average precision (mAP) of 0.474 on AudioSet, outperforming the previous best
system of 0.439.
- Abstract(参考訳): オーディオイベント分類は活発な研究領域であり、幅広い用途があります。
AudioSetのリリース以来、分類精度の向上に大きく進歩しています。これは、主に新しいモデルアーキテクチャと注意モジュールの開発から来ています。
しかし,オーディオセットを用いた音声イベント分類モデルの構築においては,適切なトレーニング手法が等しく重要であることが判明した。
このギャップを埋めるため,本研究では,イメージネットプリトレーニング,バランスサンプリング,データ拡張,ラベル拡張,モデルアグリゲーション,設計選択など,モデルの精度を著しく向上させるトレーニング手法であるpslaを提案する。
これらの手法でEfficientNetをトレーニングすることにより,AudioSet上で0.474の平均精度(mAP)を新たに達成し,従来の0.439よりも優れるモデルを得る。
関連論文リスト
- Audio-Visual Generalized Zero-Shot Learning using Pre-Trained Large Multi-Modal Models [53.48409081555687]
本研究では,視覚機能のためのCLIP,音声機能のためのCLAPといった,このような大規模な事前学習モデルについて検討する。
本稿では,フィードフォワードニューラルネットワークのみに依存する,シンプルで効果的なモデルを提案する。
本フレームワークは,VGGSound-GZSL,UCF-GZSL,ActivityNet-GZSL上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-04-09T13:39:37Z) - EAT: Self-Supervised Pre-Training with Efficient Audio Transformer [2.443213094810588]
EAT(Efficient Audio Transformer)は、画像モダリティにおけるData2vec 2.0とオーディオモダリティにおけるAudio-MAEの成功に触発されている。
Utterance-Frame Objective (UFO) は音響イベントのモデリング能力を高めるために設計された。
実験の結果、EATは様々な音声関連タスクにおいて、最先端(SOTA)性能を達成することが示された。
論文 参考訳(メタデータ) (2024-01-07T14:31:27Z) - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - LEAN: Light and Efficient Audio Classification Network [1.5070398746522742]
音声分類のための軽量デバイス深層学習モデルLEANを提案する。
LEANは、ウェーブニアライメント(Wave realignment)と呼ばれる生波形ベースの時間的特徴抽出器と、ログメルベースの事前学習YAMNetから構成される。
トレーニング可能なウェーブエンコーダと事前学習されたYAMNetとクロスアテンションに基づく時間的アライメントを組み合わせることで、より少ないメモリフットプリントを持つ下流オーディオ分類タスクにおける競合性能が得られることを示す。
論文 参考訳(メタデータ) (2023-05-22T04:45:04Z) - BEATs: Audio Pre-Training with Acoustic Tokenizers [77.8510930885778]
自己教師付き学習(SSL)は、ここ数年、言語、ビジョン、スピーチ、オーディオドメインで目撃されてきた。
本稿では、音声変換器から双方向表現を学習するための反復型オーディオ事前学習フレームワークBEATを提案する。
最初のイテレーションでは、ランダムプロジェクションを音響トークンとして使用し、マスクとラベル予測の方法でオーディオSSLモデルをトレーニングする。
そこで,本研究では,事前学習あるいは微調整した音声SSLモデルから意味知識を抽出することにより,次のイテレーションのための音響トークン化装置を訓練する。
論文 参考訳(メタデータ) (2022-12-18T10:41:55Z) - Contrastive Audio-Visual Masked Autoencoder [85.53776628515561]
CAV-MAE(Contrastive Audio-Visual Masked Auto-Encoder)
我々の完全自己指導型CAV-MAEは、VGGSoundで65.9%の新しいSOTA精度を実現する。
論文 参考訳(メタデータ) (2022-10-02T07:29:57Z) - Segment-level Metric Learning for Few-shot Bioacoustic Event Detection [56.59107110017436]
本稿では,モデル最適化時の肯定的事象と否定的事象の両方を利用するセグメントレベルの数ショット学習フレームワークを提案する。
本システムでは,DCASE2022チャレンジタスク5(DCASE2022-T5)のF値62.73の検証を行い,ベースラインプロトタイプネットワーク34.02の性能を大きなマージンで向上させる。
論文 参考訳(メタデータ) (2022-07-15T22:41:30Z) - A study on joint modeling and data augmentation of multi-modalities for
audio-visual scene classification [64.59834310846516]
音声視覚シーン分類(AVSC)のためのシステム性能を改善するために,共同モデリングとデータ拡張という2つの手法を提案する。
最終システムはDCASE 2021 Task 1bに送信された全AVSCシステムの中で94.2%の精度を達成できる。
論文 参考訳(メタデータ) (2022-03-07T07:29:55Z) - AudioCLIP: Extending CLIP to Image, Text and Audio [6.585049648605185]
テキストや画像に加えて音声を扱うCLIPモデルの拡張を提案する。
提案モデルでは,AudioSetデータセットを用いてESResNeXtオーディオモデルをCLIPフレームワークに組み込む。
環境音分類(ESC)タスクにおいて,AudioCLIPは新たな最先端結果を実現する。
論文 参考訳(メタデータ) (2021-06-24T14:16:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。