論文の概要: EAT: Self-Supervised Pre-Training with Efficient Audio Transformer
- arxiv url: http://arxiv.org/abs/2401.03497v1
- Date: Sun, 7 Jan 2024 14:31:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 18:38:53.473901
- Title: EAT: Self-Supervised Pre-Training with Efficient Audio Transformer
- Title(参考訳): EAT: 効率的なオーディオトランスによる自己監督型事前学習
- Authors: Wenxi Chen, Yuzhe Liang, Ziyang Ma, Zhisheng Zheng, Xie Chen
- Abstract要約: EAT(Efficient Audio Transformer)は、画像モダリティにおけるData2vec 2.0とオーディオモダリティにおけるAudio-MAEの成功に触発されている。
Utterance-Frame Objective (UFO) は音響イベントのモデリング能力を高めるために設計された。
実験の結果、EATは様々な音声関連タスクにおいて、最先端(SOTA)性能を達成することが示された。
- 参考スコア(独自算出の注目度): 2.443213094810588
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio self-supervised learning (SSL) pre-training, which aims to learn good
representations from unlabeled audio, has made remarkable progress. However,
the extensive computational demands during pre-training pose a significant
barrier to the potential application and optimization of audio SSL models. In
this paper, inspired by the success of data2vec 2.0 in image modality and
Audio-MAE in audio modality, we introduce Efficient Audio Transformer (EAT) to
further improve the effectiveness and efficiency in audio SSL. The proposed EAT
adopts the bootstrap self-supervised training paradigm to the audio domain. A
novel Utterance-Frame Objective (UFO) is designed to enhance the modeling
capability of acoustic events. Furthermore, we reveal that the masking strategy
is critical in audio SSL pre-training, and superior audio representations can
be obtained with large inverse block masks. Experiment results demonstrate that
EAT achieves state-of-the-art (SOTA) performance on a range of audio-related
tasks, including AudioSet (AS-2M, AS-20K), ESC-50, and SPC-2, along with a
significant pre-training speedup up to ~15x compared to existing audio SSL
models.
- Abstract(参考訳): ラベルなしオーディオから優れた表現を学習することを目的とした、音声自己教師型学習(SSL)事前学習は、目覚ましい進歩を遂げた。
しかし、事前トレーニング中の広範な計算要求は、オーディオSSLモデルの潜在的な応用と最適化に重大な障壁をもたらす。
本稿では,画像モダリティにおけるData2vec 2.0と音声モダリティにおけるAudio-MAEの成功に触発されて,音声SSLの有効性と効率を改善するために,EAT(Efficient Audio Transformer)を導入する。
提案したEATは、音声領域にブートストラップ自己教師型トレーニングパラダイムを採用する。
Utterance-Frame Objective (UFO) は音響イベントのモデリング能力を高めるために設計された。
さらに,音声SSL事前トレーニングにおいてマスキング戦略が重要であり,大きな逆ブロックマスクを用いて優れた音声表現が得られることを明らかにした。
実験結果から,AudioSet (AS-2M, AS-20K), ESC-50, SPC-2などのオーディオ関連タスクにおいて, 既存のオーディオSSLモデルに比べて最大15倍のトレーニング前速度で, 最先端のSOTA(State-of-the-art)性能を実現することが示された。
関連論文リスト
- Solution for Temporal Sound Localisation Task of ECCV Second Perception Test Challenge 2024 [3.4947857354806633]
本稿では,時間的音像定位作業の改善手法を提案する。
事前に定義されたサウンドクラスのセットに従って、ビデオで発生する音イベントをローカライズし、分類する。
私たちのアプローチは最終テストで最初に0.4925のスコアでランク付けします。
論文 参考訳(メタデータ) (2024-09-29T07:28:21Z) - SSAMBA: Self-Supervised Audio Representation Learning with Mamba State Space Model [12.399378490833818]
Self-Supervised Audio Mamba (SSAMBA) は、音声表現学習のための最初の自己監督型、注意なし、およびSSMベースのモデルである。
以上の結果から,SSAMBAはSSAST(Self-Supervised Audio Spectrogram Transformer)よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-05-20T06:58:47Z) - AudioFormer: Audio Transformer learns audio feature representations from
discrete acoustic codes [6.375996974877916]
離散音響符号の取得により音声特徴表現を学習するAudioFormerという手法を提案する。
以上の結果から,AudioFormerはモノモーダル音声分類モデルに比べて性能が大幅に向上したことが示された。
論文 参考訳(メタデータ) (2023-08-14T15:47:25Z) - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - BEATs: Audio Pre-Training with Acoustic Tokenizers [77.8510930885778]
自己教師付き学習(SSL)は、ここ数年、言語、ビジョン、スピーチ、オーディオドメインで目撃されてきた。
本稿では、音声変換器から双方向表現を学習するための反復型オーディオ事前学習フレームワークBEATを提案する。
最初のイテレーションでは、ランダムプロジェクションを音響トークンとして使用し、マスクとラベル予測の方法でオーディオSSLモデルをトレーニングする。
そこで,本研究では,事前学習あるいは微調整した音声SSLモデルから意味知識を抽出することにより,次のイテレーションのための音響トークン化装置を訓練する。
論文 参考訳(メタデータ) (2022-12-18T10:41:55Z) - MAViL: Masked Audio-Video Learners [68.61844803682145]
本研究では,masked Audio-Video Learningers (MAViL) を用いて映像表現の学習を行う。
MAViLによる事前トレーニングにより、音声視覚分類および検索タスクにおいて、モデルの性能が向上する。
自己監督型オーディオ視覚モデルが初めて、ベンチマークの外部監視を使用するモデルよりも優れています。
論文 参考訳(メタデータ) (2022-12-15T18:59:59Z) - Contrastive Audio-Visual Masked Autoencoder [85.53776628515561]
CAV-MAE(Contrastive Audio-Visual Masked Auto-Encoder)
我々の完全自己指導型CAV-MAEは、VGGSoundで65.9%の新しいSOTA精度を実現する。
論文 参考訳(メタデータ) (2022-10-02T07:29:57Z) - WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。
WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。
トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文 参考訳(メタデータ) (2021-10-26T17:55:19Z) - Conformer-Based Self-Supervised Learning for Non-Speech Audio Tasks [20.316239155843963]
本稿では,音声表現学習手法を提案し,それを下流の音声非音声タスクに適用する。
AudioSetベンチマークでは、平均平均精度(mAP)スコアが0.415に達しています。
論文 参考訳(メタデータ) (2021-10-14T12:32:40Z) - Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio
Representation [51.37980448183019]
本稿では,自己教師型音声表現モデルの簡易版であるAudio ALBERTを提案する。
我々は、Audio ALBERTが、下流タスクにおいて、これらの巨大なモデルと競合する性能を達成することができることを示す。
探索実験において、潜在表現は、最後の層よりも音素と話者のリッチな情報をエンコードすることがわかった。
論文 参考訳(メタデータ) (2020-05-18T10:42:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。