論文の概要: SSAST: Self-Supervised Audio Spectrogram Transformer
- arxiv url: http://arxiv.org/abs/2110.09784v1
- Date: Tue, 19 Oct 2021 07:58:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-20 21:50:13.301158
- Title: SSAST: Self-Supervised Audio Spectrogram Transformer
- Title(参考訳): ssast: 自己教師付きオーディオスペクトログラムトランスフォーマ
- Authors: Yuan Gong, Cheng-I Jeff Lai, Yu-An Chung, James Glass
- Abstract要約: 本稿では,非ラベル音声を用いた音声スペクトログラム変換器(AST)モデルを,共同識別・生成型マスマスキング・スペクトログラム・パッチ・モデリング(MSPM)で事前学習することを提案する。
我々は、音声イベント分類、キーワードスポッティング、感情認識、話者識別を含む音声および音声の分類タスクにおいて、事前訓練されたモデルを評価する。
我々の知る限りでは、このフレームワークはオーディオおよび音声領域における最初のパッチベースのセルフ教師あり学習フレームワークであり、ASTのための最初のセルフ教師あり学習フレームワークでもある。
- 参考スコア(独自算出の注目度): 19.09439093130855
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, neural networks based purely on self-attention, such as the Vision
Transformer (ViT), have been shown to outperform deep learning models
constructed with convolutional neural networks (CNNs) on various vision tasks,
thus extending the success of Transformers, which were originally developed for
language processing, to the vision domain. A recent study showed that a similar
methodology can also be applied to the audio domain. Specifically, the Audio
Spectrogram Transformer (AST) achieves state-of-the-art results on various
audio classification benchmarks. However, pure Transformer models tend to
require more training data compared to CNNs, and the success of the AST relies
on supervised pretraining that requires a large amount of labeled data and a
complex training pipeline, thus limiting the practical usage of AST.
This paper focuses on audio and speech classification, and aims to alleviate
the data requirement issues with the AST by leveraging self-supervised learning
using unlabeled data. Specifically, we propose to pretrain the AST model with
joint discriminative and generative masked spectrogram patch modeling (MSPM)
using unlabeled audio from AudioSet and Librispeech. We evaluate our pretrained
models on both audio and speech classification tasks including audio event
classification, keyword spotting, emotion recognition, and speaker
identification. The proposed self-supervised framework significantly boosts AST
performance on all tasks, with an average improvement of 60.9%, leading to
similar or even better results than a supervised pretrained AST. To the best of
our knowledge, it is the first patch-based self-supervised learning framework
in the audio and speech domain, and also the first self-supervised learning
framework for AST.
- Abstract(参考訳): 近年、視覚トランスフォーマー(vit)のような純粋に自己愛に基づくニューラルネットワークは、様々な視覚タスクにおいて畳み込みニューラルネットワーク(cnns)で構築されたディープラーニングモデルよりも優れており、言語処理のために当初開発されたトランスフォーマーの成功を視覚ドメインに広げている。
最近の研究では、同様の手法が音声領域にも適用可能であることが示されている。
具体的には、オーディオスペクトログラムトランスフォーマ(ast)は、様々なオーディオ分類ベンチマークで最先端の結果を得る。
しかし、純粋なTransformerモデルはCNNよりも多くのトレーニングデータを必要とする傾向にあり、ASTの成功は大量のラベル付きデータと複雑なトレーニングパイプラインを必要とする教師付き事前トレーニングに依存しており、ASTの実用的使用を制限する。
本稿では,音声と音声の分類に着目し,ラベルなしデータを用いた自己教師あり学習を活用し,astによるデータ要求問題を軽減することを目的とする。
具体的には,AudioSet と Librispeech の未収録音声を用いて,共同識別型および生成型マスク付きスペクトログラムパッチモデリング(MSPM)によるASTモデルの事前学習を提案する。
我々は,音声イベント分類,キーワードスポッティング,感情認識,話者識別を含む音声と音声の分類タスクにおいて,事前学習したモデルを評価する。
提案された自己監督フレームワークは、すべてのタスクにおけるASTパフォーマンスを著しく向上させ、平均60.9%の改善を実現し、教師付き事前訓練されたASTと同じような結果またはさらに良い結果をもたらす。
我々の知る限り、これはオーディオおよび音声領域におけるパッチベースの初めての自己教師型学習フレームワークであり、ASTのための最初の自己教師型学習フレームワークでもある。
関連論文リスト
- Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z) - ASiT: Local-Global Audio Spectrogram vIsion Transformer for Event
Classification [42.95038619688867]
ASiTは、グループマスク付きモデル学習と自己蒸留を用いて、局所的およびグローバルな文脈情報をキャプチャする、新しい自己教師型学習フレームワークである。
我々は、音声イベント分類、キーワードスポッティング、話者識別を含む音声および音声の分類タスクにおいて、事前訓練されたモデルを評価する。
論文 参考訳(メタデータ) (2022-11-23T18:21:09Z) - Contrastive Audio-Visual Masked Autoencoder [85.53776628515561]
CAV-MAE(Contrastive Audio-Visual Masked Auto-Encoder)
我々の完全自己指導型CAV-MAEは、VGGSoundで65.9%の新しいSOTA精度を実現する。
論文 参考訳(メタデータ) (2022-10-02T07:29:57Z) - Self-supervised Learning with Random-projection Quantizer for Speech
Recognition [51.24368930992091]
音声認識のためのシンプルで効果的な自己教師型学習手法を提案する。
このアプローチは、離散ラベルの形で、マスキングされた音声信号を予測するモデルを学ぶ。
非ストリーミングモデルを用いた自己教師付き学習を用いて、従来の作業と同じような単語エラー率を達成する。
論文 参考訳(メタデータ) (2022-02-03T21:29:04Z) - WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。
WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。
トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文 参考訳(メタデータ) (2021-10-26T17:55:19Z) - Conformer-Based Self-Supervised Learning for Non-Speech Audio Tasks [20.316239155843963]
本稿では,音声表現学習手法を提案し,それを下流の音声非音声タスクに適用する。
AudioSetベンチマークでは、平均平均精度(mAP)スコアが0.415に達しています。
論文 参考訳(メタデータ) (2021-10-14T12:32:40Z) - AST: Audio Spectrogram Transformer [21.46018186487818]
オーディオ分類のための最初の畳み込みのない、純粋に注意に基づくモデルであるAudio Spectrogram Transformer(AST)を紹介します。
ASTはAudioSetの0.485 mAP、ESC-50の95.6%、音声コマンドV2の98.1%の精度で新しい最先端の結果を達成している。
論文 参考訳(メタデータ) (2021-04-05T05:26:29Z) - A Framework for Generative and Contrastive Learning of Audio
Representations [2.8935588665357077]
本研究では,音声表現のためのコントラスト学習フレームワークを提案する。
また、音声信号の潜在空間を学習するために、アートトランスフォーマーに基づくアーキテクチャの状態に基づく生成モデルについても検討する。
本システムは,ニューラルネットワークモデルをトレーニングするために,地上の真理ラベルにアクセス可能な完全教師付き手法と比較して,かなりの性能を実現している。
論文 参考訳(メタデータ) (2020-10-22T05:52:32Z) - Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio
Representation [51.37980448183019]
本稿では,自己教師型音声表現モデルの簡易版であるAudio ALBERTを提案する。
我々は、Audio ALBERTが、下流タスクにおいて、これらの巨大なモデルと競合する性能を達成することができることを示す。
探索実験において、潜在表現は、最後の層よりも音素と話者のリッチな情報をエンコードすることがわかった。
論文 参考訳(メタデータ) (2020-05-18T10:42:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。