論文の概要: Multiscale Audio Spectrogram Transformer for Efficient Audio
Classification
- arxiv url: http://arxiv.org/abs/2303.10757v1
- Date: Sun, 19 Mar 2023 20:21:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-21 17:27:39.934425
- Title: Multiscale Audio Spectrogram Transformer for Efficient Audio
Classification
- Title(参考訳): 効率的なオーディオ分類のためのマルチスケールオーディオスペクトログラムトランスフォーマ
- Authors: Wentao Zhu, Mohamed Omar
- Abstract要約: 階層型表現学習を用いたマルチスケール音声スペクトログラム変換器(MAST)を開発した。
具体的には、MASTは時間(および周波数領域)に沿って1次元(および2次元)プーリング演算子を使用し、トークンの数を徐々に減少させ、特徴次元を増大させる。
- 参考スコア(独自算出の注目度): 1.797470734877199
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio event has a hierarchical architecture in both time and frequency and
can be grouped together to construct more abstract semantic audio classes. In
this work, we develop a multiscale audio spectrogram Transformer (MAST) that
employs hierarchical representation learning for efficient audio
classification. Specifically, MAST employs one-dimensional (and
two-dimensional) pooling operators along the time (and frequency domains) in
different stages, and progressively reduces the number of tokens and increases
the feature dimensions. MAST significantly outperforms AST~\cite{gong2021ast}
by 22.2\%, 4.4\% and 4.7\% on Kinetics-Sounds, Epic-Kitchens-100 and VGGSound
in terms of the top-1 accuracy without external training data. On the
downloaded AudioSet dataset, which has over 20\% missing audios, MAST also
achieves slightly better accuracy than AST. In addition, MAST is 5x more
efficient in terms of multiply-accumulates (MACs) with 42\% reduction in the
number of parameters compared to AST. Through clustering metrics and
visualizations, we demonstrate that the proposed MAST can learn semantically
more separable feature representations from audio signals.
- Abstract(参考訳): audio eventは、時間と周波数の両方で階層構造を持ち、より抽象的なセマンティックオーディオクラスを構築するためにグループ化することができる。
本研究では,階層的表現学習を用いて効率的な音声分類を行うマルチスケールオーディオスペクトログラムトランスフォーマ(mast)を開発した。
具体的には、MASTは時間(および周波数領域)に沿って1次元(および2次元)プーリング演算子を使用し、トークンの数を徐々に減少させ、特徴次元を増大させる。
mast は、外部のトレーニングデータなしで top-1 の精度で、kinetics-sounds, epic-kitchens-100, vggsound において、ast~\cite{gong2021ast} を 22.2\%, 4.4\%, 4.7\% で有意に上回っている。
ダウンロードされたオーディオセットデータセットには20\%以上の音声が欠けているが、mastはastよりも若干精度が良い。
さらに、MAST は乗算累積 (MAC) の点で 5 倍効率が高く、AST と比較してパラメータ数が 42 % 減少している。
クラスタリングメトリクスと可視化により、提案したMASTが音声信号から意味的により分離可能な特徴表現を学習できることを実証する。
関連論文リスト
- Taming Data and Transformers for Audio Generation [49.54707963286065]
AutoCapは高品質で効率的なオーディオキャプションモデルである。
GenAuはスケーラブルなトランスフォーマーベースのオーディオ生成アーキテクチャである。
57Mの環境オーディオクリップをコンパイルし、最大のオーディオテキストデータセットであるAutoReCap-XLを作成します。
論文 参考訳(メタデータ) (2024-06-27T17:58:54Z) - Efficient Multiscale Multimodal Bottleneck Transformer for Audio-Video
Classification [6.341420717393898]
我々は,新しいマルチスケールオーディオトランス (MAT) とマルチスケールビデオトランス (MMT) を開発した。
提案されたMATは、3つの公開ベンチマークデータセットでAST[28]を22.2%、4.4%、4.7%で大幅に上回っている。
FLOPの数に基づいて約3%効率が良く、GPUメモリ使用量に基づいて9.8%効率が良い。
論文 参考訳(メタデータ) (2024-01-08T17:02:25Z) - AudioFormer: Audio Transformer learns audio feature representations from
discrete acoustic codes [6.375996974877916]
離散音響符号の取得により音声特徴表現を学習するAudioFormerという手法を提案する。
以上の結果から,AudioFormerはモノモーダル音声分類モデルに比べて性能が大幅に向上したことが示された。
論文 参考訳(メタデータ) (2023-08-14T15:47:25Z) - Transformer-based Sequence Labeling for Audio Classification based on
MFCCs [0.0]
本稿では,MFCCを用いた音声分類のためのトランスフォーマーエンコーダモデルを提案する。
モデルはESC-50、Speech Commands v0.02、UrbanSound8kのデータセットに対してベンチマークされ、高いパフォーマンスを示している。
モデルは127,544の合計パラメータで構成されており、オーディオ分類タスクでは軽量だが高効率である。
論文 参考訳(メタデータ) (2023-04-30T07:25:43Z) - LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。
我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文 参考訳(メタデータ) (2022-11-20T15:27:55Z) - MAST: Multiscale Audio Spectrogram Transformers [53.06337011259031]
音声分類のためのマルチスケール音声スペクトログラム変換器(MAST)について,マルチスケール特徴階層の概念をAST(Audio Spectrogram Transformer)に適用した。
実際に、MASTはLAPEベンチマークの8つの音声および非音声タスクで平均3.4%の精度でASTを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-02T23:34:12Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - Masked Autoencoders that Listen [79.99280830830854]
本稿では,画像ベースMasked Autoencoders(MAE)の音声スペクトログラムからの自己教師型表現学習への簡単な拡張について検討する。
MAEにおけるTransformer encoder-decoderの設計に続いて、Audio-MAEはまず、ハイマスキング比でオーディオスペクトログラムパッチを符号化し、エンコーダ層を介して非マスキングトークンのみを供給します。
次にデコーダは、入力スペクトログラムを再構築するために、マスクトークンでパッドされたエンコードされたコンテキストを再注文し、デコードする。
論文 参考訳(メタデータ) (2022-07-13T17:59:55Z) - MixSpeech: Data Augmentation for Low-resource Automatic Speech
Recognition [54.84624870942339]
MixSpeechは、自動音声認識(ASR)のためのミックスアップに基づくシンプルで効果的なデータ拡張方法です。
mixspeechをlas(listen, attend, spell)とtransformerを含む2つのポピュラーなエンドツーエンド音声認識モデルに適用した。
実験の結果,MixSpeechはデータ拡張のないベースラインモデルよりも精度が高いことがわかった。
論文 参考訳(メタデータ) (2021-02-25T03:40:43Z) - Multiresolution and Multimodal Speech Recognition with Transformers [22.995102995029576]
本稿ではトランスフォーマーアーキテクチャを用いた音声視覚自動音声認識(AV-ASR)システムを提案する。
我々は、視覚情報によって提供されるシーンコンテキストに着目して、ASRを接地する。
私たちの結果は、最先端のListen、Attend、Spellベースのアーキテクチャに匹敵します。
論文 参考訳(メタデータ) (2020-04-29T09:32:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。