論文の概要: AST: Audio Spectrogram Transformer
- arxiv url: http://arxiv.org/abs/2104.01778v1
- Date: Mon, 5 Apr 2021 05:26:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-06 22:25:01.740494
- Title: AST: Audio Spectrogram Transformer
- Title(参考訳): AST:オーディオスペクトログラム変換器
- Authors: Yuan Gong, Yu-An Chung, James Glass
- Abstract要約: オーディオ分類のための最初の畳み込みのない、純粋に注意に基づくモデルであるAudio Spectrogram Transformer(AST)を紹介します。
ASTはAudioSetの0.485 mAP、ESC-50の95.6%、音声コマンドV2の98.1%の精度で新しい最先端の結果を達成している。
- 参考スコア(独自算出の注目度): 21.46018186487818
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the past decade, convolutional neural networks (CNNs) have been widely
adopted as the main building block for end-to-end audio classification models,
which aim to learn a direct mapping from audio spectrograms to corresponding
labels. To better capture long-range global context, a recent trend is to add a
self-attention mechanism on top of the CNN, forming a CNN-attention hybrid
model. However, it is unclear whether the reliance on a CNN is necessary, and
if neural networks purely based on attention are sufficient to obtain good
performance in audio classification. In this paper, we answer the question by
introducing the Audio Spectrogram Transformer (AST), the first
convolution-free, purely attention-based model for audio classification. We
evaluate AST on various audio classification benchmarks, where it achieves new
state-of-the-art results of 0.485 mAP on AudioSet, 95.6% accuracy on ESC-50,
and 98.1% accuracy on Speech Commands V2.
- Abstract(参考訳): 過去10年間で、畳み込みニューラルネットワーク(CNN)は、音声スペクトログラムから対応するラベルへの直接マッピングの学習を目的とした、エンドツーエンドの音声分類モデルのメインビルディングブロックとして広く採用されてきた。
長距離グローバルなコンテキストをよりよく捉えるために、最近のトレンドは、CNNの上に自己認識メカニズムを追加し、CNN対応ハイブリッドモデルを形成することである。
しかし、cnnへの依存が必要かどうか、また、注意に基づくニューラルネットワークがオーディオ分類において優れた性能を得るのに十分なものかどうかは不明である。
本稿では,Audio Spectrogram Transformer (AST) を導入することで,音声分類のための最初の畳み込みのない,純粋に注意に基づくモデルを提案する。
様々な音声分類ベンチマークでastを評価し,音声セット0.485地図,esc-50の95.6%,音声コマンドv2の98.1%の精度を新たに達成した。
関連論文リスト
- Music Genre Classification using Large Language Models [50.750620612351284]
本稿では,音楽ジャンル分類のための事前学習された大規模言語モデル(LLM)のゼロショット機能を利用する。
提案手法は、音声信号を20ミリ秒のチャンクに分割し、畳み込み特徴エンコーダで処理する。
推論中、個々のチャンクの予測は最終ジャンル分類のために集約される。
論文 参考訳(メタデータ) (2024-10-10T19:17:56Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - ATGNN: Audio Tagging Graph Neural Network [25.78859233831268]
ATGNNは学習可能なクラス埋め込みとスペクトログラム領域間の意味関係をマッピングするグラフニューラルネットワークアーキテクチャである。
我々は2つのオーディオタグタスクでATGNNを評価し、FSD50Kデータセットで0.585 mAP、AudioSetバランスデータセットで0.335 mAPを達成する。
論文 参考訳(メタデータ) (2023-11-02T18:19:26Z) - Efficient Large-scale Audio Tagging via Transformer-to-CNN Knowledge
Distillation [6.617487928813374]
高性能だが複雑な変換器からのオフライン知識蒸留(KD)に基づく効率的なCNNの訓練手順を提案する。
我々は、低複雑さモデルからAudioSetの.483 mAPの新たな最先端パフォーマンスまで、さまざまな複雑さレベルのモデルを提供しています。
論文 参考訳(メタデータ) (2022-11-09T09:58:22Z) - CMKD: CNN/Transformer-Based Cross-Model Knowledge Distillation for Audio
Classification [11.505633449307684]
畳み込みニューラルネットワーク(CNN)は、エンドツーエンドの音声分類モデルのデファクト標準ビルディングブロックである。
近年,Audio Spectrogram Transformer(AST)のような自己注意機構のみに基づくニューラルネットワークがCNNより優れていることが示されている。
論文 参考訳(メタデータ) (2022-03-13T21:14:04Z) - Real-time Speaker counting in a cocktail party scenario using
Attention-guided Convolutional Neural Network [60.99112031408449]
重なり合う音声におけるアクティブ話者数を推定するために,CNN(Real-time, Single-channel attention-guided Convolutional Neural Network)を提案する。
提案システムは,CNNモデルを用いて音声スペクトルから高レベル情報を抽出する。
WSJコーパスを用いた重畳音声のシミュレーション実験により,従来の時間平均プーリングに比べて,注意解がほぼ3%向上することが示されている。
論文 参考訳(メタデータ) (2021-10-30T19:24:57Z) - SSAST: Self-Supervised Audio Spectrogram Transformer [19.09439093130855]
本稿では,非ラベル音声を用いた音声スペクトログラム変換器(AST)モデルを,共同識別・生成型マスマスキング・スペクトログラム・パッチ・モデリング(MSPM)で事前学習することを提案する。
我々は、音声イベント分類、キーワードスポッティング、感情認識、話者識別を含む音声および音声の分類タスクにおいて、事前訓練されたモデルを評価する。
我々の知る限りでは、このフレームワークはオーディオおよび音声領域における最初のパッチベースのセルフ教師あり学習フレームワークであり、ASTのための最初のセルフ教師あり学習フレームワークでもある。
論文 参考訳(メタデータ) (2021-10-19T07:58:28Z) - A Two-Stage Approach to Device-Robust Acoustic Scene Classification [63.98724740606457]
デバイスロバスト性を改善するために,完全畳み込みニューラルネットワーク(CNN)に基づく2段階システムを提案する。
以上の結果から,提案したASCシステムにより,開発環境における最先端の精度が得られた。
クラスアクティベーションマッピングを用いたニューラルサリエンシ解析により、モデルによって学習されたパターンに関する新たな洞察が得られる。
論文 参考訳(メタデータ) (2020-11-03T03:27:18Z) - Conformer: Convolution-augmented Transformer for Speech Recognition [60.119604551507805]
最近、トランスフォーマーと畳み込みニューラルネットワーク(CNN)に基づくモデルが、自動音声認識(ASR)の有望な結果を示している。
音声認識のための畳み込み拡張変換器,Conformerを提案する。
広く使われているLibriSpeechベンチマークでは、言語モデルを用いずにWERが2.1%/4.3%、テスト/テストの外部言語モデルで1.9%/3.9%を達成した。
論文 参考訳(メタデータ) (2020-05-16T20:56:25Z) - AutoSpeech: Neural Architecture Search for Speaker Recognition [108.69505815793028]
本稿では,AutoSpeech という名称の話者認識タスクに対して,最初のニューラルアーキテクチャ探索アプローチを提案する。
提案アルゴリズムはまず,ニューラルネットワークの最適操作の組み合わせを特定し,その後,複数回重ねてCNNモデルを導出する。
得られたCNNアーキテクチャは,モデル複雑性を低減しつつ,VGG-M,ResNet-18,ResNet-34のバックボーンに基づく現在の話者認識システムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-05-07T02:53:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。