論文の概要: HTS-AT: A Hierarchical Token-Semantic Audio Transformer for Sound
Classification and Detection
- arxiv url: http://arxiv.org/abs/2202.00874v1
- Date: Wed, 2 Feb 2022 04:49:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-03 22:28:17.466449
- Title: HTS-AT: A Hierarchical Token-Semantic Audio Transformer for Sound
Classification and Detection
- Title(参考訳): HTS-AT:音の分類・検出のための階層型音声変換器
- Authors: Ke Chen, Xingjian Du, Bilei Zhu, Zejun Ma, Taylor Berg-Kirkpatrick,
Shlomo Dubnov
- Abstract要約: HTS-ATは、モデルサイズとトレーニング時間を短縮する階層構造を持つオーディオトランスである。
従来のCNNベースのモデルよりも、イベントローカライゼーションにおけるパフォーマンスの向上を実現している。
- 参考スコア(独自算出の注目度): 43.50970305209596
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio classification is an important task of mapping audio samples into their
corresponding labels. Recently, the transformer model with self-attention
mechanisms has been adopted in this field. However, existing audio transformers
require large GPU memories and long training time, meanwhile relying on
pretrained vision models to achieve high performance, which limits the model's
scalability in audio tasks. To combat these problems, we introduce HTS-AT: an
audio transformer with a hierarchical structure to reduce the model size and
training time. It is further combined with a token-semantic module to map final
outputs into class featuremaps, thus enabling the model for the audio event
detection (i.e. localization in time). We evaluate HTS-AT on three datasets of
audio classification where it achieves new state-of-the-art (SOTA) results on
AudioSet and ESC-50, and equals the SOTA on Speech Command V2. It also achieves
better performance in event localization than the previous CNN-based models.
Moreover, HTS-AT requires only 35% model parameters and 15% training time of
the previous audio transformer. These results demonstrate the high performance
and high efficiency of HTS-AT.
- Abstract(参考訳): 音声分類は、音声サンプルを対応するラベルにマッピングする重要なタスクである。
近年,本分野では自己注意機構を持つ変圧器モデルが採用されている。
しかし、既存のオーディオトランスフォーマーは大きなGPUメモリと長いトレーニング時間を必要とし、一方、事前訓練されたビジョンモデルを使用してハイパフォーマンスを実現し、オーディオタスクにおけるモデルのスケーラビリティを制限している。
これらの問題に対処するため,階層構造を持つ音声変換器HTS-ATを導入し,モデルサイズとトレーニング時間を短縮する。
さらに、最終的な出力をクラスフィーチャーマップにマッピングするトークン・セマンティクスモジュールと組み合わせることで、オーディオイベント検出(すなわち、時間のローカライズ)のモデルを可能にする。
我々は,HTS-ATを音声分類の3つのデータセットで評価し,AudioSetとESC-50でSOTA(State-of-the-art)結果を得た。
また、以前のcnnベースのモデルよりもイベントローカライゼーションのパフォーマンスが向上している。
さらに、HTS-ATは35%のモデルパラメータと15%のトレーニング時間しか必要としない。
これらの結果は, HTS-ATの性能と高効率性を示す。
関連論文リスト
- Taming Data and Transformers for Audio Generation [49.54707963286065]
AutoCapは高品質で効率的なオーディオキャプションモデルである。
GenAuはスケーラブルなトランスフォーマーベースのオーディオ生成アーキテクチャである。
57Mの環境オーディオクリップをコンパイルし、最大のオーディオテキストデータセットであるAutoReCap-XLを作成します。
論文 参考訳(メタデータ) (2024-06-27T17:58:54Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Retrieval-Augmented Text-to-Audio Generation [36.328134891428085]
本稿では,AudioLDMのような最先端モデルが,その世代性能に偏っていることを示す。
本稿では,TTAモデルに対する単純な検索拡張手法を提案する。
Re-AudioLDMは、複雑なシーン、稀なオーディオクラス、さらには目に見えないオーディオタイプに対して、現実的なオーディオを生成することができる。
論文 参考訳(メタデータ) (2023-09-14T22:35:39Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - Efficient Large-scale Audio Tagging via Transformer-to-CNN Knowledge
Distillation [6.617487928813374]
高性能だが複雑な変換器からのオフライン知識蒸留(KD)に基づく効率的なCNNの訓練手順を提案する。
我々は、低複雑さモデルからAudioSetの.483 mAPの新たな最先端パフォーマンスまで、さまざまな複雑さレベルのモデルを提供しています。
論文 参考訳(メタデータ) (2022-11-09T09:58:22Z) - Contrastive Audio-Visual Masked Autoencoder [85.53776628515561]
CAV-MAE(Contrastive Audio-Visual Masked Auto-Encoder)
我々の完全自己指導型CAV-MAEは、VGGSoundで65.9%の新しいSOTA精度を実現する。
論文 参考訳(メタデータ) (2022-10-02T07:29:57Z) - SSAST: Self-Supervised Audio Spectrogram Transformer [19.09439093130855]
本稿では,非ラベル音声を用いた音声スペクトログラム変換器(AST)モデルを,共同識別・生成型マスマスキング・スペクトログラム・パッチ・モデリング(MSPM)で事前学習することを提案する。
我々は、音声イベント分類、キーワードスポッティング、感情認識、話者識別を含む音声および音声の分類タスクにおいて、事前訓練されたモデルを評価する。
我々の知る限りでは、このフレームワークはオーディオおよび音声領域における最初のパッチベースのセルフ教師あり学習フレームワークであり、ASTのための最初のセルフ教師あり学習フレームワークでもある。
論文 参考訳(メタデータ) (2021-10-19T07:58:28Z) - Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio
Representation [51.37980448183019]
本稿では,自己教師型音声表現モデルの簡易版であるAudio ALBERTを提案する。
我々は、Audio ALBERTが、下流タスクにおいて、これらの巨大なモデルと競合する性能を達成することができることを示す。
探索実験において、潜在表現は、最後の層よりも音素と話者のリッチな情報をエンコードすることがわかった。
論文 参考訳(メタデータ) (2020-05-18T10:42:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。