論文の概要: HTS-AT: A Hierarchical Token-Semantic Audio Transformer for Sound
Classification and Detection
- arxiv url: http://arxiv.org/abs/2202.00874v1
- Date: Wed, 2 Feb 2022 04:49:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-03 22:28:17.466449
- Title: HTS-AT: A Hierarchical Token-Semantic Audio Transformer for Sound
Classification and Detection
- Title(参考訳): HTS-AT:音の分類・検出のための階層型音声変換器
- Authors: Ke Chen, Xingjian Du, Bilei Zhu, Zejun Ma, Taylor Berg-Kirkpatrick,
Shlomo Dubnov
- Abstract要約: HTS-ATは、モデルサイズとトレーニング時間を短縮する階層構造を持つオーディオトランスである。
従来のCNNベースのモデルよりも、イベントローカライゼーションにおけるパフォーマンスの向上を実現している。
- 参考スコア(独自算出の注目度): 43.50970305209596
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio classification is an important task of mapping audio samples into their
corresponding labels. Recently, the transformer model with self-attention
mechanisms has been adopted in this field. However, existing audio transformers
require large GPU memories and long training time, meanwhile relying on
pretrained vision models to achieve high performance, which limits the model's
scalability in audio tasks. To combat these problems, we introduce HTS-AT: an
audio transformer with a hierarchical structure to reduce the model size and
training time. It is further combined with a token-semantic module to map final
outputs into class featuremaps, thus enabling the model for the audio event
detection (i.e. localization in time). We evaluate HTS-AT on three datasets of
audio classification where it achieves new state-of-the-art (SOTA) results on
AudioSet and ESC-50, and equals the SOTA on Speech Command V2. It also achieves
better performance in event localization than the previous CNN-based models.
Moreover, HTS-AT requires only 35% model parameters and 15% training time of
the previous audio transformer. These results demonstrate the high performance
and high efficiency of HTS-AT.
- Abstract(参考訳): 音声分類は、音声サンプルを対応するラベルにマッピングする重要なタスクである。
近年,本分野では自己注意機構を持つ変圧器モデルが採用されている。
しかし、既存のオーディオトランスフォーマーは大きなGPUメモリと長いトレーニング時間を必要とし、一方、事前訓練されたビジョンモデルを使用してハイパフォーマンスを実現し、オーディオタスクにおけるモデルのスケーラビリティを制限している。
これらの問題に対処するため,階層構造を持つ音声変換器HTS-ATを導入し,モデルサイズとトレーニング時間を短縮する。
さらに、最終的な出力をクラスフィーチャーマップにマッピングするトークン・セマンティクスモジュールと組み合わせることで、オーディオイベント検出(すなわち、時間のローカライズ)のモデルを可能にする。
我々は,HTS-ATを音声分類の3つのデータセットで評価し,AudioSetとESC-50でSOTA(State-of-the-art)結果を得た。
また、以前のcnnベースのモデルよりもイベントローカライゼーションのパフォーマンスが向上している。
さらに、HTS-ATは35%のモデルパラメータと15%のトレーニング時間しか必要としない。
これらの結果は, HTS-ATの性能と高効率性を示す。
関連論文リスト
- LauraGPT: Listen, Attend, Understand, and Regenerate Audio with GPT [67.05155876895515]
LauraGPTは音声入力とテキスト入力の両方を処理する汎用言語モデルである。
内容、意味論、パラ言語学、音声信号分析に関する幅広いタスクを実行できる。
論文 参考訳(メタデータ) (2023-10-07T03:17:59Z) - A Large-scale Dataset for Audio-Language Representation Learning [54.933479346870506]
本稿では,一連の公開ツールやAPIに基づいた,革新的で自動的な音声キャプション生成パイプラインを提案する。
我々はAuto-ACDという名前の大規模で高品質な音声言語データセットを構築し、190万以上の音声テキストペアからなる。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - Retrieval-Augmented Text-to-Audio Generation [36.328134891428085]
本稿では,AudioLDMのような最先端モデルが,その世代性能に偏っていることを示す。
本稿では,TTAモデルに対する単純な検索拡張手法を提案する。
Re-AudioLDMは、複雑なシーン、稀なオーディオクラス、さらには目に見えないオーディオタイプに対して、現実的なオーディオを生成することができる。
論文 参考訳(メタデータ) (2023-09-14T22:35:39Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - AudioLDM: Text-to-Audio Generation with Latent Diffusion Models [35.703877904270726]
テキスト音声合成システムTTA(Text-to-audio)が最近注目されている。
本研究では,音声空間上に構築されたTTAシステムであるAudioLDMを提案する。
単一のGPUでAudioCapsでトレーニングされたAudioLDMは、客観的メトリクスと主観的メトリクスの両方で測定された最先端のTTAパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-01-29T17:48:17Z) - Efficient Large-scale Audio Tagging via Transformer-to-CNN Knowledge
Distillation [6.617487928813374]
高性能だが複雑な変換器からのオフライン知識蒸留(KD)に基づく効率的なCNNの訓練手順を提案する。
我々は、低複雑さモデルからAudioSetの.483 mAPの新たな最先端パフォーマンスまで、さまざまな複雑さレベルのモデルを提供しています。
論文 参考訳(メタデータ) (2022-11-09T09:58:22Z) - Contrastive Audio-Visual Masked Autoencoder [85.53776628515561]
CAV-MAE(Contrastive Audio-Visual Masked Auto-Encoder)
我々の完全自己指導型CAV-MAEは、VGGSoundで65.9%の新しいSOTA精度を実現する。
論文 参考訳(メタデータ) (2022-10-02T07:29:57Z) - SSAST: Self-Supervised Audio Spectrogram Transformer [19.09439093130855]
本稿では,非ラベル音声を用いた音声スペクトログラム変換器(AST)モデルを,共同識別・生成型マスマスキング・スペクトログラム・パッチ・モデリング(MSPM)で事前学習することを提案する。
我々は、音声イベント分類、キーワードスポッティング、感情認識、話者識別を含む音声および音声の分類タスクにおいて、事前訓練されたモデルを評価する。
我々の知る限りでは、このフレームワークはオーディオおよび音声領域における最初のパッチベースのセルフ教師あり学習フレームワークであり、ASTのための最初のセルフ教師あり学習フレームワークでもある。
論文 参考訳(メタデータ) (2021-10-19T07:58:28Z) - Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio
Representation [51.37980448183019]
本稿では,自己教師型音声表現モデルの簡易版であるAudio ALBERTを提案する。
我々は、Audio ALBERTが、下流タスクにおいて、これらの巨大なモデルと競合する性能を達成することができることを示す。
探索実験において、潜在表現は、最後の層よりも音素と話者のリッチな情報をエンコードすることがわかった。
論文 参考訳(メタデータ) (2020-05-18T10:42:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。