Fugu-MT 論文翻訳(概要): HTS-AT: A Hierarchical Token-Semantic Audio Transformer for Sound Classification and Detection

論文の概要: HTS-AT: A Hierarchical Token-Semantic Audio Transformer for Sound Classification and Detection

arxiv url: http://arxiv.org/abs/2202.00874v1
Date: Wed, 2 Feb 2022 04:49:14 GMT
ステータス: 翻訳完了
システム内更新日: 2022-02-03 22:28:17.466449
Title: HTS-AT: A Hierarchical Token-Semantic Audio Transformer for Sound Classification and Detection
Title（参考訳）: HTS-AT:音の分類・検出のための階層型音声変換器
Authors: Ke Chen, Xingjian Du, Bilei Zhu, Zejun Ma, Taylor Berg-Kirkpatrick, Shlomo Dubnov
Abstract要約: HTS-ATは、モデルサイズとトレーニング時間を短縮する階層構造を持つオーディオトランスである。従来のCNNベースのモデルよりも、イベントローカライゼーションにおけるパフォーマンスの向上を実現している。
参考スコア（独自算出の注目度）: 43.50970305209596
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Audio classification is an important task of mapping audio samples into their corresponding labels. Recently, the transformer model with self-attention mechanisms has been adopted in this field. However, existing audio transformers require large GPU memories and long training time, meanwhile relying on pretrained vision models to achieve high performance, which limits the model's scalability in audio tasks. To combat these problems, we introduce HTS-AT: an audio transformer with a hierarchical structure to reduce the model size and training time. It is further combined with a token-semantic module to map final outputs into class featuremaps, thus enabling the model for the audio event detection (i.e. localization in time). We evaluate HTS-AT on three datasets of audio classification where it achieves new state-of-the-art (SOTA) results on AudioSet and ESC-50, and equals the SOTA on Speech Command V2. It also achieves better performance in event localization than the previous CNN-based models. Moreover, HTS-AT requires only 35% model parameters and 15% training time of the previous audio transformer. These results demonstrate the high performance and high efficiency of HTS-AT.
Abstract（参考訳）: 音声分類は、音声サンプルを対応するラベルにマッピングする重要なタスクである。近年,本分野では自己注意機構を持つ変圧器モデルが採用されている。しかし、既存のオーディオトランスフォーマーは大きなGPUメモリと長いトレーニング時間を必要とし、一方、事前訓練されたビジョンモデルを使用してハイパフォーマンスを実現し、オーディオタスクにおけるモデルのスケーラビリティを制限している。これらの問題に対処するため,階層構造を持つ音声変換器HTS-ATを導入し,モデルサイズとトレーニング時間を短縮する。さらに、最終的な出力をクラスフィーチャーマップにマッピングするトークン・セマンティクスモジュールと組み合わせることで、オーディオイベント検出(すなわち、時間のローカライズ)のモデルを可能にする。我々は,HTS-ATを音声分類の3つのデータセットで評価し,AudioSetとESC-50でSOTA(State-of-the-art)結果を得た。また、以前のcnnベースのモデルよりもイベントローカライゼーションのパフォーマンスが向上している。さらに、HTS-ATは35%のモデルパラメータと15%のトレーニング時間しか必要としない。これらの結果は, HTS-ATの性能と高効率性を示す。

関連論文リスト

AudioMAE++: learning better masked audio representations with SwiGLU FFNs [16.359968937403405]
Masked Autoencoders (MAEs) は、音声スペクトログラムパッチを訓練し、自己教師付き音声表現を学習するための顕著なアプローチとして登場した。本稿では,音声マスク付きオートエンコーダであるAudioMAE++を提案する。 AudioSetデータセットで事前トレーニングされた場合、提案されたAudioMAE++モデルは、既存のMAEベースの10のダウンストリームタスクよりも優れている。
論文参考訳（メタデータ） (2025-07-14T16:41:03Z)
Taming Data and Transformers for Audio Generation [49.54707963286065]
AutoCapは高品質で効率的なオーディオキャプションモデルである。 GenAuはスケーラブルなトランスフォーマーベースのオーディオ生成アーキテクチャである。 57Mの環境オーディオクリップをコンパイルし、最大のオーディオテキストデータセットであるAutoReCap-XLを作成します。
論文参考訳（メタデータ） (2024-06-27T17:58:54Z)
Audio Mamba: Bidirectional State Space Model for Audio Representation Learning [15.472819870523093]
本稿では,音声分類のためのSSMベースモデルとして,自己注意のない初のAudio Mambaを紹介する。我々は、AuMを6つの異なるベンチマークを含む様々なオーディオデータセットで評価し、同等またはより良いパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-06-05T15:00:59Z)
Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文参考訳（メタデータ） (2024-03-14T01:16:32Z)
Retrieval-Augmented Text-to-Audio Generation [36.328134891428085]
本稿では,AudioLDMのような最先端モデルが,その世代性能に偏っていることを示す。本稿では,TTAモデルに対する単純な検索拡張手法を提案する。 Re-AudioLDMは、複雑なシーン、稀なオーディオクラス、さらには目に見えないオーディオタイプに対して、現実的なオーディオを生成することができる。
論文参考訳（メタデータ） (2023-09-14T22:35:39Z)
Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。 Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文参考訳（メタデータ） (2023-06-06T08:54:49Z)
BEATs: Audio Pre-Training with Acoustic Tokenizers [77.8510930885778]
自己教師付き学習(SSL)は、ここ数年、言語、ビジョン、スピーチ、オーディオドメインで目撃されてきた。本稿では、音声変換器から双方向表現を学習するための反復型オーディオ事前学習フレームワークBEATを提案する。最初のイテレーションでは、ランダムプロジェクションを音響トークンとして使用し、マスクとラベル予測の方法でオーディオSSLモデルをトレーニングする。そこで,本研究では,事前学習あるいは微調整した音声SSLモデルから意味知識を抽出することにより,次のイテレーションのための音響トークン化装置を訓練する。
論文参考訳（メタデータ） (2022-12-18T10:41:55Z)
Efficient Large-scale Audio Tagging via Transformer-to-CNN Knowledge Distillation [6.617487928813374]
高性能だが複雑な変換器からのオフライン知識蒸留(KD)に基づく効率的なCNNの訓練手順を提案する。我々は、低複雑さモデルからAudioSetの.483 mAPの新たな最先端パフォーマンスまで、さまざまな複雑さレベルのモデルを提供しています。
論文参考訳（メタデータ） (2022-11-09T09:58:22Z)
Contrastive Audio-Visual Masked Autoencoder [85.53776628515561]
CAV-MAE(Contrastive Audio-Visual Masked Auto-Encoder) 我々の完全自己指導型CAV-MAEは、VGGSoundで65.9%の新しいSOTA精度を実現する。
論文参考訳（メタデータ） (2022-10-02T07:29:57Z)
SSAST: Self-Supervised Audio Spectrogram Transformer [19.09439093130855]
本稿では,非ラベル音声を用いた音声スペクトログラム変換器(AST)モデルを,共同識別・生成型マスマスキング・スペクトログラム・パッチ・モデリング(MSPM)で事前学習することを提案する。我々は、音声イベント分類、キーワードスポッティング、感情認識、話者識別を含む音声および音声の分類タスクにおいて、事前訓練されたモデルを評価する。我々の知る限りでは、このフレームワークはオーディオおよび音声領域における最初のパッチベースのセルフ教師あり学習フレームワークであり、ASTのための最初のセルフ教師あり学習フレームワークでもある。
論文参考訳（メタデータ） (2021-10-19T07:58:28Z)
Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio Representation [51.37980448183019]
本稿では,自己教師型音声表現モデルの簡易版であるAudio ALBERTを提案する。我々は、Audio ALBERTが、下流タスクにおいて、これらの巨大なモデルと競合する性能を達成することができることを示す。探索実験において、潜在表現は、最後の層よりも音素と話者のリッチな情報をエンコードすることがわかった。
論文参考訳（メタデータ） (2020-05-18T10:42:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。