Fugu-MT 論文翻訳(概要): MAST: Multiscale Audio Spectrogram Transformers

論文の概要: MAST: Multiscale Audio Spectrogram Transformers

arxiv url: http://arxiv.org/abs/2211.01515v2
Date: Thu, 18 May 2023 01:35:55 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-19 20:41:49.026416
Title: MAST: Multiscale Audio Spectrogram Transformers
Title（参考訳）: mast:マルチスケールオーディオスペクトログラムトランスフォーマー
Authors: Sreyan Ghosh and Ashish Seth and S. Umesh and Dinesh Manocha
Abstract要約: 音声分類のためのマルチスケール音声スペクトログラム変換器(MAST)について,マルチスケール特徴階層の概念をAST(Audio Spectrogram Transformer)に適用した。実際に、MASTはLAPEベンチマークの8つの音声および非音声タスクで平均3.4%の精度でASTを著しく上回っている。
参考スコア（独自算出の注目度）: 53.06337011259031
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present Multiscale Audio Spectrogram Transformer (MAST) for audio classification, which brings the concept of multiscale feature hierarchies to the Audio Spectrogram Transformer (AST). Given an input audio spectrogram, we first patchify and project it into an initial temporal resolution and embedding dimension, post which the multiple stages in MAST progressively expand the embedding dimension while reducing the temporal resolution of the input. We use a pyramid structure that allows early layers of MAST operating at a high temporal resolution but low embedding space to model simple low-level acoustic information and deeper temporally coarse layers to model high-level acoustic information with high-dimensional embeddings. We also extend our approach to present a new Self-Supervised Learning (SSL) method called SS-MAST, which calculates a symmetric contrastive loss between latent representations from a student and a teacher encoder, leveraging patch-drop, a novel audio augmentation approach that we introduce. In practice, MAST significantly outperforms AST by an average accuracy of 3.4% across 8 speech and non-speech tasks from the LAPE Benchmark, achieving state-of-the-art results on keyword spotting in Speech Commands. Additionally, our proposed SS-MAST achieves an absolute average improvement of 2.6% over the previously proposed SSAST.
Abstract（参考訳）: 本稿では,MAST(Multiscale Audio Spectrogram Transformer)を音響分類に適用し,マルチスケール特徴階層の概念をAST(Audio Spectrogram Transformer)に導入する。入力音声スペクトログラムが与えられたとき、まずパッチを当てて初期時間分解能と埋め込み次元に投影し、マストの複数のステージが徐々に埋め込み次元を拡大し、入力の時間分解能を低減させる。我々は,MASTの初期層を高時間分解能かつ低埋め込み空間で動作させるピラミッド構造を用いて,単純な低レベル音響情報をモデル化し,高次元埋め込みを用いて高レベル音響情報をモデル化する。我々はまた、学生と教師エンコーダの潜在表現間の対称的なコントラスト損失を計算し、パッチ・ドロップを利用するSS-MASTと呼ばれる新しい自己監督学習(SSL)手法を提案するために、我々のアプローチを拡張した。実際に、MASTは、LAPEベンチマークの8つの音声および非音声タスクで平均3.4%の精度でASTを著しく上回り、音声コマンドにおけるキーワードスポッティングの最先端の結果を得る。さらに,提案したSS-MASTは,提案したSSASTよりも平均2.6%向上した。

関連論文リスト

Adaptive Audio-Visual Speech Recognition via Matryoshka-Based Multimodal LLMs [33.12165044958361]
近年のLarge Language Models (LLMs) の進歩は、音声認識において、AVSR (Audio-Visual Speech Recognition) を含むその効果を実証している。音声表現のかなりの長さのため、LLMとの直接統合は相当な計算コストを課す。 AVSRのための最初のマトリオシュカベースのマルチモーダルLLMであるLlama-MTSKを提案する。
論文参考訳（メタデータ） (2025-03-09T00:02:10Z)
From Coarse to Fine: Efficient Training for Audio Spectrogram Transformers [16.90294414874585]
粗粒化モデルと変圧器モデルとの結合による音声スペクトログラム変換器の多相学習を提案する。これらの手法の1つを利用することで、トランスフォーマーモデルは初期段階の低解像度(粗い)データから学習し、その後、カリキュラム学習戦略において高解像度のデータで微調整される。
論文参考訳（メタデータ） (2024-01-16T14:59:37Z)
High-Fidelity Speech Synthesis with Minimal Supervision: All Using Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文参考訳（メタデータ） (2023-09-27T09:27:03Z)
Make-An-Audio 2: Temporal-Enhanced Text-to-Audio Generation [72.7915031238824]
大規模な拡散モデルは、テキスト・トゥ・オーディオ(T2A)合成タスクで成功している。意味的不一致や時間的一貫性の低下といった共通の問題に悩まされることが多い。我々は,Make-an-Audioの成功に基づいて,潜伏拡散に基づくT2A法であるMake-an-Audio 2を提案する。
論文参考訳（メタデータ） (2023-05-29T10:41:28Z)
Multiscale Audio Spectrogram Transformer for Efficient Audio Classification [1.797470734877199]
階層型表現学習を用いたマルチスケール音声スペクトログラム変換器(MAST)を開発した。具体的には、MASTは時間(および周波数領域)に沿って1次元(および2次元)プーリング演算子を使用し、トークンの数を徐々に減少させ、特徴次元を増大させる。
論文参考訳（メタデータ） (2023-03-19T20:21:29Z)
A Multi-Stage Multi-Codebook VQ-VAE Approach to High-Performance Neural TTS [52.51848317549301]
高速なTTS合成のためのマルチステージマルチコードブック(MSMC)手法を提案する。ベクトル量子化可変オートエンコーダ(VQ-VAE)に基づく特徴解析器を用いて,音声訓練データのメルスペクトルを符号化する。合成において、ニューラルネットワークは予測されたSMCRを最終的な音声波形に変換する。
論文参考訳（メタデータ） (2022-09-22T09:43:17Z)
TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。 TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文参考訳（メタデータ） (2022-05-25T06:34:14Z)
MAE-AST: Masked Autoencoding Audio Spectrogram Transformer [11.814012909512307]
本稿では,音声と音声の分類のための音声スペクトル変換器(SSAST)モデルに対する簡易かつ強力な改良を提案する。我々は、SSASTが事前トレーニング中に非常に高いマスキング比(75%)を使用するという知見を活用する。 MAEライクな事前トレーニングは,バニラSSASTよりも3倍のスピードアップと2倍のメモリ使用量の削減を可能にする。
論文参考訳（メタデータ） (2022-03-30T22:06:13Z)
Self-Supervised Learning for speech recognition with Intermediate layer supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。 ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。 LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文参考訳（メタデータ） (2021-12-16T10:45:05Z)
Discriminative Multi-modality Speech Recognition [17.296404414250553]
視覚は、しばしば音声音声認識(ASR)の相補的モダリティとして使用される。本稿では,2段階音声認識モデルを提案する。第1段階では、対象の音声を、対応する唇の動きの視覚情報から助けを借りて背景雑音から分離し、モデル「リスト」を明確にする。第2段階では、音声モダリティは視覚的モダリティを再び組み合わせて、MSRサブネットワークによる音声の理解を深め、認識率をさらに向上させる。
論文参考訳（メタデータ） (2020-05-12T07:56:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。