論文の概要: MAST: Multiscale Audio Spectrogram Transformers
- arxiv url: http://arxiv.org/abs/2211.01515v1
- Date: Wed, 2 Nov 2022 23:34:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-11-04 12:26:12.838291
- Title: MAST: Multiscale Audio Spectrogram Transformers
- Title(参考訳): mast:マルチスケールオーディオスペクトログラムトランスフォーマー
- Authors: Sreyan Ghosh and Ashish Seth and S. Umesh and Dinesh Manocha
- Abstract要約: 音声分類のためのマルチスケール音声スペクトログラム変換器(MAST)について,マルチスケール特徴階層の概念をAST(Audio Spectrogram Transformer)に適用した。
我々は,MASTの初期層を高時間分解能かつ低埋め込み空間で動作させるピラミッド構造を用いる。
また,学生と教師のエンコーダからの潜在表現間の対称的コントラスト損失を算出するSS-MASTと呼ばれる新たな自己監督学習(SSL)手法を提案する。
- 参考スコア(独自算出の注目度): 53.06337011259031
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Multiscale Audio Spectrogram Transformer (MAST) for audio
classification, which brings the concept of multiscale feature hierarchies to
the Audio Spectrogram Transformer (AST). Given an input audio spectrogram we
first patchify and project it into an initial temporal resolution and embedding
dimension, post which the multiple stages in MAST progressively expand the
embedding dimension while reducing the temporal resolution of the input. We use
a pyramid structure that allows early layers of MAST operating at a high
temporal resolution but low embedding space to model simple low-level acoustic
information and deeper temporally coarse layers to model high-level acoustic
information with high-dimensional embeddings. We also extend our approach to
present a new Self-Supervised Learning (SSL) method called SS-MAST, which
calculates a symmetric contrastive loss between latent representations from a
student and a teacher encoder. In practice, MAST significantly outperforms AST
by an average accuracy of 3.4% across 8 speech and non-speech tasks from the
LAPE Benchmark. Moreover, SS-MAST achieves an absolute average improvement of
2.6% over SSAST for both AST and MAST encoders. We make all our codes available
on GitHub at the time of publication.
- Abstract(参考訳): 本稿では,MAST(Multiscale Audio Spectrogram Transformer)を音響分類に適用し,マルチスケール特徴階層の概念をAST(Audio Spectrogram Transformer)に導入する。
入力音声スペクトログラムが与えられた後、まずそれを初期時間分解能と埋め込み次元に分類し、MASTの複数のステージが徐々に埋め込み次元を拡大し、入力の時間分解能を低下させる。
我々は,MASTの初期層を高時間分解能かつ低埋め込み空間で動作させるピラミッド構造を用いて,単純な低レベル音響情報をモデル化し,高次元埋め込みを用いて高レベル音響情報をモデル化する。
また,生徒の潜在表現と教師エンコーダとの対称的なコントラスト損失を計算する,ss-mastと呼ばれる新しい自己教師学習(ssl)手法を提案する手法を拡張した。
実際に、MASTはLAPEベンチマークの8つの音声および非音声タスクで平均3.4%の精度でASTを著しく上回っている。
さらに、ss-mastはastとマストエンコーダの両方でssastを2.6%上回る絶対的な平均改善を達成している。
私たちはすべてのコードを公開時にGitHubで公開しています。
関連論文リスト
- Adaptive Audio-Visual Speech Recognition via Matryoshka-Based Multimodal LLMs [33.12165044958361]
近年のLarge Language Models (LLMs) の進歩は、音声認識において、AVSR (Audio-Visual Speech Recognition) を含むその効果を実証している。
音声表現のかなりの長さのため、LLMとの直接統合は相当な計算コストを課す。
AVSRのための最初のマトリオシュカベースのマルチモーダルLLMであるLlama-MTSKを提案する。
論文 参考訳(メタデータ) (2025-03-09T00:02:10Z) - From Coarse to Fine: Efficient Training for Audio Spectrogram
Transformers [16.90294414874585]
粗粒化モデルと変圧器モデルとの結合による音声スペクトログラム変換器の多相学習を提案する。
これらの手法の1つを利用することで、トランスフォーマーモデルは初期段階の低解像度(粗い)データから学習し、その後、カリキュラム学習戦略において高解像度のデータで微調整される。
論文 参考訳(メタデータ) (2024-01-16T14:59:37Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Make-An-Audio 2: Temporal-Enhanced Text-to-Audio Generation [72.7915031238824]
大規模な拡散モデルは、テキスト・トゥ・オーディオ(T2A)合成タスクで成功している。
意味的不一致や時間的一貫性の低下といった共通の問題に悩まされることが多い。
我々は,Make-an-Audioの成功に基づいて,潜伏拡散に基づくT2A法であるMake-an-Audio 2を提案する。
論文 参考訳(メタデータ) (2023-05-29T10:41:28Z) - Multiscale Audio Spectrogram Transformer for Efficient Audio
Classification [1.797470734877199]
階層型表現学習を用いたマルチスケール音声スペクトログラム変換器(MAST)を開発した。
具体的には、MASTは時間(および周波数領域)に沿って1次元(および2次元)プーリング演算子を使用し、トークンの数を徐々に減少させ、特徴次元を増大させる。
論文 参考訳(メタデータ) (2023-03-19T20:21:29Z) - A Multi-Stage Multi-Codebook VQ-VAE Approach to High-Performance Neural
TTS [52.51848317549301]
高速なTTS合成のためのマルチステージマルチコードブック(MSMC)手法を提案する。
ベクトル量子化可変オートエンコーダ(VQ-VAE)に基づく特徴解析器を用いて,音声訓練データのメルスペクトルを符号化する。
合成において、ニューラルネットワークは予測されたSMCRを最終的な音声波形に変換する。
論文 参考訳(メタデータ) (2022-09-22T09:43:17Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - MAE-AST: Masked Autoencoding Audio Spectrogram Transformer [11.814012909512307]
本稿では,音声と音声の分類のための音声スペクトル変換器(SSAST)モデルに対する簡易かつ強力な改良を提案する。
我々は、SSASTが事前トレーニング中に非常に高いマスキング比(75%)を使用するという知見を活用する。
MAEライクな事前トレーニングは,バニラSSASTよりも3倍のスピードアップと2倍のメモリ使用量の削減を可能にする。
論文 参考訳(メタデータ) (2022-03-30T22:06:13Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - Discriminative Multi-modality Speech Recognition [17.296404414250553]
視覚は、しばしば音声音声認識(ASR)の相補的モダリティとして使用される。
本稿では,2段階音声認識モデルを提案する。
第1段階では、対象の音声を、対応する唇の動きの視覚情報から助けを借りて背景雑音から分離し、モデル「リスト」を明確にする。
第2段階では、音声モダリティは視覚的モダリティを再び組み合わせて、MSRサブネットワークによる音声の理解を深め、認識率をさらに向上させる。
論文 参考訳(メタデータ) (2020-05-12T07:56:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。