論文の概要: MAE-AST: Masked Autoencoding Audio Spectrogram Transformer
- arxiv url: http://arxiv.org/abs/2203.16691v1
- Date: Wed, 30 Mar 2022 22:06:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-02 08:44:47.990303
- Title: MAE-AST: Masked Autoencoding Audio Spectrogram Transformer
- Title(参考訳): mae-ast: マスク付き自動エンコーディングオーディオスペクトログラムトランスフォーマ
- Authors: Alan Baade, Puyuan Peng, David Harwath
- Abstract要約: 本稿では,音声と音声の分類のための音声スペクトル変換器(SSAST)モデルに対する簡易かつ強力な改良を提案する。
我々は、SSASTが事前トレーニング中に非常に高いマスキング比(75%)を使用するという知見を活用する。
MAEライクな事前トレーニングは,バニラSSASTよりも3倍のスピードアップと2倍のメモリ使用量の削減を可能にする。
- 参考スコア(独自算出の注目度): 11.814012909512307
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose a simple yet powerful improvement over the recent
Self-Supervised Audio Spectrogram Transformer (SSAST) model for speech and
audio classification. Specifically, we leverage the insight that the SSAST uses
a very high masking ratio (75%) during pretraining, meaning that the vast
majority of self-attention compute is performed on mask tokens. We address this
by integrating the encoder-decoder architecture from Masked Autoencoders are
Scalable Vision Learners (MAE) into the SSAST, where a deep encoder operates on
only unmasked input, and a shallow decoder operates on encoder outputs and mask
tokens. We find that MAE-like pretraining can provide a 3x speedup and 2x
memory usage reduction over the vanilla SSAST using current audio pretraining
strategies with ordinary model and input sizes. When fine-tuning on downstream
tasks, which only uses the encoder, we find that our approach outperforms the
SSAST on a variety of downstream tasks. We further conduct comprehensive
evaluations into different strategies of pretraining and explore differences in
MAE-style pretraining between the visual and audio domains.
- Abstract(参考訳): 本稿では,音声と音声の分類のための音声スペクトル変換器(SSAST)モデルに対して,簡易かつ強力な改良を提案する。
具体的には、ssastが事前トレーニング中に非常に高いマスク比(75%)を使用しているという洞察を利用する。
マスク付きオートエンコーダからのエンコーダ-デコーダアーキテクチャはスケーラブルなビジョン学習者(mae)をssastに統合し,深いエンコーダが未入力入力でのみ動作し,浅いデコーダがエンコーダ出力とマスクトークンを操作する。
maeライクなプリトレーニングは,通常のモデルと入力サイズによる現在のオーディオプリトレーニング戦略を用いて,バニラssastの3倍のスピードアップと2倍のメモリ使用率削減を実現することができる。
エンコーダのみを使用するダウンストリームタスクの微調整を行う場合,このアプローチは,ダウンストリームタスクのssastよりも優れています。
さらに,視覚領域と音声領域のMAEスタイルの事前学習の違いを探索し,事前学習の異なる戦略を総合的に評価する。
関連論文リスト
- Extending Video Masked Autoencoders to 128 frames [75.01251612160829]
ビデオ理解は、自己指導型事前学習目標による強力なパフォーマンスを示す最近のビデオファンデーションモデルにおいて大きな進歩をみせている。
しかし、MAE事前学習を利用した以前の研究の大部分は、ハードウェアメモリと、メモリ集約型の自己保持復号化によるビデオ長の低下により、比較的短いビデオ表現(長さ16 / 32 フレーム)に重点を置いていた。
より長いビデオシーケンス(128フレーム)のトレーニングが可能で、より一般的なランダムよりも優れたパフォーマンスが得られるトークンの優先順位付けのための効果的な戦略を提案する。
論文 参考訳(メタデータ) (2024-11-20T20:00:38Z) - Rethinking Patch Dependence for Masked Autoencoders [92.37365660775171]
マスク付きオートエンコーダ(MAE)の復号機構におけるパッチ間依存関係の再検討
我々は,クロスアテンション・マスケッド・オートエンコーダ(CrossMAE)という新しい事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-25T18:49:57Z) - Drop your Decoder: Pre-training with Bag-of-Word Prediction for Dense Passage Retrieval [26.00149743478937]
マスケードオートエンコーダの事前学習は,高密度検索システムの初期化・拡張技術として広く普及している。
マスク付きオートエンコーダのデコーダを、完全に単純化されたBag-of-Word予測タスクに置き換えることで、従来のMAEの修正を提案する。
提案手法は,新たなパラメータを必要とせずに,大規模検索ベンチマークにおける最先端の検索性能を実現する。
論文 参考訳(メタデータ) (2024-01-20T15:02:33Z) - Masked Audio Generation using a Single Non-Autoregressive Transformer [90.11646612273965]
MAGNeTは、複数のオーディオトークンストリーム上で直接動作するマスク付き生成シーケンスモデリング手法である。
テキスト・トゥ・ミュージック・アンド・テキスト・トゥ・オーディオ・ジェネレーションのタスクにおけるMAGNeTの有効性を実証する。
我々は、自己回帰と非自己回帰モデリングのトレードオフを指摘するとともに、MAGNeTを構成する各コンポーネントの重要性を強調した。
論文 参考訳(メタデータ) (2024-01-09T14:29:39Z) - Regress Before Construct: Regress Autoencoder for Point Cloud
Self-supervised Learning [18.10704604275133]
Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンのための自己教師型学習において有望な性能を示した。
我々は、ポイントクラウド自己教師型学習のための回帰オートエンコーダの新しいスキーム、Point Regress AutoEncoder (Point-RAE)を提案する。
本手法は, 各種下流タスクの事前学習において効率よく, 一般化可能である。
論文 参考訳(メタデータ) (2023-09-25T17:23:33Z) - Masked Autoencoders that Listen [79.99280830830854]
本稿では,画像ベースMasked Autoencoders(MAE)の音声スペクトログラムからの自己教師型表現学習への簡単な拡張について検討する。
MAEにおけるTransformer encoder-decoderの設計に続いて、Audio-MAEはまず、ハイマスキング比でオーディオスペクトログラムパッチを符号化し、エンコーダ層を介して非マスキングトークンのみを供給します。
次にデコーダは、入力スペクトログラムを再構築するために、マスクトークンでパッドされたエンコードされたコンテキストを再注文し、デコードする。
論文 参考訳(メタデータ) (2022-07-13T17:59:55Z) - RetroMAE: Pre-training Retrieval-oriented Transformers via Masked
Auto-Encoder [15.24707645921207]
本稿では,RetroMAE として知られる Masked Auto-Encoder に基づく高密度検索のための新しい事前学習フレームワークを提案する。
私たちは、英語のWikipediaやBookCorpusでBERTのようなエンコーダを事前訓練しています。
論文 参考訳(メタデータ) (2022-05-24T12:43:04Z) - Masked Autoencoders As Spatiotemporal Learners [60.83955416682043]
本稿では,ビデオからの時間的表現学習へのMasked Autoencoders(MAE)の拡張を概念的にシンプルに検討する。
ビデオ中の時空パッチをランダムにマスクアウトし、オートエンコーダを学習してピクセルで再構成する。
最適なマスキング比は90%(画像上では75%)であり、この比がデータの情報冗長性と関連しているという仮説を支持する。
論文 参考訳(メタデータ) (2022-05-18T17:59:59Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。