論文の概要: Masked Autoencoders that Listen
- arxiv url: http://arxiv.org/abs/2207.06405v1
- Date: Wed, 13 Jul 2022 17:59:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-14 13:24:24.291313
- Title: Masked Autoencoders that Listen
- Title(参考訳): 聞いているマスクオートエンコーダ
- Authors: Po-Yao (Bernie) Huang, Hu Xu, Juncheng Li, Alexei Baevski, Michael
Auli, Wojciech Galuba, Florian Metze, Christoph Feichtenhofer
- Abstract要約: 本稿では,画像ベースMasked Autoencoders(MAE)の音声スペクトログラムからの自己教師型表現学習への簡単な拡張について検討する。
MAEにおけるTransformer encoder-decoderの設計に続いて、Audio-MAEはまず、ハイマスキング比でオーディオスペクトログラムパッチを符号化し、エンコーダ層を介して非マスキングトークンのみを供給します。
次にデコーダは、入力スペクトログラムを再構築するために、マスクトークンでパッドされたエンコードされたコンテキストを再注文し、デコードする。
- 参考スコア(独自算出の注目度): 79.99280830830854
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper studies a simple extension of image-based Masked Autoencoders
(MAE) to self-supervised representation learning from audio spectrograms.
Following the Transformer encoder-decoder design in MAE, our Audio-MAE first
encodes audio spectrogram patches with a high masking ratio, feeding only the
non-masked tokens through encoder layers. The decoder then re-orders and
decodes the encoded context padded with mask tokens, in order to reconstruct
the input spectrogram. We find it beneficial to incorporate local window
attention in the decoder, as audio spectrograms are highly correlated in local
time and frequency bands. We then fine-tune the encoder with a lower masking
ratio on target datasets. Empirically, Audio-MAE sets new state-of-the-art
performance on six audio and speech classification tasks, outperforming other
recent models that use external supervised pre-training. The code and models
will be at https://github.com/facebookresearch/AudioMAE.
- Abstract(参考訳): 本稿では,画像ベースMasked Autoencoders(MAE)の音声スペクトログラムからの自己教師型表現学習への簡単な拡張について検討する。
mae のトランスコーダ-デコーダ設計に続いて、オーディオ-mae はまず高いマスキング比でオーディオスペクトログラムパッチを符号化し、非マスクトークンのみをエンコーダ層を通して供給する。
次にデコーダは、入力スペクトログラムを再構築するために、マスクトークンでパディングされたエンコードされたコンテキストを再順序付けしてデコードする。
音声スペクトログラムは局所時間帯と周波数帯に大きく相関しているため,デコーダにローカルウィンドウアテンションを組み込むことは有益である。
次に、ターゲットデータセットのマスキング比が低いエンコーダを微調整する。
経験的に、audio-maeは6つの音声と音声の分類タスクで最新のパフォーマンスを新たに設定し、外部教師付き事前トレーニングを使用する他のモデルよりも優れている。
コードとモデルはhttps://github.com/facebookresearch/AudioMAEにある。
関連論文リスト
- MAST: Multiscale Audio Spectrogram Transformers [53.06337011259031]
音声分類のためのマルチスケール音声スペクトログラム変換器(MAST)について,マルチスケール特徴階層の概念をAST(Audio Spectrogram Transformer)に適用した。
我々は,MASTの初期層を高時間分解能かつ低埋め込み空間で動作させるピラミッド構造を用いる。
また,学生と教師のエンコーダからの潜在表現間の対称的コントラスト損失を算出するSS-MASTと呼ばれる新たな自己監督学習(SSL)手法を提案する。
論文 参考訳(メタデータ) (2022-11-02T23:34:12Z) - Diffsound: Discrete Diffusion Model for Text-to-sound Generation [78.4128796899781]
本稿では,テキストエンコーダ,ベクトル量子化変分自動符号化(VQ-VAE),デコーダ,ボコーダからなる新しいテキスト音声生成フレームワークを提案する。
フレームワークは、まず、デコーダを使用して、テキストエンコーダから抽出したテキスト特徴をVQ-VAEの助けを借りてメルスペクトルに転送し、次いで、ボコーダを使用して生成されたメルスペクトルを波形に変換する。
論文 参考訳(メタデータ) (2022-07-20T15:41:47Z) - MaskOCR: Text Recognition with Masked Encoder-Decoder Pretraining [63.968176508846426]
テキスト認識のためのモデル事前学習手法であるMaskOCRを提案する。
我々のアプローチはエンコーダとデコーダの両方を逐次的に事前訓練する。
実験により,提案したMaskOCR手法はベンチマークデータセットにおいて優れた結果が得られることが示された。
論文 参考訳(メタデータ) (2022-06-01T08:27:19Z) - MAE-AST: Masked Autoencoding Audio Spectrogram Transformer [11.814012909512307]
本稿では,音声と音声の分類のための音声スペクトル変換器(SSAST)モデルに対する簡易かつ強力な改良を提案する。
我々は、SSASTが事前トレーニング中に非常に高いマスキング比(75%)を使用するという知見を活用する。
MAEライクな事前トレーニングは,バニラSSASTよりも3倍のスピードアップと2倍のメモリ使用量の削減を可能にする。
論文 参考訳(メタデータ) (2022-03-30T22:06:13Z) - Context Autoencoder for Self-Supervised Representation Learning [64.63908944426224]
自己教師型学習のための新しいマスク付き画像モデリング(MIM)手法であるコンテキストオートエンコーダ(CAE)を提案する。
画像をランダムに、可視パッチとマスクパッチの2つのセットに分割する。
提案手法は,目に見えるパッチから隠れたパッチへの予測を行う。
論文 参考訳(メタデータ) (2022-02-07T09:33:45Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z) - Autoencoding Neural Networks as Musical Audio Synthesizers [0.0]
自動符号化ニューラルネットワークを用いた音声合成手法を提案する。
オートエンコーダは、短時間のフーリエ変換フレームの圧縮と再構成を訓練する。
論文 参考訳(メタデータ) (2020-04-27T20:58:03Z) - Transformer Transducer: A Streamable Speech Recognition Model with
Transformer Encoders and RNN-T Loss [14.755108017449295]
本稿では,ストリーム音声認識システムで使用可能なTransformerエンコーダを用いたエンドツーエンド音声認識モデルを提案する。
自己アテンションに基づくトランスフォーマー計算ブロックは、オーディオシーケンスとラベルシーケンスの両方を独立に符号化するために使用される。
We present results on the LibriSpeech dataset shows that limiting the left context for self-attention makes decodinglytractable for streaming。
論文 参考訳(メタデータ) (2020-02-07T00:04:04Z) - MCSAE: Masked Cross Self-Attentive Encoding for Speaker Embedding [8.942112181408158]
本稿では,ResNet を用いたマスク型クロスアテンティブ符号化 (MCSAE) を提案する。
ハイレベル層と低レベル層の両方の機能に焦点を当てている。
実験の結果, 誤差率は2.63%, 最小検出コストは0.1453であった。
論文 参考訳(メタデータ) (2020-01-28T04:09:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。