Fugu-MT 論文翻訳(概要): Masked Autoencoders that Listen

論文の概要: Masked Autoencoders that Listen

arxiv url: http://arxiv.org/abs/2207.06405v1
Date: Wed, 13 Jul 2022 17:59:55 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-14 13:24:24.291313
Title: Masked Autoencoders that Listen
Title（参考訳）: 聞いているマスクオートエンコーダ
Authors: Po-Yao (Bernie) Huang, Hu Xu, Juncheng Li, Alexei Baevski, Michael Auli, Wojciech Galuba, Florian Metze, Christoph Feichtenhofer
Abstract要約: 本稿では,画像ベースMasked Autoencoders(MAE)の音声スペクトログラムからの自己教師型表現学習への簡単な拡張について検討する。 MAEにおけるTransformer encoder-decoderの設計に続いて、Audio-MAEはまず、ハイマスキング比でオーディオスペクトログラムパッチを符号化し、エンコーダ層を介して非マスキングトークンのみを供給します。次にデコーダは、入力スペクトログラムを再構築するために、マスクトークンでパッドされたエンコードされたコンテキストを再注文し、デコードする。
参考スコア（独自算出の注目度）: 79.99280830830854
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper studies a simple extension of image-based Masked Autoencoders (MAE) to self-supervised representation learning from audio spectrograms. Following the Transformer encoder-decoder design in MAE, our Audio-MAE first encodes audio spectrogram patches with a high masking ratio, feeding only the non-masked tokens through encoder layers. The decoder then re-orders and decodes the encoded context padded with mask tokens, in order to reconstruct the input spectrogram. We find it beneficial to incorporate local window attention in the decoder, as audio spectrograms are highly correlated in local time and frequency bands. We then fine-tune the encoder with a lower masking ratio on target datasets. Empirically, Audio-MAE sets new state-of-the-art performance on six audio and speech classification tasks, outperforming other recent models that use external supervised pre-training. The code and models will be at https://github.com/facebookresearch/AudioMAE.
Abstract（参考訳）: 本稿では,画像ベースMasked Autoencoders(MAE)の音声スペクトログラムからの自己教師型表現学習への簡単な拡張について検討する。 mae のトランスコーダ-デコーダ設計に続いて、オーディオ-mae はまず高いマスキング比でオーディオスペクトログラムパッチを符号化し、非マスクトークンのみをエンコーダ層を通して供給する。次にデコーダは、入力スペクトログラムを再構築するために、マスクトークンでパディングされたエンコードされたコンテキストを再順序付けしてデコードする。音声スペクトログラムは局所時間帯と周波数帯に大きく相関しているため,デコーダにローカルウィンドウアテンションを組み込むことは有益である。次に、ターゲットデータセットのマスキング比が低いエンコーダを微調整する。経験的に、audio-maeは6つの音声と音声の分類タスクで最新のパフォーマンスを新たに設定し、外部教師付き事前トレーニングを使用する他のモデルよりも優れている。コードとモデルはhttps://github.com/facebookresearch/AudioMAEにある。

関連論文リスト

Hold Me Tight: Stable Encoder-Decoder Design for Speech Enhancement [1.4037575966075835]
生のオーディオの1Dフィルターは訓練が困難で、しばしば不安定に悩まされる。これらの問題は、理論駆動とデータ駆動のアプローチを組み合わせたハイブリッドソリューションによって解決される。
論文参考訳（メタデータ） (2024-08-30T15:49:31Z)
WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling [65.30937248905958]
言語モデルの重要な構成要素は、高次元の自然信号を低次元の離散トークンに圧縮するトークン化器である。本稿では,従来の音響領域におけるSOTA音響モデルよりもいくつかの利点があるWavTokenizerを紹介する。 WavTokenizerは、優れたUTMOSスコアを持つ最先端の再構築品質を実現し、本質的によりリッチなセマンティック情報を含んでいる。
論文参考訳（メタデータ） (2024-08-29T13:43:36Z)
Rethinking Patch Dependence for Masked Autoencoders [92.37365660775171]
マスク付きオートエンコーダ(MAE)の復号機構におけるパッチ間依存関係の再検討我々は,クロスアテンション・マスケッド・オートエンコーダ(CrossMAE)という新しい事前学習フレームワークを提案する。
論文参考訳（メタデータ） (2024-01-25T18:49:57Z)
A-JEPA: Joint-Embedding Predictive Architecture Can Listen [35.308323314848735]
本稿では,音声スペクトルから自己教師付き学習を行うシンプルな拡張手法であるA-JEPAについて紹介する。 A-JEPAは、コンテキストエンコーダによるカリキュラムマスキング戦略で可視音声スペクトログラムパッチをエンコードし、よく設計された場所でサンプリングされた領域の表現を予測する。
論文参考訳（メタデータ） (2023-11-27T13:53:53Z)
Large-scale unsupervised audio pre-training for video-to-speech synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文参考訳（メタデータ） (2023-06-27T13:31:33Z)
Diffsound: Discrete Diffusion Model for Text-to-sound Generation [78.4128796899781]
本稿では,テキストエンコーダ,ベクトル量子化変分自動符号化(VQ-VAE),デコーダ,ボコーダからなる新しいテキスト音声生成フレームワークを提案する。フレームワークは、まず、デコーダを使用して、テキストエンコーダから抽出したテキスト特徴をVQ-VAEの助けを借りてメルスペクトルに転送し、次いで、ボコーダを使用して生成されたメルスペクトルを波形に変換する。
論文参考訳（メタデータ） (2022-07-20T15:41:47Z)
MAE-AST: Masked Autoencoding Audio Spectrogram Transformer [11.814012909512307]
本稿では,音声と音声の分類のための音声スペクトル変換器(SSAST)モデルに対する簡易かつ強力な改良を提案する。我々は、SSASTが事前トレーニング中に非常に高いマスキング比(75%)を使用するという知見を活用する。 MAEライクな事前トレーニングは,バニラSSASTよりも3倍のスピードアップと2倍のメモリ使用量の削減を可能にする。
論文参考訳（メタデータ） (2022-03-30T22:06:13Z)
Context Autoencoder for Self-Supervised Representation Learning [64.63908944426224]
符号化された表現空間で予測を行うことにより、符号化器を事前訓練する。ネットワークはエンコーダ/レグレッサ/デコーダアーキテクチャである。下流タスクにおける転送性能の向上によるCAEの有効性を実証する。
論文参考訳（メタデータ） (2022-02-07T09:33:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。