論文の概要: Masked Autoencoders with Multi-Window Attention Are Better Audio
Learners
- arxiv url: http://arxiv.org/abs/2306.00561v1
- Date: Thu, 1 Jun 2023 11:20:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 16:44:22.759282
- Title: Masked Autoencoders with Multi-Window Attention Are Better Audio
Learners
- Title(参考訳): マルチウィンドウを意識したマスクオートエンコーダ
- Authors: Sarthak Yadav, Sergios Theodoridis, Lars Kai Hansen and Zheng-Hua Tan
- Abstract要約: 本研究は,マルチウィンドウ・マルチヘッド・アテンション・モジュールを備えたマルチウィンド・マスケッド・オートエンコーダを提案する。
10のダウンストリームオーディオタスクにおける実験結果から、MW-MAEは全体のパフォーマンスにおいて標準MAEよりも一貫して優れていた。
- 参考スコア(独自算出の注目度): 21.76500577894816
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Several recent works have adapted Masked Autoencoders (MAEs) for learning
general-purpose audio representations. However, they do not address two key
aspects of modelling multi-domain audio data: (i) real-world audio tasks
consist of a combination of local+global contexts, and (ii) real-world audio
signals are complex compositions of several acoustic elements with different
time-frequency characteristics. To address these concerns, this work proposes a
Multi-Window Masked Autoencoder (MW-MAE) fitted with a novel Multi-Window
Multi-Head Attention module that can capture information at multiple local and
global contexts in every decoder transformer block through attention heads of
several distinct local and global windows. Empirical results on ten downstream
audio tasks show that MW-MAEs consistently outperform standard MAEs in overall
performance and learn better general-purpose audio representations, as well as
demonstrate considerably better scaling characteristics. Exploratory analyses
of the learned representations reveals that MW-MAE encoders learn attention
heads with more distinct entropies compared to those learned by MAEs, while
attention heads across the different transformer blocks in MW-MAE decoders
learn correlated feature representations, enabling each block to independently
capture local and global information, leading to a decoupled feature hierarchy.
Code for feature extraction and downstream experiments along with pre-trained
weights can be found at https://github.com/10997NeurIPS23/10997_mwmae.
- Abstract(参考訳): 近年,Masked Autoencoders (MAE) を用いて汎用音声表現の学習を行っている。
しかし、マルチドメインオーディオデータのモデリングの2つの重要な側面には対処していない。
(i)ローカル+グローバルコンテクストの組み合わせによる実世界のオーディオタスクと
(ii)実世界の音声信号は、時間周波数特性が異なる複数の音響要素の複雑な構成である。
これらの問題に対処するため,マルチウィンドウ・マスケッド・オートエンコーダ (MW-MAE) にマルチウィンドウ・マルチヘッド・アテンション・モジュールを実装し,各デコーダ・トランスフォーマー・ブロック内の複数のローカル・グローバル・コンテクストにおける情報を,複数の異なるローカル・グローバル・ウィンドウのアテンション・ヘッドを介してキャプチャする。
10のダウンストリームオーディオタスクにおける実験結果から、MW-MAEは、全体的なパフォーマンスにおいて標準MAEよりも一貫して優れており、より汎用的なオーディオ表現を学習し、スケーリング特性が大幅に向上していることが示された。
MW-MAEデコーダは,各ブロックが局所的および大域的情報を独立にキャプチャし,分離された特徴階層を導出するのに対し,MW-MAEデコーダの異なるトランスフォーマーブロックを横断するアテンションヘッドは相関した特徴表現を学習する。
機能抽出と下流実験のためのコードは、事前トレーニングされたウェイトとともにhttps://github.com/10997neurips23/10997_mwmaeで見ることができる。
関連論文リスト
- MU-MAE: Multimodal Masked Autoencoders-Based One-Shot Learning [3.520960737058199]
マルチモーダルマスクオートエンコに基づくワンショット学習(Mu-MAE)を紹介する。
Mu-MAEは、マルチモーダルマスク付きオートエンコーダと、ウェアラブルセンサー用に調整された同期マスク戦略を統合している。
追加データを用いることなく、最大80.17%の精度で5方向のワンショット・マルチモーダル分類を実現している。
論文 参考訳(メタデータ) (2024-08-08T06:16:00Z) - INF-LLaVA: Dual-perspective Perception for High-Resolution Multimodal Large Language Model [71.50973774576431]
本稿では,高解像度画像認識のための新しいMLLM INF-LLaVAを提案する。
我々はDCM(Dual-perspective Cropping Module)を導入し、各サブイメージが局所的な視点から連続的な詳細を含むことを保証する。
第2に,グローバルな特徴と局所的な特徴の相互強化を可能にするDEM(Dual-perspective Enhancement Module)を導入する。
論文 参考訳(メタデータ) (2024-07-23T06:02:30Z) - Local-to-Global Cross-Modal Attention-Aware Fusion for HSI-X Semantic Segmentation [19.461033552684576]
HSI-X分類のためのローカル・グローバル・クロスモーダル・アテンション・アウェア・フュージョン(LoGoCAF)フレームワークを提案する。
LoGoCAFは、HSIとXのモダリティから情報を学ぶために、ピクセルからピクセルまでのセマンティックセマンティックセマンティックセマンティクスアーキテクチャを採用している。
論文 参考訳(メタデータ) (2024-06-25T16:12:20Z) - Multi-view Aggregation Network for Dichotomous Image Segmentation [76.75904424539543]
Dichotomous Image (DIS) は近年,高解像度自然画像からの高精度物体分割に向けて出現している。
既存の手法は、グローバルなローカライゼーションと局所的な洗練を徐々に完了させるために、退屈な複数のエンコーダ・デコーダストリームとステージに依存している。
これに触発されて、我々は多視点オブジェクト認識問題としてdisをモデル化し、擬似多視点アグリゲーションネットワーク(MVANet)を提供する。
一般的なdis-5Kデータセットの実験では、我々のMVANetは精度と速度の両方で最先端の手法を大きく上回っている。
論文 参考訳(メタデータ) (2024-04-11T03:00:00Z) - Generalizable Entity Grounding via Assistance of Large Language Model [77.07759442298666]
本稿では,長いキャプションから密接な視覚的実体を抽出する手法を提案する。
本研究では,意味代名詞の抽出に大規模なマルチモーダルモデル,エンティティレベルのセグメンテーションを生成するクラス-aセグメンテーションモデル,および各セグメンテーション名詞と対応するセグメンテーションマスクを関連付けるマルチモーダル特徴融合モジュールを利用する。
論文 参考訳(メタデータ) (2024-02-04T16:06:05Z) - Learning to Fuse Monocular and Multi-view Cues for Multi-frame Depth
Estimation in Dynamic Scenes [51.20150148066458]
一般化されたマスクを必要とせず,ボリュームとして符号化された多視点と単眼のキューを融合させる新しい手法を提案する。
実世界のデータセットを用いた実験は,提案手法の有効性と性能を実証する。
論文 参考訳(メタデータ) (2023-04-18T13:55:24Z) - MAFormer: A Transformer Network with Multi-scale Attention Fusion for
Visual Recognition [45.68567088645708]
マルチスケールアテンションフュージョンを変換器(MAFormer)に導入する。
MAFormerは、視覚認識のためのデュアルストリームフレームワークにおいて、局所的な集約とグローバルな特徴抽出について検討する。
私たちのMAFormerは、一般的な視覚タスクで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2022-08-31T06:29:27Z) - Encoder Fusion Network with Co-Attention Embedding for Referring Image
Segmentation [87.01669173673288]
本稿では,視覚的エンコーダをマルチモーダルな特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。
EFNには、マルチモーダル機能の並列更新を実現するコアテンションメカニズムが組み込まれている。
4つのベンチマークデータセットによる実験結果から,提案手法がポストプロセッシングを伴わずに最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-05-05T02:27:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。