論文の概要: Masked Autoencoders with Multi-Window Local-Global Attention Are Better
Audio Learners
- arxiv url: http://arxiv.org/abs/2306.00561v2
- Date: Sun, 1 Oct 2023 21:53:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-03 17:36:47.862069
- Title: Masked Autoencoders with Multi-Window Local-Global Attention Are Better
Audio Learners
- Title(参考訳): マルチウィンドウ・ローカル・グローバルに注目するマスク付きオートエンコーダは、よりよいオーディオ学習者である
- Authors: Sarthak Yadav, Sergios Theodoridis, Lars Kai Hansen and Zheng-Hua Tan
- Abstract要約: MW-MAE (Multi-Window Masked Autoencoder) にはMW-MHA (Multi-Window Multi-Head Attention) モジュールが搭載されている。
MW-MAEは、全体的なパフォーマンスにおいて標準MAEより一貫して優れ、より汎用的なオーディオ表現を学ぶ。
- 参考スコア(独自算出の注目度): 17.747301325787618
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we propose a Multi-Window Masked Autoencoder (MW-MAE) fitted
with a novel Multi-Window Multi-Head Attention (MW-MHA) module that facilitates
the modelling of local-global interactions in every decoder transformer block
through attention heads of several distinct local and global windows. Empirical
results on ten downstream audio tasks show that MW-MAEs consistently outperform
standard MAEs in overall performance and learn better general-purpose audio
representations, along with demonstrating considerably better scaling
characteristics. Investigating attention distances and entropies reveals that
MW-MAE encoders learn heads with broader local and global attention. Analyzing
attention head feature representations through Projection Weighted Canonical
Correlation Analysis (PWCCA) shows that attention heads with the same window
sizes across the decoder layers of the MW-MAE learn correlated feature
representations which enables each block to independently capture local and
global information, leading to a decoupled decoder feature hierarchy. Code for
feature extraction and downstream experiments along with pre-trained models
will be released publically.
- Abstract(参考訳): 本研究では,マルチウィンドウ・マスキング・オートエンコーダ (mw-mae) にマルチウィンドウ・マルチヘッド・アテンション (mw-mha) モジュールを組み込んだマルチウィンドウ・マスク・オートエンコーダ (mw-mae) を提案する。
10のダウンストリームオーディオタスクにおける実験結果から、MW-MAEは、全体的なパフォーマンスにおいて標準MAEよりも一貫して優れ、より汎用的なオーディオ表現を学習し、スケーリング特性が著しく向上することが示された。
注意距離とエントロピーを調査した結果、mw-maeエンコーダはより広い局所的およびグローバルな注意で頭脳を学習することが明らかとなった。
Projection Weighted Canonical correlation Analysis (PWCCA) による注目ヘッド特徴表現の解析により、MW-MAEのデコーダ層にまたがる同じウィンドウサイズを持つ注目ヘッドは、各ブロックが独立してローカルおよびグローバル情報をキャプチャできる相関特徴表現を学習し、デコーダ特徴階層が分離されることを示す。
機能抽出と下流実験のためのコードと、事前トレーニングされたモデルが公開される予定だ。
関連論文リスト
- INF-LLaVA: Dual-perspective Perception for High-Resolution Multimodal Large Language Model [71.50973774576431]
本稿では,高解像度画像認識のための新しいMLLM INF-LLaVAを提案する。
我々はDCM(Dual-perspective Cropping Module)を導入し、各サブイメージが局所的な視点から連続的な詳細を含むことを保証する。
第2に,グローバルな特徴と局所的な特徴の相互強化を可能にするDEM(Dual-perspective Enhancement Module)を導入する。
論文 参考訳(メタデータ) (2024-07-23T06:02:30Z) - Local-to-Global Cross-Modal Attention-Aware Fusion for HSI-X Semantic Segmentation [19.461033552684576]
HSI-X分類のためのローカル・グローバル・クロスモーダル・アテンション・アウェア・フュージョン(LoGoCAF)フレームワークを提案する。
LoGoCAFは、HSIとXのモダリティから情報を学ぶために、ピクセルからピクセルまでのセマンティックセマンティックセマンティックセマンティクスアーキテクチャを採用している。
論文 参考訳(メタデータ) (2024-06-25T16:12:20Z) - AMMUNet: Multi-Scale Attention Map Merging for Remote Sensing Image Segmentation [4.618389486337933]
マルチスケールアテンションマップをマージするUNetベースのフレームワークであるAMMUNetを提案する。
提案するAMMMは,マルチスケールアテンションマップを固定マスクテンプレートを用いた統一表現に効果的に結合する。
提案手法は,Vayhingenデータセットでは75.48%,Potsdamデータセットでは77.90%という顕著な平均交叉(mIoU)を達成した。
論文 参考訳(メタデータ) (2024-04-20T15:23:15Z) - Multi-view Aggregation Network for Dichotomous Image Segmentation [76.75904424539543]
Dichotomous Image (DIS) は近年,高解像度自然画像からの高精度物体分割に向けて出現している。
既存の手法は、グローバルなローカライゼーションと局所的な洗練を徐々に完了させるために、退屈な複数のエンコーダ・デコーダストリームとステージに依存している。
これに触発されて、我々は多視点オブジェクト認識問題としてdisをモデル化し、擬似多視点アグリゲーションネットワーク(MVANet)を提供する。
一般的なdis-5Kデータセットの実験では、我々のMVANetは精度と速度の両方で最先端の手法を大きく上回っている。
論文 参考訳(メタデータ) (2024-04-11T03:00:00Z) - Generalizable Entity Grounding via Assistance of Large Language Model [77.07759442298666]
本稿では,長いキャプションから密接な視覚的実体を抽出する手法を提案する。
本研究では,意味代名詞の抽出に大規模なマルチモーダルモデル,エンティティレベルのセグメンテーションを生成するクラス-aセグメンテーションモデル,および各セグメンテーション名詞と対応するセグメンテーションマスクを関連付けるマルチモーダル特徴融合モジュールを利用する。
論文 参考訳(メタデータ) (2024-02-04T16:06:05Z) - Learning to Fuse Monocular and Multi-view Cues for Multi-frame Depth
Estimation in Dynamic Scenes [51.20150148066458]
一般化されたマスクを必要とせず,ボリュームとして符号化された多視点と単眼のキューを融合させる新しい手法を提案する。
実世界のデータセットを用いた実験は,提案手法の有効性と性能を実証する。
論文 参考訳(メタデータ) (2023-04-18T13:55:24Z) - MAFormer: A Transformer Network with Multi-scale Attention Fusion for
Visual Recognition [45.68567088645708]
マルチスケールアテンションフュージョンを変換器(MAFormer)に導入する。
MAFormerは、視覚認識のためのデュアルストリームフレームワークにおいて、局所的な集約とグローバルな特徴抽出について検討する。
私たちのMAFormerは、一般的な視覚タスクで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2022-08-31T06:29:27Z) - Encoder Fusion Network with Co-Attention Embedding for Referring Image
Segmentation [87.01669173673288]
本稿では,視覚的エンコーダをマルチモーダルな特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。
EFNには、マルチモーダル機能の並列更新を実現するコアテンションメカニズムが組み込まれている。
4つのベンチマークデータセットによる実験結果から,提案手法がポストプロセッシングを伴わずに最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-05-05T02:27:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。