Fugu-MT 論文翻訳(概要): Multi-level Attention Fusion Network for Audio-visual Event Recognition

論文の概要: Multi-level Attention Fusion Network for Audio-visual Event Recognition

arxiv url: http://arxiv.org/abs/2106.06736v1
Date: Sat, 12 Jun 2021 10:24:52 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-19 20:16:05.425008
Title: Multi-level Attention Fusion Network for Audio-visual Event Recognition
Title（参考訳）: 視聴覚イベント認識のためのマルチレベルアテンション融合ネットワーク
Authors: Mathilde Brousmiche and Jean Rouat and St\'ephane Dupont
Abstract要約: イベント分類は本質的にシーケンシャルでマルチモーダルである。ディープニューラルモデルは、ビデオの最も関連性の高い時間ウィンドウと/またはモダリティに動的に集中する必要がある。イベント認識のための視覚情報と音声情報を動的に融合するアーキテクチャであるマルチレベル注意融合ネットワーク(MAFnet)を提案する。
参考スコア（独自算出の注目度）: 6.767885381740951
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Event classification is inherently sequential and multimodal. Therefore, deep neural models need to dynamically focus on the most relevant time window and/or modality of a video. In this study, we propose the Multi-level Attention Fusion network (MAFnet), an architecture that can dynamically fuse visual and audio information for event recognition. Inspired by prior studies in neuroscience, we couple both modalities at different levels of visual and audio paths. Furthermore, the network dynamically highlights a modality at a given time window relevant to classify events. Experimental results in AVE (Audio-Visual Event), UCF51, and Kinetics-Sounds datasets show that the approach can effectively improve the accuracy in audio-visual event classification. Code is available at: https://github.com/numediart/MAFnet
Abstract（参考訳）: イベント分類は本質的にシーケンシャルかつマルチモーダルである。したがって、ディープニューラルモデルは、ビデオの最も関連する時間ウィンドウと/またはモダリティに動的に焦点を合わせる必要がある。本研究では,イベント認識のための視覚情報と音声情報を動的に融合するアーキテクチャであるマルチレベル注意融合ネットワーク(MAFnet)を提案する。神経科学の先行研究に触発されて、視覚と聴覚の異なるレベルで2つのモダリティを結合した。さらに、ネットワークは、イベントの分類に関連する所定の時間ウィンドウのモダリティを動的に強調する。 AVE(Audio-Visual Event)、UCF51、Kinetics-Soundsデータセットによる実験結果から、この手法は音声・視覚イベント分類の精度を効果的に向上できることが示された。 https://github.com/numediart/mafnet

関連論文リスト

Towards Open-Vocabulary Audio-Visual Event Localization [59.23161248808759]
本稿では,オープン語彙音声・視覚イベントのローカライズ問題を紹介する。この問題は、音声・視覚イベントのローカライズと、推測時に見つからないデータの両方の明確なカテゴリの予測を必要とする。 OV-AVEBenchデータセットを提案する。
論文参考訳（メタデータ） (2024-11-18T04:35:20Z)
Locality-aware Cross-modal Correspondence Learning for Dense Audio-Visual Events Localization [50.122441710500055]
Dense-localization Audio-Visual Events (DAVE) は、未トリミングビデオで同時に見られるイベントの時間境界と対応するカテゴリを特定することを目的としている。既存の手法では、音声と視覚の表現を明示的なモーダルなアライメント制約なしに別々に符号化する。 DAVEのための局所性を考慮したクロスモーダル対応学習フレームワークであるLOCOを提案する。
論文参考訳（メタデータ） (2024-09-12T11:54:25Z)
CACE-Net: Co-guidance Attention and Contrastive Enhancement for Effective Audio-Visual Event Localization [11.525177542345215]
CACE-Netは、音声信号だけで視覚情報を案内する既存の方法とは異なる。本稿では、双方向の双方向の注意誘導を適応的に行うための、オーディオ-視覚協調誘導機構を提案する。 AVEデータセットの実験では、CACE-Netがオーディオ視覚イベントローカライゼーションタスクに新しいベンチマークを設定している。
論文参考訳（メタデータ） (2024-08-04T07:48:12Z)
Label-anticipated Event Disentanglement for Audio-Visual Video Parsing [61.08434062821899]
我々は新しいデコードパラダイムであるアンダーライン・サンダーライン・エンダーライン・アンダーライン・インダーライン・プロジェクション(LEAP)を導入する。 LEAPは、音声/視覚セグメントの符号化された潜在機能を意味的に独立したラベル埋め込みに反復的に投影する。 LEAPパラダイムを促進するために,新しい音声・視覚的類似性損失関数を含むセマンティック・アウェア・最適化戦略を提案する。
論文参考訳（メタデータ） (2024-07-11T01:57:08Z)
Progressive Confident Masking Attention Network for Audio-Visual Segmentation [8.591836399688052]
Audio-Visualとして知られる課題が出現し、シーン内のオブジェクトを音化するためのセグメンテーションマップを作成することを目的としている。 PMCANet(Progressive Confident Masking Attention Network)を紹介する。注意機構を利用して、音声信号と視覚フレームの本質的な相関を明らかにする。
論文参考訳（メタデータ） (2024-06-04T14:21:41Z)
TMac: Temporal Multi-Modal Graph Learning for Acoustic Event Classification [60.038979555455775]
本稿では,TMacと呼ばれる音響事象分類のための時間多重モーダルグラフ学習法を提案する。特に,音響イベント毎に時間グラフを構築し,音声データと映像データを複数のセグメントに分割する。いくつかの実験により、TMacは他のSOTAモデルよりも性能が優れていることを示した。
論文参考訳（メタデータ） (2023-09-21T07:39:08Z)
Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。 3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。 AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文参考訳（メタデータ） (2023-09-07T17:30:36Z)
Audio-Visual Fusion Layers for Event Type Aware Video Recognition [86.22811405685681]
マルチタスク学習方式において,個別のイベント固有のレイヤによるマルチセンサ統合問題に対処する新しいモデルを提案する。我々のネットワークは単一のラベルで表現されているが、与えられたビデオを表現するために、さらに真のマルチラベルを出力できる。
論文参考訳（メタデータ） (2022-02-12T02:56:22Z)
Joint Learning of Visual-Audio Saliency Prediction and Sound Source Localization on Multi-face Videos [101.83513408195692]
マルチタスク学習手法を提案する。提案手法は,12種類の精度予測法より優れ,音源定位における競合的な結果が得られる。
論文参考訳（メタデータ） (2021-11-05T14:35:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。