論文の概要: Multi-level Attention Fusion Network for Audio-visual Event Recognition
- arxiv url: http://arxiv.org/abs/2106.06736v1
- Date: Sat, 12 Jun 2021 10:24:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-19 20:16:05.425008
- Title: Multi-level Attention Fusion Network for Audio-visual Event Recognition
- Title(参考訳): 視聴覚イベント認識のためのマルチレベルアテンション融合ネットワーク
- Authors: Mathilde Brousmiche and Jean Rouat and St\'ephane Dupont
- Abstract要約: イベント分類は本質的にシーケンシャルでマルチモーダルである。
ディープニューラルモデルは、ビデオの最も関連性の高い時間ウィンドウと/またはモダリティに動的に集中する必要がある。
イベント認識のための視覚情報と音声情報を動的に融合するアーキテクチャであるマルチレベル注意融合ネットワーク(MAFnet)を提案する。
- 参考スコア(独自算出の注目度): 6.767885381740951
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Event classification is inherently sequential and multimodal. Therefore, deep
neural models need to dynamically focus on the most relevant time window and/or
modality of a video. In this study, we propose the Multi-level Attention Fusion
network (MAFnet), an architecture that can dynamically fuse visual and audio
information for event recognition. Inspired by prior studies in neuroscience,
we couple both modalities at different levels of visual and audio paths.
Furthermore, the network dynamically highlights a modality at a given time
window relevant to classify events. Experimental results in AVE (Audio-Visual
Event), UCF51, and Kinetics-Sounds datasets show that the approach can
effectively improve the accuracy in audio-visual event classification. Code is
available at: https://github.com/numediart/MAFnet
- Abstract(参考訳): イベント分類は本質的にシーケンシャルかつマルチモーダルである。
したがって、ディープニューラルモデルは、ビデオの最も関連する時間ウィンドウと/またはモダリティに動的に焦点を合わせる必要がある。
本研究では,イベント認識のための視覚情報と音声情報を動的に融合するアーキテクチャであるマルチレベル注意融合ネットワーク(MAFnet)を提案する。
神経科学の先行研究に触発されて、視覚と聴覚の異なるレベルで2つのモダリティを結合した。
さらに、ネットワークは、イベントの分類に関連する所定の時間ウィンドウのモダリティを動的に強調する。
AVE(Audio-Visual Event)、UCF51、Kinetics-Soundsデータセットによる実験結果から、この手法は音声・視覚イベント分類の精度を効果的に向上できることが示された。
https://github.com/numediart/mafnet
関連論文リスト
- TMac: Temporal Multi-Modal Graph Learning for Acoustic Event
Classification [60.038979555455775]
本稿では,TMacと呼ばれる音響事象分類のための時間多重モーダルグラフ学習法を提案する。
特に,音響イベント毎に時間グラフを構築し,音声データと映像データを複数のセグメントに分割する。
いくつかの実験により、TMacは他のSOTAモデルよりも性能が優れていることを示した。
論文 参考訳(メタデータ) (2023-09-21T07:39:08Z) - Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - Furnishing Sound Event Detection with Language Model Abilities [11.435984426303419]
本稿では,音のイベント分類と時間的位置を求めるために,音声特徴とテキスト特徴を整列させるエレガントな手法を提案する。
フレームワークは、アコースティックエンコーダと、テキストとオーディオの対応する表現を整列するコントラストモジュールと、分離された言語デコーダで構成される。
論文 参考訳(メタデータ) (2023-08-22T15:59:06Z) - Accommodating Audio Modality in CLIP for Multimodal Processing [48.83906067348211]
視覚言語モデルCLIPを拡張し、視覚言語モデルAudioのマルチモーダル処理におけるオーディオモダリティに対応する。
具体的には、モーダル間およびモーダル内コントラスト学習を用いて、オーディオと他のモーダル間の相関について検討する。
提案するCLIP4VLAモデルは,ビデオ検索やビデオキャプションなど,さまざまな下流タスクで検証される。
論文 参考訳(メタデータ) (2023-03-12T06:57:01Z) - Temporal and cross-modal attention for audio-visual zero-shot learning [38.02396786726476]
ビデオ分類のための一般的なゼロショット学習では、音声と視覚情報の関係を理解する必要がある。
本稿では,マルチモーダル・テンポラル・クロスアテンション・フレームワーク(modelName)を提案する。
本稿では, 時間的特徴を取り入れたフレームワークが, UCf, vgg, アクティビティベンチマークにおいて, ゼロショット学習のための最先端性能をもたらすことを示す。
論文 参考訳(メタデータ) (2022-07-20T15:19:30Z) - Audio-Visual Fusion Layers for Event Type Aware Video Recognition [86.22811405685681]
マルチタスク学習方式において,個別のイベント固有のレイヤによるマルチセンサ統合問題に対処する新しいモデルを提案する。
我々のネットワークは単一のラベルで表現されているが、与えられたビデオを表現するために、さらに真のマルチラベルを出力できる。
論文 参考訳(メタデータ) (2022-02-12T02:56:22Z) - Joint Learning of Visual-Audio Saliency Prediction and Sound Source
Localization on Multi-face Videos [101.83513408195692]
マルチタスク学習手法を提案する。
提案手法は,12種類の精度予測法より優れ,音源定位における競合的な結果が得られる。
論文 参考訳(メタデータ) (2021-11-05T14:35:08Z) - Audio-visual Representation Learning for Anomaly Events Detection in
Crowds [119.72951028190586]
本稿では,音声と視覚信号の同時モデリングにおけるマルチモーダル学習の活用を試みる。
監視シーンにおける合成音声視覚データセットであるSHADEデータセットについて実験を行った。
音声信号の導入は,異常事象の検出性能を効果的に向上し,他の最先端手法よりも優れることがわかった。
論文 参考訳(メタデータ) (2021-10-28T02:42:48Z) - Look, Listen, and Attend: Co-Attention Network for Self-Supervised
Audio-Visual Representation Learning [17.6311804187027]
音声と視覚イベントの相関関係は、ニューラルネットワークをトレーニングするための自由教師付き情報として利用することができる。
本稿では,非競合ビデオから汎用的なクロスモーダル表現を学習するためのコアテンション機構を備えた,新しい自己教師型フレームワークを提案する。
実験の結果,従来の手法に比べてパラメータが少なめでありながら,プレテキストタスク上での最先端性能が得られた。
論文 参考訳(メタデータ) (2020-08-13T10:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。