論文の概要: MPN: Multimodal Parallel Network for Audio-Visual Event Localization
- arxiv url: http://arxiv.org/abs/2104.02971v1
- Date: Wed, 7 Apr 2021 07:44:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-08 20:34:16.937364
- Title: MPN: Multimodal Parallel Network for Audio-Visual Event Localization
- Title(参考訳): mpn:オーディオ・ビジュアルイベントローカライズのためのマルチモーダル並列ネットワーク
- Authors: Jiashuo Yu, Ying Cheng, Rui Feng
- Abstract要約: グローバルなセマンティクスと未混合なローカル情報を並列に知覚できるマルチモーダル並列ネットワーク(MPN)を提案する。
当社のフレームワークは、Audio-Visual Eventデータセットの完全に監視された設定と弱い監視された設定の両方で最先端のパフォーマンスを実現します。
- 参考スコア(独自算出の注目度): 4.856609995251114
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio-visual event localization aims to localize an event that is both
audible and visible in the wild, which is a widespread audio-visual scene
analysis task for unconstrained videos. To address this task, we propose a
Multimodal Parallel Network (MPN), which can perceive global semantics and
unmixed local information parallelly. Specifically, our MPN framework consists
of a classification subnetwork to predict event categories and a localization
subnetwork to predict event boundaries. The classification subnetwork is
constructed by the Multimodal Co-attention Module (MCM) and obtains global
contexts. The localization subnetwork consists of Multimodal Bottleneck
Attention Module (MBAM), which is designed to extract fine-grained
segment-level contents. Extensive experiments demonstrate that our framework
achieves the state-of-the-art performance both in fully supervised and weakly
supervised settings on the Audio-Visual Event (AVE) dataset.
- Abstract(参考訳): オーディオ・ビジュアル・イベント・ローカライゼーション(Audio-visual event localization)は、制約のないビデオの音声・視覚シーン分析タスクである、野生で可聴かつ可視なイベントをローカライズすることを目的としている。
この課題に対処するために,グローバルセマンティクスと未混合ローカル情報を並列に知覚できるマルチモーダル並列ネットワーク(MPN)を提案する。
具体的には、イベントカテゴリを予測する分類サブネットワークと、イベント境界を予測するローカライゼーションサブネットワークで構成される。
分類サブネットワークはMCM(Multimodal Co-attention Module)によって構築され、グローバルなコンテキストを得る。
ローカライゼーションサブネットワークは、細かなセグメントレベルのコンテンツを抽出するために設計されたMultimodal Bottleneck Attention Module (MBAM)で構成されている。
大規模な実験により,AVE(Audio-Visual Event)データセットの完全な教師付きおよび弱い教師付き設定において,我々のフレームワークが最先端のパフォーマンスを達成することが示された。
関連論文リスト
- Grounding Partially-Defined Events in Multimodal Data [61.0063273919745]
部分定義イベントに対するマルチモーダル定式化を導入し、これらのイベントの抽出を3段階スパン検索タスクとしてキャストする。
このタスクのベンチマークであるMultiVENT-Gを提案し,22.8Kのラベル付きイベント中心エンティティを含む,14.5時間の高密度アノテーション付き現在のイベントビデオと1,168のテキストドキュメントからなる。
結果は、イベント理解の抽象的な課題を示し、イベント中心のビデオ言語システムにおける約束を実証する。
論文 参考訳(メタデータ) (2024-10-07T17:59:48Z) - Locality-aware Cross-modal Correspondence Learning for Dense Audio-Visual Events Localization [50.122441710500055]
Dense-localization Audio-Visual Events (DAVE) は、未トリミングビデオで同時に見られるイベントの時間境界と対応するカテゴリを特定することを目的としている。
既存の手法では、音声と視覚の表現を明示的なモーダルなアライメント制約なしに別々に符号化する。
DAVEのための局所性を考慮したクロスモーダル対応学習フレームワークであるLOCOを提案する。
論文 参考訳(メタデータ) (2024-09-12T11:54:25Z) - Global and Local Semantic Completion Learning for Vision-Language
Pre-training [34.740507502215536]
クロスモーダルアライメントは、視覚言語事前学習モデルにおいて重要な役割を果たす。
グローバル・ローカル・セマンティック・コンプリート・ラーニング(GLSCL)タスクを提案し,グローバル・ローカル・アライメントとローカル・ローカル・アライメントを同時に行う。
論文 参考訳(メタデータ) (2023-06-12T13:20:29Z) - Multi-view Multi-label Anomaly Network Traffic Classification based on
MLP-Mixer Neural Network [55.21501819988941]
畳み込みニューラルネットワーク(CNN)に基づく既存のネットワークトラフィック分類は、グローバルな情報関連を無視しながら、トラフィックデータの局所的なパターンを強調することが多い。
本稿では,エンドツーエンドのネットワークトラフィック分類手法を提案する。
論文 参考訳(メタデータ) (2022-10-30T01:52:05Z) - Leveraging the Video-level Semantic Consistency of Event for
Audio-visual Event Localization [8.530561069113716]
AVEローカライゼーションタスクのためのビデオレベルのセマンティック・コンセンサス・ガイダンス・ネットワークを提案する。
クロスモーダルなイベント表現抽出器と、モーダル内のセマンティック一貫性向上器の2つのコンポーネントから構成される。
我々は、パブリックなAVVデータセット上で広範な実験を行い、完全に教師された設定と弱い設定の両方において最先端の手法より優れています。
論文 参考訳(メタデータ) (2022-10-11T08:15:57Z) - MHMS: Multimodal Hierarchical Multimedia Summarization [80.18786847090522]
視覚領域と言語領域を相互作用させることにより,マルチモーダル階層型マルチメディア要約(MHMS)フレームワークを提案する。
本手法は,ビデオとテキストのセグメンテーションと要約モジュールをそれぞれ含んでいる。
ドメイン間のアライメントの目的を最適な輸送距離で定式化し、代表とテキストの要約を生成する。
論文 参考訳(メタデータ) (2022-04-07T21:00:40Z) - Multi-Modulation Network for Audio-Visual Event Localization [138.14529518908736]
本研究では,映像中の可聴性と可視性の両方を有する音声視覚事象のローカライズの問題について検討する。
既存の作業は、セグメントレベルでのオーディオと視覚機能のエンコーディングと調整に重点を置いている。
本稿では、上記の相関関係を学習し、意味的ガイダンスとして活用する新しいマルチ変調ネットワーク(M2N)を提案する。
論文 参考訳(メタデータ) (2021-08-26T13:11:48Z) - Encoder Fusion Network with Co-Attention Embedding for Referring Image
Segmentation [87.01669173673288]
本稿では,視覚的エンコーダをマルチモーダルな特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。
EFNには、マルチモーダル機能の並列更新を実現するコアテンションメカニズムが組み込まれている。
4つのベンチマークデータセットによる実験結果から,提案手法がポストプロセッシングを伴わずに最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-05-05T02:27:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。