論文の概要: MPN: Multimodal Parallel Network for Audio-Visual Event Localization
- arxiv url: http://arxiv.org/abs/2104.02971v1
- Date: Wed, 7 Apr 2021 07:44:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-08 20:34:16.937364
- Title: MPN: Multimodal Parallel Network for Audio-Visual Event Localization
- Title(参考訳): mpn:オーディオ・ビジュアルイベントローカライズのためのマルチモーダル並列ネットワーク
- Authors: Jiashuo Yu, Ying Cheng, Rui Feng
- Abstract要約: グローバルなセマンティクスと未混合なローカル情報を並列に知覚できるマルチモーダル並列ネットワーク(MPN)を提案する。
当社のフレームワークは、Audio-Visual Eventデータセットの完全に監視された設定と弱い監視された設定の両方で最先端のパフォーマンスを実現します。
- 参考スコア(独自算出の注目度): 4.856609995251114
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio-visual event localization aims to localize an event that is both
audible and visible in the wild, which is a widespread audio-visual scene
analysis task for unconstrained videos. To address this task, we propose a
Multimodal Parallel Network (MPN), which can perceive global semantics and
unmixed local information parallelly. Specifically, our MPN framework consists
of a classification subnetwork to predict event categories and a localization
subnetwork to predict event boundaries. The classification subnetwork is
constructed by the Multimodal Co-attention Module (MCM) and obtains global
contexts. The localization subnetwork consists of Multimodal Bottleneck
Attention Module (MBAM), which is designed to extract fine-grained
segment-level contents. Extensive experiments demonstrate that our framework
achieves the state-of-the-art performance both in fully supervised and weakly
supervised settings on the Audio-Visual Event (AVE) dataset.
- Abstract(参考訳): オーディオ・ビジュアル・イベント・ローカライゼーション(Audio-visual event localization)は、制約のないビデオの音声・視覚シーン分析タスクである、野生で可聴かつ可視なイベントをローカライズすることを目的としている。
この課題に対処するために,グローバルセマンティクスと未混合ローカル情報を並列に知覚できるマルチモーダル並列ネットワーク(MPN)を提案する。
具体的には、イベントカテゴリを予測する分類サブネットワークと、イベント境界を予測するローカライゼーションサブネットワークで構成される。
分類サブネットワークはMCM(Multimodal Co-attention Module)によって構築され、グローバルなコンテキストを得る。
ローカライゼーションサブネットワークは、細かなセグメントレベルのコンテンツを抽出するために設計されたMultimodal Bottleneck Attention Module (MBAM)で構成されている。
大規模な実験により,AVE(Audio-Visual Event)データセットの完全な教師付きおよび弱い教師付き設定において,我々のフレームワークが最先端のパフォーマンスを達成することが示された。
関連論文リスト
- Global and Local Semantic Completion Learning for Vision-Language
Pre-training [34.740507502215536]
クロスモーダルアライメントは、視覚言語事前学習モデルにおいて重要な役割を果たす。
グローバル・ローカル・セマンティック・コンプリート・ラーニング(GLSCL)タスクを提案し,グローバル・ローカル・アライメントとローカル・ローカル・アライメントを同時に行う。
論文 参考訳(メタデータ) (2023-06-12T13:20:29Z) - Dense-Localizing Audio-Visual Events in Untrimmed Videos: A Large-Scale
Benchmark and Baseline [53.07236039168652]
本研究では,未編集映像に発生するすべての音声視覚イベントを共同でローカライズし,認識することを目的とした,濃密な局所化音声視覚イベントの課題に焦点をあてる。
このデータセットには、30万以上のオーディオ・ヴィジュアル・イベントを含む10万本のビデオが含まれている。
次に,様々な長さの音声視覚イベントをローカライズし,それら間の依存関係をひとつのパスでキャプチャする,学習ベースの新しいフレームワークを用いてタスクを定式化する。
論文 参考訳(メタデータ) (2023-03-22T22:00:17Z) - Multi-view Multi-label Anomaly Network Traffic Classification based on
MLP-Mixer Neural Network [55.21501819988941]
畳み込みニューラルネットワーク(CNN)に基づく既存のネットワークトラフィック分類は、グローバルな情報関連を無視しながら、トラフィックデータの局所的なパターンを強調することが多い。
本稿では,エンドツーエンドのネットワークトラフィック分類手法を提案する。
論文 参考訳(メタデータ) (2022-10-30T01:52:05Z) - Leveraging the Video-level Semantic Consistency of Event for
Audio-visual Event Localization [8.530561069113716]
AVEローカライゼーションタスクのためのビデオレベルのセマンティック・コンセンサス・ガイダンス・ネットワークを提案する。
クロスモーダルなイベント表現抽出器と、モーダル内のセマンティック一貫性向上器の2つのコンポーネントから構成される。
我々は、パブリックなAVVデータセット上で広範な実験を行い、完全に教師された設定と弱い設定の両方において最先端の手法より優れています。
論文 参考訳(メタデータ) (2022-10-11T08:15:57Z) - MHMS: Multimodal Hierarchical Multimedia Summarization [80.18786847090522]
視覚領域と言語領域を相互作用させることにより,マルチモーダル階層型マルチメディア要約(MHMS)フレームワークを提案する。
本手法は,ビデオとテキストのセグメンテーションと要約モジュールをそれぞれ含んでいる。
ドメイン間のアライメントの目的を最適な輸送距離で定式化し、代表とテキストの要約を生成する。
論文 参考訳(メタデータ) (2022-04-07T21:00:40Z) - Multi-Modulation Network for Audio-Visual Event Localization [138.14529518908736]
本研究では,映像中の可聴性と可視性の両方を有する音声視覚事象のローカライズの問題について検討する。
既存の作業は、セグメントレベルでのオーディオと視覚機能のエンコーディングと調整に重点を置いている。
本稿では、上記の相関関係を学習し、意味的ガイダンスとして活用する新しいマルチ変調ネットワーク(M2N)を提案する。
論文 参考訳(メタデータ) (2021-08-26T13:11:48Z) - Multi-level Attention Fusion Network for Audio-visual Event Recognition [6.767885381740951]
イベント分類は本質的にシーケンシャルでマルチモーダルである。
ディープニューラルモデルは、ビデオの最も関連性の高い時間ウィンドウと/またはモダリティに動的に集中する必要がある。
イベント認識のための視覚情報と音声情報を動的に融合するアーキテクチャであるマルチレベル注意融合ネットワーク(MAFnet)を提案する。
論文 参考訳(メタデータ) (2021-06-12T10:24:52Z) - Encoder Fusion Network with Co-Attention Embedding for Referring Image
Segmentation [87.01669173673288]
本稿では,視覚的エンコーダをマルチモーダルな特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。
EFNには、マルチモーダル機能の並列更新を実現するコアテンションメカニズムが組み込まれている。
4つのベンチマークデータセットによる実験結果から,提案手法がポストプロセッシングを伴わずに最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-05-05T02:27:25Z) - Dynamic Context-guided Capsule Network for Multimodal Machine
Translation [131.37130887834667]
マルチモーダル機械翻訳(MMT)は主にテキストのみの翻訳と視覚的特徴の強化に焦点を当てている。
MMTのための新しい動的コンテキスト誘導カプセルネットワーク(DCCN)を提案する。
英語・ドイツ語・英語・フランス語のMulti30Kデータセットによる実験結果から,DCCNの優位性が確認された。
論文 参考訳(メタデータ) (2020-09-04T06:18:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。