Fugu-MT 論文翻訳(概要): MPN: Multimodal Parallel Network for Audio-Visual Event Localization

論文の概要: MPN: Multimodal Parallel Network for Audio-Visual Event Localization

arxiv url: http://arxiv.org/abs/2104.02971v1
Date: Wed, 7 Apr 2021 07:44:22 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-08 20:34:16.937364
Title: MPN: Multimodal Parallel Network for Audio-Visual Event Localization
Title（参考訳）: mpn:オーディオ・ビジュアルイベントローカライズのためのマルチモーダル並列ネットワーク
Authors: Jiashuo Yu, Ying Cheng, Rui Feng
Abstract要約: グローバルなセマンティクスと未混合なローカル情報を並列に知覚できるマルチモーダル並列ネットワーク(MPN)を提案する。当社のフレームワークは、Audio-Visual Eventデータセットの完全に監視された設定と弱い監視された設定の両方で最先端のパフォーマンスを実現します。
参考スコア（独自算出の注目度）: 4.856609995251114
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Audio-visual event localization aims to localize an event that is both audible and visible in the wild, which is a widespread audio-visual scene analysis task for unconstrained videos. To address this task, we propose a Multimodal Parallel Network (MPN), which can perceive global semantics and unmixed local information parallelly. Specifically, our MPN framework consists of a classification subnetwork to predict event categories and a localization subnetwork to predict event boundaries. The classification subnetwork is constructed by the Multimodal Co-attention Module (MCM) and obtains global contexts. The localization subnetwork consists of Multimodal Bottleneck Attention Module (MBAM), which is designed to extract fine-grained segment-level contents. Extensive experiments demonstrate that our framework achieves the state-of-the-art performance both in fully supervised and weakly supervised settings on the Audio-Visual Event (AVE) dataset.
Abstract（参考訳）: オーディオ・ビジュアル・イベント・ローカライゼーション(Audio-visual event localization)は、制約のないビデオの音声・視覚シーン分析タスクである、野生で可聴かつ可視なイベントをローカライズすることを目的としている。この課題に対処するために,グローバルセマンティクスと未混合ローカル情報を並列に知覚できるマルチモーダル並列ネットワーク(MPN)を提案する。具体的には、イベントカテゴリを予測する分類サブネットワークと、イベント境界を予測するローカライゼーションサブネットワークで構成される。分類サブネットワークはMCM(Multimodal Co-attention Module)によって構築され、グローバルなコンテキストを得る。ローカライゼーションサブネットワークは、細かなセグメントレベルのコンテンツを抽出するために設計されたMultimodal Bottleneck Attention Module (MBAM)で構成されている。大規模な実験により,AVE(Audio-Visual Event)データセットの完全な教師付きおよび弱い教師付き設定において,我々のフレームワークが最先端のパフォーマンスを達成することが示された。

関連論文リスト

CLASP: Cross-modal Salient Anchor-based Semantic Propagation for Weakly-supervised Dense Audio-Visual Event Localization [15.861700882671418]
本稿では,新たな弱教師付き設定(W-DAVELタスク)の下でDAVELを探索する。我々は、弱い監督下でよく予測される信頼性の高いタイムスタンプとして定義されるテキストクロスモーダルなサリエントアンカーを利用する。我々は、UnAV-100とActivityNet1.3データセットの両方でW-DAVELのベンチマークを構築した。
論文参考訳（メタデータ） (2025-08-06T15:49:53Z)
Dense Audio-Visual Event Localization under Cross-Modal Consistency and Multi-Temporal Granularity Collaboration [48.57159286673662]
本論文は、より長い未編集映像に対する音声・視覚的シーン理解の促進を目的としている。本稿では,Cross-Modal Consistency CollaborationとMulti-Temporal Granularity Collaborationの2つのコアモジュールからなる新しいCCNetを紹介する。 UnAV-100データセットの実験では、モジュール設計が検証され、高密度オーディオ視覚イベントのローカライゼーションにおける最先端のパフォーマンスが新たに向上した。
論文参考訳（メタデータ） (2024-12-17T07:43:36Z)
Multimodal Class-aware Semantic Enhancement Network for Audio-Visual Video Parsing [22.655045848201528]
各オーディオ/視覚セグメントの正確なイベントセマンティクスの取得が不可欠である。各セグメントは複数のイベントを含むことができ、結果として意味的に混合された全体的特徴をもたらす。内部および相互関係を符号化するファイングラインド・セマンティック・エンハンスメント・モジュールを提案する。
論文参考訳（メタデータ） (2024-12-15T16:54:53Z)
Grounding Partially-Defined Events in Multimodal Data [61.0063273919745]
部分定義イベントに対するマルチモーダル定式化を導入し、これらのイベントの抽出を3段階スパン検索タスクとしてキャストする。このタスクのベンチマークであるMultiVENT-Gを提案し,22.8Kのラベル付きイベント中心エンティティを含む,14.5時間の高密度アノテーション付き現在のイベントビデオと1,168のテキストドキュメントからなる。結果は、イベント理解の抽象的な課題を示し、イベント中心のビデオ言語システムにおける約束を実証する。
論文参考訳（メタデータ） (2024-10-07T17:59:48Z)
Locality-aware Cross-modal Correspondence Learning for Dense Audio-Visual Events Localization [50.122441710500055]
Dense-localization Audio-Visual Events (DAVE) は、未トリミングビデオで同時に見られるイベントの時間境界と対応するカテゴリを特定することを目的としている。既存の手法では、音声と視覚の表現を明示的なモーダルなアライメント制約なしに別々に符号化する。 DAVEのための局所性を考慮したクロスモーダル対応学習フレームワークであるLOCOを提案する。
論文参考訳（メタデータ） (2024-09-12T11:54:25Z)
Global and Local Semantic Completion Learning for Vision-Language Pre-training [34.740507502215536]
クロスモーダルアライメントは、視覚言語事前学習モデルにおいて重要な役割を果たす。グローバル・ローカル・セマンティック・コンプリート・ラーニング(GLSCL)タスクを提案し,グローバル・ローカル・アライメントとローカル・ローカル・アライメントを同時に行う。
論文参考訳（メタデータ） (2023-06-12T13:20:29Z)
Multi-view Multi-label Anomaly Network Traffic Classification based on MLP-Mixer Neural Network [55.21501819988941]
畳み込みニューラルネットワーク(CNN)に基づく既存のネットワークトラフィック分類は、グローバルな情報関連を無視しながら、トラフィックデータの局所的なパターンを強調することが多い。本稿では,エンドツーエンドのネットワークトラフィック分類手法を提案する。
論文参考訳（メタデータ） (2022-10-30T01:52:05Z)
Leveraging the Video-level Semantic Consistency of Event for Audio-visual Event Localization [8.530561069113716]
AVEローカライゼーションタスクのためのビデオレベルのセマンティック・コンセンサス・ガイダンス・ネットワークを提案する。クロスモーダルなイベント表現抽出器と、モーダル内のセマンティック一貫性向上器の2つのコンポーネントから構成される。我々は、パブリックなAVVデータセット上で広範な実験を行い、完全に教師された設定と弱い設定の両方において最先端の手法より優れています。
論文参考訳（メタデータ） (2022-10-11T08:15:57Z)
MHMS: Multimodal Hierarchical Multimedia Summarization [80.18786847090522]
視覚領域と言語領域を相互作用させることにより,マルチモーダル階層型マルチメディア要約(MHMS)フレームワークを提案する。本手法は,ビデオとテキストのセグメンテーションと要約モジュールをそれぞれ含んでいる。ドメイン間のアライメントの目的を最適な輸送距離で定式化し、代表とテキストの要約を生成する。
論文参考訳（メタデータ） (2022-04-07T21:00:40Z)
Multi-Modulation Network for Audio-Visual Event Localization [138.14529518908736]
本研究では,映像中の可聴性と可視性の両方を有する音声視覚事象のローカライズの問題について検討する。既存の作業は、セグメントレベルでのオーディオと視覚機能のエンコーディングと調整に重点を置いている。本稿では、上記の相関関係を学習し、意味的ガイダンスとして活用する新しいマルチ変調ネットワーク(M2N)を提案する。
論文参考訳（メタデータ） (2021-08-26T13:11:48Z)
Encoder Fusion Network with Co-Attention Embedding for Referring Image Segmentation [87.01669173673288]
本稿では,視覚的エンコーダをマルチモーダルな特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。 EFNには、マルチモーダル機能の並列更新を実現するコアテンションメカニズムが組み込まれている。 4つのベンチマークデータセットによる実験結果から,提案手法がポストプロセッシングを伴わずに最先端の性能を実現することを示す。
論文参考訳（メタデータ） (2021-05-05T02:27:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。