論文の概要: ESG-Net: Event-Aware Semantic Guided Network for Dense Audio-Visual Event Localization
- arxiv url: http://arxiv.org/abs/2507.09945v1
- Date: Mon, 14 Jul 2025 05:42:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:24.358915
- Title: ESG-Net: Event-Aware Semantic Guided Network for Dense Audio-Visual Event Localization
- Title(参考訳): ESG-Net:Dense Audio-Visual Event Localizationのためのイベント対応セマンティックガイドネットワーク
- Authors: Huilai Li, Yonghao Dang, Ying Xing, Yiming Wang, Jianqin Yin,
- Abstract要約: マルチステージ・セマンティック・ガイダンスとマルチイベント・リレーション・モデリングを導入する。
これにより、音声・視覚イベントの階層的セマンティック理解と、イベント依存の適応的抽出が可能になる。
提案手法は,パラメータや計算負荷を大幅に削減しつつ,最先端の手法を大幅に超えている。
- 参考スコア(独自算出の注目度): 14.920403124245867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dense audio-visual event localization (DAVE) aims to identify event categories and locate the temporal boundaries in untrimmed videos. Most studies only employ event-related semantic constraints on the final outputs, lacking cross-modal semantic bridging in intermediate layers. This causes modality semantic gap for further fusion, making it difficult to distinguish between event-related content and irrelevant background content. Moreover, they rarely consider the correlations between events, which limits the model to infer concurrent events among complex scenarios. In this paper, we incorporate multi-stage semantic guidance and multi-event relationship modeling, which respectively enable hierarchical semantic understanding of audio-visual events and adaptive extraction of event dependencies, thereby better focusing on event-related information. Specifically, our eventaware semantic guided network (ESG-Net) includes a early semantics interaction (ESI) module and a mixture of dependency experts (MoDE) module. ESI applys multi-stage semantic guidance to explicitly constrain the model in learning semantic information through multi-modal early fusion and several classification loss functions, ensuring hierarchical understanding of event-related content. MoDE promotes the extraction of multi-event dependencies through multiple serial mixture of experts with adaptive weight allocation. Extensive experiments demonstrate that our method significantly surpasses the state-of-the-art methods, while greatly reducing parameters and computational load. Our code will be released on https://github.com/uchiha99999/ESG-Net.
- Abstract(参考訳): Dense Audio-Viual Event Localization (DAVE)は、イベントカテゴリを特定し、未トリミングビデオの時間境界を見つけることを目的としている。
ほとんどの研究では、最終出力にイベント関連の意味的制約しか適用せず、中間層における相互の意味的ブリッジが欠如している。
これにより、さらなる融合のためにモダリティのセマンティックギャップが生じるため、イベント関連コンテンツと無関係なバックグラウンドコンテンツとの区別が困難になる。
さらに、複雑なシナリオ間での同時イベントの推論を制限するイベント間の相関を考慮することはめったにない。
本稿では,音声・視覚事象の階層的意味理解とイベント依存の適応抽出を可能にする多段階意味指導と多段階関係モデリングを導入し,イベント関連情報により焦点をあてる。
具体的には、イベントウェアセマンティックガイドネットワーク(ESG-Net)は、早期セマンティックスインタラクション(ESI)モジュールと依存性エキスパート(MoDE)モジュールの混合を含む。
ESIは、多段階のセマンティックガイダンスを適用し、多段階の早期融合といくつかの分類損失関数を通じて意味情報を学習する際のモデルを明示的に制約し、イベント関連コンテンツの階層的理解を確保する。
MoDEは、適応的な重み付けを伴う複数の専門家のシリアルな混合を通して、多点依存関係の抽出を促進する。
大規模な実験により,本手法は,パラメータや計算負荷を大幅に削減しつつ,最先端の手法をはるかに上回っていることが示された。
私たちのコードはhttps://github.com/uchiha99999/ESG-Netでリリースされます。
関連論文リスト
- EIFNet: Leveraging Event-Image Fusion for Robust Semantic Segmentation [0.18416014644193066]
イベントカメラは、高ダイナミックレンジと微妙な時間分解能を提供し、挑戦的な環境で堅牢なシーン理解を実現する。
イベントとフレームベースの入力の長所を組み合わせたマルチモーダル融合ネットワーク EIFNet を提案する。
EIFNetは最先端のパフォーマンスを実現し、イベントベースのセマンティックセグメンテーションの有効性を示す。
論文 参考訳(メタデータ) (2025-07-29T16:19:55Z) - Multimodal Class-aware Semantic Enhancement Network for Audio-Visual Video Parsing [22.655045848201528]
各オーディオ/視覚セグメントの正確なイベントセマンティクスの取得が不可欠である。
各セグメントは複数のイベントを含むことができ、結果として意味的に混合された全体的特徴をもたらす。
内部および相互関係を符号化するファイングラインド・セマンティック・エンハンスメント・モジュールを提案する。
論文 参考訳(メタデータ) (2024-12-15T16:54:53Z) - Grounding Partially-Defined Events in Multimodal Data [61.0063273919745]
部分定義イベントに対するマルチモーダル定式化を導入し、これらのイベントの抽出を3段階スパン検索タスクとしてキャストする。
このタスクのベンチマークであるMultiVENT-Gを提案し,22.8Kのラベル付きイベント中心エンティティを含む,14.5時間の高密度アノテーション付き現在のイベントビデオと1,168のテキストドキュメントからなる。
結果は、イベント理解の抽象的な課題を示し、イベント中心のビデオ言語システムにおける約束を実証する。
論文 参考訳(メタデータ) (2024-10-07T17:59:48Z) - Generating Event-oriented Attribution for Movies via Two-Stage Prefix-Enhanced Multimodal LLM [47.786978666537436]
本稿では,2段階の事前修正強化MLLM (TSPE) アプローチを提案する。
局所的な段階では、1つのクリップ内の関連するマルチモーダル情報にフォーカスするようモデルに誘導する対話対応プレフィックスを導入する。
グローバルな段階では、推論知識グラフを用いて関連するイベント間の接続を強化する。
論文 参考訳(メタデータ) (2024-09-14T08:30:59Z) - Label-anticipated Event Disentanglement for Audio-Visual Video Parsing [61.08434062821899]
我々は新しいデコードパラダイムであるアンダーライン・サンダーライン・エンダーライン・アンダーライン・インダーライン・プロジェクション(LEAP)を導入する。
LEAPは、音声/視覚セグメントの符号化された潜在機能を意味的に独立したラベル埋め込みに反復的に投影する。
LEAPパラダイムを促進するために,新しい音声・視覚的類似性損失関数を含むセマンティック・アウェア・最適化戦略を提案する。
論文 参考訳(メタデータ) (2024-07-11T01:57:08Z) - Leveraging the Video-level Semantic Consistency of Event for
Audio-visual Event Localization [8.530561069113716]
AVEローカライゼーションタスクのためのビデオレベルのセマンティック・コンセンサス・ガイダンス・ネットワークを提案する。
クロスモーダルなイベント表現抽出器と、モーダル内のセマンティック一貫性向上器の2つのコンポーネントから構成される。
我々は、パブリックなAVVデータセット上で広範な実験を行い、完全に教師された設定と弱い設定の両方において最先端の手法より優れています。
論文 参考訳(メタデータ) (2022-10-11T08:15:57Z) - Unifying Event Detection and Captioning as Sequence Generation via
Pre-Training [53.613265415703815]
本稿では,イベント検出とキャプションのタスク間関連性を高めるための,事前学習と微調整の統合フレームワークを提案する。
我々のモデルは最先端の手法よりも優れており、大規模ビデオテキストデータによる事前学習ではさらに向上できる。
論文 参考訳(メタデータ) (2022-07-18T14:18:13Z) - Beyond Grounding: Extracting Fine-Grained Event Hierarchies Across
Modalities [43.048896440009784]
マルチモーダル(ビデオとテキスト)データからイベント階層を抽出するタスクを提案する。
これはイベントの構造を明らかにし、それらを理解するのに不可欠である。
我々は,この課題に対して,最先端のユニモーダルベースラインとマルチモーダルベースラインの限界を示す。
論文 参考訳(メタデータ) (2022-06-14T23:24:15Z) - Learning Constraints and Descriptive Segmentation for Subevent Detection [74.48201657623218]
本稿では,サブイベント検出とEventSeg予測の依存関係をキャプチャする制約を学習し,強制するアプローチを提案する。
我々は制約学習にRectifier Networksを採用し、学習した制約をニューラルネットワークの損失関数の正規化項に変換する。
論文 参考訳(メタデータ) (2021-09-13T20:50:37Z) - Multi-Modulation Network for Audio-Visual Event Localization [138.14529518908736]
本研究では,映像中の可聴性と可視性の両方を有する音声視覚事象のローカライズの問題について検討する。
既存の作業は、セグメントレベルでのオーディオと視覚機能のエンコーディングと調整に重点を置いている。
本稿では、上記の相関関係を学習し、意味的ガイダンスとして活用する新しいマルチ変調ネットワーク(M2N)を提案する。
論文 参考訳(メタデータ) (2021-08-26T13:11:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。