論文の概要: MUG: Pseudo Labeling Augmented Audio-Visual Mamba Network for Audio-Visual Video Parsing
- arxiv url: http://arxiv.org/abs/2507.01384v1
- Date: Wed, 02 Jul 2025 06:00:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.066349
- Title: MUG: Pseudo Labeling Augmented Audio-Visual Mamba Network for Audio-Visual Video Parsing
- Title(参考訳): MUG:Pseudo Labeling Augmented Audio-Visual Mamba Network for Audio-Visual Video Parsing
- Authors: Langyu Wang, Bingke Zhu, Yingying Chen, Yiyuan Zhang, Ming Tang, Jinqiao Wang,
- Abstract要約: 弱教師付きオーディオ視覚ビデオ解析(AVVP)は、すべてのモダリティ固有の事象を予測し、時間境界を見つけることを目的としている。
既存の手法では、セグメントレベルの予測とイベントレベルの予測の両方を同時に改善することができない。
本稿では,各セグメントの特異性を強調するために,疑似ラベル付きMUG(MUG)を用いた音声視覚型マンバネットワークを提案する。
- 参考スコア(独自算出の注目度): 29.471783113990423
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The weakly-supervised audio-visual video parsing (AVVP) aims to predict all modality-specific events and locate their temporal boundaries. Despite significant progress, due to the limitations of the weakly-supervised and the deficiencies of the model architecture, existing methods are lacking in simultaneously improving both the segment-level prediction and the event-level prediction. In this work, we propose a audio-visual Mamba network with pseudo labeling aUGmentation (MUG) for emphasising the uniqueness of each segment and excluding the noise interference from the alternate modalities. Specifically, we annotate some of the pseudo-labels based on previous work. Using unimodal pseudo-labels, we perform cross-modal random combinations to generate new data, which can enhance the model's ability to parse various segment-level event combinations. For feature processing and interaction, we employ a audio-visual mamba network. The AV-Mamba enhances the ability to perceive different segments and excludes additional modal noise while sharing similar modal information. Our extensive experiments demonstrate that MUG improves state-of-the-art results on LLP dataset in all metrics (e.g,, gains of 2.1% and 1.2% in terms of visual Segment-level and audio Segment-level metrics). Our code is available at https://github.com/WangLY136/MUG.
- Abstract(参考訳): 弱教師付きオーディオ視覚ビデオ解析(AVVP)は、すべてのモダリティ固有の事象を予測し、時間境界を見つけることを目的としている。
モデルアーキテクチャの弱教師の限界や欠陥のため,従来の手法ではセグメントレベルの予測とイベントレベルの予測の両方を同時に改善することはできなかった。
本研究では,各セグメントの特異性を強調し,他のモードからノイズ干渉を排除した擬似ラベル付きMambaネットワークを提案する。
具体的には、以前の研究に基づいて擬似ラベルをいくつか注釈付けする。
単調な擬似ラベルを用いて、クロスモーダルなランダムな組み合わせを実行し、新しいデータを生成することにより、セグメントレベルのイベントの組み合わせを解析するモデルの能力を高めることができる。
特徴処理とインタラクションには,音声-視覚的マンバネットワークを用いる。
AV-Mambaは、異なるセグメントを知覚する能力を高め、類似したモーダル情報を共有しながら追加のモーダルノイズを除外する。
我々の広範な実験は、MUGが全てのメトリクス(例えば、視覚的セグメンテーションレベルとオーディオセグメンテーションレベルにおける2.1%と1.2%のゲイン)におけるLPPデータセットの最先端結果を改善することを実証している。
私たちのコードはhttps://github.com/WangLY136/MUG.comで公開されています。
関連論文リスト
- Label-anticipated Event Disentanglement for Audio-Visual Video Parsing [61.08434062821899]
我々は新しいデコードパラダイムであるアンダーライン・サンダーライン・エンダーライン・アンダーライン・インダーライン・プロジェクション(LEAP)を導入する。
LEAPは、音声/視覚セグメントの符号化された潜在機能を意味的に独立したラベル埋め込みに反復的に投影する。
LEAPパラダイムを促進するために,新しい音声・視覚的類似性損失関数を含むセマンティック・アウェア・最適化戦略を提案する。
論文 参考訳(メタデータ) (2024-07-11T01:57:08Z) - Multimodal Variational Auto-encoder based Audio-Visual Segmentation [46.67599800471001]
ECMVAEは、各モダリティの表現をモダリティ共有表現とモダリティ固有表現で分解する。
当社のアプローチでは,3.84mIOUの性能向上を図りながら,音声・視覚的セグメンテーションのための新たな最先端技術が実現されている。
論文 参考訳(メタデータ) (2023-10-12T13:09:40Z) - Zorro: the masked multimodal transformer [68.99684436029884]
ゾロ(Zorro)は、トランスフォーマー内の各モードからの入力をどのようにルーティングするかを制御するためにマスクを使用するテクニックである。
対照的な事前学習により、Zorroはマルチモーダルタスクの最も関連性の高いベンチマークで最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2023-01-23T17:51:39Z) - SLICER: Learning universal audio representations using low-resource
self-supervised pre-training [53.06337011259031]
ラベルなし音声データに事前学習エンコーダを組み込むための自己指導型学習手法を提案する。
我々の主な目的は、多種多様な音声および非音声タスクにまたがる一般化が可能な音声表現を学習することである。
論文 参考訳(メタデータ) (2022-11-02T23:45:33Z) - Modality-Aware Contrastive Instance Learning with Self-Distillation for
Weakly-Supervised Audio-Visual Violence Detection [14.779452690026144]
弱教師付き音声視覚学習のための自己蒸留(MACIL-SD)戦略を用いたモード認識型コントラスト学習を提案する。
我々のフレームワークは、大規模なXD-Violenceデータセットにおいて、より少ない複雑さで従来の手法より優れています。
論文 参考訳(メタデータ) (2022-07-12T12:42:21Z) - Joint-Modal Label Denoising for Weakly-Supervised Audio-Visual Video
Parsing [52.2231419645482]
本稿では,弱教師付き音声・視覚ビデオ解析タスクについて述べる。
それぞれのモードに属する全ての事象を認識し、時間的境界をローカライズすることを目的としている。
論文 参考訳(メタデータ) (2022-04-25T11:41:17Z) - Investigating Modality Bias in Audio Visual Video Parsing [31.83076679253096]
本稿では,時間的境界を持つ音声・視覚イベントラベルを検出するAVVP問題に焦点をあてる。
AVVPの既存の最先端モデルでは、ハイブリットアテンションネットワーク(HAN)を使用して、オーディオと視覚の両モードのクロスモーダルな特徴を生成する。
セグメントレベルとイベントレベルでの視覚的および音声視覚的イベントに対して,Fスコアが約2%と1.6%の絶対的な増加をもたらすHANの特徴集約の変種を提案する。
論文 参考訳(メタデータ) (2022-03-31T07:43:01Z) - Joint Learning of Visual-Audio Saliency Prediction and Sound Source
Localization on Multi-face Videos [101.83513408195692]
マルチタスク学習手法を提案する。
提案手法は,12種類の精度予測法より優れ,音源定位における競合的な結果が得られる。
論文 参考訳(メタデータ) (2021-11-05T14:35:08Z) - Positive Sample Propagation along the Audio-Visual Event Line [29.25572713908162]
視覚信号と音声信号はしばしば自然環境に共存し、オーディオ視覚イベント(AVE)を形成する
我々は,近縁な音声と視覚のペアを発見し,活用するための新しい正のサンプル伝搬(PSP)モジュールを提案する。
我々は,公開avデータセットを広範囲に実験し,完全かつ弱い教師付き設定で新たな最先端精度を実現する。
論文 参考訳(メタデータ) (2021-04-01T03:53:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。