論文の概要: Teacher-Guided Pseudo Supervision and Cross-Modal Alignment for Audio-Visual Video Parsing
- arxiv url: http://arxiv.org/abs/2509.14097v1
- Date: Wed, 17 Sep 2025 15:38:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.906621
- Title: Teacher-Guided Pseudo Supervision and Cross-Modal Alignment for Audio-Visual Video Parsing
- Title(参考訳): 教師指導型擬似スーパービジョンとオーディオ・ビジュアル・ビデオ・パーシングのためのクロスモーダルアライメント
- Authors: Yaru Chen, Ruohao Guo, Liting Gao, Yang Xiang, Qingyu Luo, Zhenbo Li, Wenwu Wang,
- Abstract要約: 弱教師付き音声視覚ビデオ解析は、時間的アノテーションを使わずに、可聴性、可視性、および音声視覚イベントを検出する。
本稿では,信頼度の高いセグメントレベルのマスクを生成する指数移動平均(EMA)誘導擬似監視フレームワークを提案する。
また,クラス対応のクロスモーダル・アグリーメント(CMA)の損失も提案する。
- 参考スコア(独自算出の注目度): 26.317163478761916
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Weakly-supervised audio-visual video parsing (AVVP) seeks to detect audible, visible, and audio-visual events without temporal annotations. Previous work has emphasized refining global predictions through contrastive or collaborative learning, but neglected stable segment-level supervision and class-aware cross-modal alignment. To address this, we propose two strategies: (1) an exponential moving average (EMA)-guided pseudo supervision framework that generates reliable segment-level masks via adaptive thresholds or top-k selection, offering stable temporal guidance beyond video-level labels; and (2) a class-aware cross-modal agreement (CMA) loss that aligns audio and visual embeddings at reliable segment-class pairs, ensuring consistency across modalities while preserving temporal structure. Evaluations on LLP and UnAV-100 datasets shows that our method achieves state-of-the-art (SOTA) performance across multiple metrics.
- Abstract(参考訳): 弱教師付きオーディオ視覚ビデオ解析(AVVP)は、時間的アノテーションを使わずに、可聴性、可視性、および音声視覚イベントを検出する。
これまでの研究は、対照的な学習や協調的な学習を通じて、グローバルな予測を洗練することを強調してきたが、安定したセグメントレベルの監督とクラスレベルの相互アライメントを無視した。
そこで本研究では,(1)適応しきい値やトップk選択によって信頼性の高いセグメントレベルのマスクを生成し,ビデオレベルのラベルを超えて安定した時間的ガイダンスを提供する指数移動平均(EMA)誘導擬似監視フレームワーク,(2)音声と視覚の埋め込みを信頼性の高いセグメントクラスのペアに整列させ,時間的構造を維持しながらモジュール間の整合性を確保するクラス認識相互合意(CMA)損失,の2つの戦略を提案する。
LLPおよびUnAV-100データセットの評価結果から,本手法は複数の指標間でSOTA(State-of-the-art)性能を実現することが示された。
関連論文リスト
- GAID: Frame-Level Gated Audio-Visual Integration with Directional Perturbation for Text-Video Retrieval [12.483734449829235]
GAIDは、テキストガイダンスの下でオーディオと視覚機能を統合するフレームワークである。
DASPは、構造を意識した摂動をテキスト埋め込みに注入し、マルチパス推論を発生させることなく、堅牢性と差別性を高める。
MSR-VTT, DiDeMo, LSMDC, VATEXによる実験では, 顕著な効率向上が得られた。
論文 参考訳(メタデータ) (2025-08-03T10:44:24Z) - UWAV: Uncertainty-weighted Weakly-supervised Audio-Visual Video Parsing [27.60266755835337]
本研究は,Uncertainty-weighted Weakly-supervised Audio-visual Video Parsing (UWAV)と呼ばれる,これらの弱点を克服するための新しいアプローチを提案する。
我々の革新的なアプローチは、これらの評価された擬似ラベルに関連する不確実性に影響を及ぼし、改良トレーニングのための機能ミックスアップベースのトレーニングレギュラー化を取り入れている。
実験の結果,UWAVは2つの異なるデータセットにまたがって,複数のメトリクス上でAVVPタスクの最先端の手法より優れており,その有効性と一般化性を示している。
論文 参考訳(メタデータ) (2025-05-14T17:59:55Z) - CAV-MAE Sync: Improving Contrastive Audio-Visual Mask Autoencoders via Fine-Grained Alignment [76.32508013503653]
CAV-MAE Sync は,自己教師型音声視覚学習のためのオリジナルの CAV-MAE フレームワークの簡易かつ効果的な拡張として提案する。
音声をグローバルな表現ではなく,映像フレームに整合した時間的シーケンスとして扱うことで,モダリティ間のミスマッチに対処する。
パッチトークンのセマンティック負荷を低減するための学習可能なレジスタトークンを導入することにより,空間的ローカライゼーションを改善する。
論文 参考訳(メタデータ) (2025-05-02T12:59:58Z) - Leveraging Foundation models for Unsupervised Audio-Visual Segmentation [49.94366155560371]
AVS (Audio-Visual) は、可聴物体をピクセルレベルの視覚シーンで正確に概説することを目的としている。
既存のAVS手法では、教師付き学習方式でオーディオマスク対の細かいアノテーションを必要とする。
タスク固有のデータアノテーションやモデルトレーニングを必要とせず、教師なしの音声-視覚的セグメンテーションを導入する。
論文 参考訳(メタデータ) (2023-09-13T05:05:47Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Cross-Modal Attention Consistency for Video-Audio Unsupervised Learning [141.38505371646482]
クロスモーダル相関は、ビデオ教師なし表現学習に固有の監督を提供する。
本稿では,双方向の局所通信特性を探索するために,CMAC(Cross-Modal Attention Consistency)というプレテキストタスクを導入する。
CMACは、視覚信号から純粋に発生する局所的注意と、音響信号の誘導の下で発生する対象的注意とを一致させることを目的としている。
論文 参考訳(メタデータ) (2021-06-13T07:41:15Z) - Cross-Modal learning for Audio-Visual Video Parsing [30.331280948237428]
本稿では,映像からイベントを別々に分離するAVVPタスクに対する新しいアプローチを提案する。
AVVPは, 効果的なクロスモーダル学習を目的とした, 以下の手法の恩恵を受けることができることを示す。
論文 参考訳(メタデータ) (2021-04-03T07:07:21Z) - Contrastive Transformation for Self-supervised Correspondence Learning [120.62547360463923]
野生のラベルのない動画を用いて,視覚的対応の自己監督学習について検討する。
本手法は,信頼性の高い対応推定のための映像内および映像間表現関連を同時に検討する。
我々のフレームワークは、近年の視覚的タスクにおける自己監督型対応手法よりも優れています。
論文 参考訳(メタデータ) (2020-12-09T14:05:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。