論文の概要: UWAV: Uncertainty-weighted Weakly-supervised Audio-Visual Video Parsing
- arxiv url: http://arxiv.org/abs/2505.09615v1
- Date: Wed, 14 May 2025 17:59:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 21:44:09.563463
- Title: UWAV: Uncertainty-weighted Weakly-supervised Audio-Visual Video Parsing
- Title(参考訳): UWAV:不確実な重み付き弱めに監督されたオーディオ・ビジュアル・ビデオ・パーシング
- Authors: Yung-Hsuan Lai, Janek Ebbers, Yu-Chiang Frank Wang, François Germain, Michael Jeffrey Jones, Moitreya Chatterjee,
- Abstract要約: 本研究は,Uncertainty-weighted Weakly-supervised Audio-visual Video Parsing (UWAV)と呼ばれる,これらの弱点を克服するための新しいアプローチを提案する。
我々の革新的なアプローチは、これらの評価された擬似ラベルに関連する不確実性に影響を及ぼし、改良トレーニングのための機能ミックスアップベースのトレーニングレギュラー化を取り入れている。
実験の結果,UWAVは2つの異なるデータセットにまたがって,複数のメトリクス上でAVVPタスクの最先端の手法より優れており,その有効性と一般化性を示している。
- 参考スコア(独自算出の注目度): 27.60266755835337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-Visual Video Parsing (AVVP) entails the challenging task of localizing both uni-modal events (i.e., those occurring exclusively in either the visual or acoustic modality of a video) and multi-modal events (i.e., those occurring in both modalities concurrently). Moreover, the prohibitive cost of annotating training data with the class labels of all these events, along with their start and end times, imposes constraints on the scalability of AVVP techniques unless they can be trained in a weakly-supervised setting, where only modality-agnostic, video-level labels are available in the training data. To this end, recently proposed approaches seek to generate segment-level pseudo-labels to better guide model training. However, the absence of inter-segment dependencies when generating these pseudo-labels and the general bias towards predicting labels that are absent in a segment limit their performance. This work proposes a novel approach towards overcoming these weaknesses called Uncertainty-weighted Weakly-supervised Audio-visual Video Parsing (UWAV). Additionally, our innovative approach factors in the uncertainty associated with these estimated pseudo-labels and incorporates a feature mixup based training regularization for improved training. Empirical results show that UWAV outperforms state-of-the-art methods for the AVVP task on multiple metrics, across two different datasets, attesting to its effectiveness and generalizability.
- Abstract(参考訳): AVVP(Audio-Visual Video Parsing)は、ユニモーダルイベント(ビデオの視覚的または音響的モダリティにのみ発生するイベント)とマルチモーダルイベント(両方のモダリティに同時に発生するイベント)の両方をローカライズする難しいタスクである。
さらに、これらのイベントのクラスラベルでトレーニングデータを注釈付けすることの禁止コストは、開始と終了の時間とともに、トレーニングデータにモダリティに依存しないビデオレベルのラベルしか使用できない弱い教師付き環境でトレーニングできない限り、AVVP技術のスケーラビリティに制約を課す。
この目的のために、最近提案された手法は、モデルトレーニングをより良くガイドするためにセグメントレベルの擬似ラベルを生成する。
しかし、これらの擬似ラベルを生成するときのセグメント間依存関係の欠如と、セグメントに存在しないラベルの予測に対する一般的なバイアスは、その性能を制限する。
本研究は,Uncertainty-weighted Weakly-supervised Audio-visual Video Parsing (UWAV)と呼ばれる,これらの弱点を克服するための新しいアプローチを提案する。
さらに,これらの評価された擬似ラベルに関する不確実性に,我々の革新的なアプローチ要因が組み込まれており,トレーニング改善のための特徴混在型トレーニングレギュレーションが組み込まれている。
実験の結果,UWAVは2つの異なるデータセットにまたがって,複数のメトリクス上でAVVPタスクの最先端の手法より優れており,その有効性と一般化性を示している。
関連論文リスト
- Adapting to the Unknown: Training-Free Audio-Visual Event Perception with Dynamic Thresholds [72.83227312675174]
本稿では,音声・視覚的事象知覚領域に対するモデルに依存しないアプローチを提案する。
我々のアプローチには、よりリッチなマルチモーダル相互作用を維持するためのスコアレベル融合技術が含まれている。
また,音声・視覚イベント知覚のための学習自由なオープン語彙ベースラインも提示する。
論文 参考訳(メタデータ) (2025-03-17T20:06:48Z) - Reinforced Label Denoising for Weakly-Supervised Audio-Visual Video Parsing [2.918198001105141]
共同強化学習に基づくラベル記述手法(RLLD)を提案する。
このアプローチにより、ラベルの復号化モデルとビデオ解析モデルの同時学習が可能になる。
本稿では,ラベル記述ポリシーの学習を直接指導する,新たなAVVP検証とソフトリワードフィードバック機構を導入する。
論文 参考訳(メタデータ) (2024-12-27T10:05:56Z) - Towards Open-Vocabulary Audio-Visual Event Localization [59.23161248808759]
本稿では,オープン語彙音声・視覚イベントのローカライズ問題を紹介する。
この問題は、音声・視覚イベントのローカライズと、推測時に見つからないデータの両方の明確なカテゴリの予測を必要とする。
OV-AVEBenchデータセットを提案する。
論文 参考訳(メタデータ) (2024-11-18T04:35:20Z) - Weakly Supervised Video Individual CountingWeakly Supervised Video
Individual Counting [126.75545291243142]
Video Individual Countingは、単一のビデオ内のユニークな個人数を予測することを目的としている。
トラジェクトリラベルが提供されない弱い教師付きVICタスクを導入する。
そこで我々は,ネットワークを駆動し,インフロー,アウトフロー,残りを識別するために,エンドツーエンドのトレーニング可能なソフトコントラスト損失を考案した。
論文 参考訳(メタデータ) (2023-12-10T16:12:13Z) - Joint-Modal Label Denoising for Weakly-Supervised Audio-Visual Video
Parsing [52.2231419645482]
本稿では,弱教師付き音声・視覚ビデオ解析タスクについて述べる。
それぞれのモードに属する全ての事象を認識し、時間的境界をローカライズすることを目的としている。
論文 参考訳(メタデータ) (2022-04-25T11:41:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。