論文の概要: Advancing Weakly-Supervised Audio-Visual Video Parsing via Segment-wise Pseudo Labeling
- arxiv url: http://arxiv.org/abs/2406.00919v1
- Date: Mon, 3 Jun 2024 01:09:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 02:47:03.199477
- Title: Advancing Weakly-Supervised Audio-Visual Video Parsing via Segment-wise Pseudo Labeling
- Title(参考訳): セグメンションワイド擬似ラベリングによる弱スーパービジョンオーディオ・ビジュアル・ビデオ・パーシングの高速化
- Authors: Jinxing Zhou, Dan Guo, Yiran Zhong, Meng Wang,
- Abstract要約: オーディオ・ビジュアル・ビデオ・パーシング(Audio-Visual Video Parsing)タスクは、可聴ビデオの音声ストリームと視覚ストリームの両方で発生する事象を特定し、時間的にローカライズすることを目的としている。
高度に注釈付けされたラベルがないため、最近の研究は偽のラベルを活用して監督を強化しようとしている。
本稿では,各ビデオセグメントにラベルを明示的に割り当てる擬似ラベル生成戦略を提案する。
- 参考スコア(独自算出の注目度): 31.197074786874943
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Audio-Visual Video Parsing task aims to identify and temporally localize the events that occur in either or both the audio and visual streams of audible videos. It often performs in a weakly-supervised manner, where only video event labels are provided, \ie, the modalities and the timestamps of the labels are unknown. Due to the lack of densely annotated labels, recent work attempts to leverage pseudo labels to enrich the supervision. A commonly used strategy is to generate pseudo labels by categorizing the known video event labels for each modality. However, the labels are still confined to the video level, and the temporal boundaries of events remain unlabeled. In this paper, we propose a new pseudo label generation strategy that can explicitly assign labels to each video segment by utilizing prior knowledge learned from the open world. Specifically, we exploit the large-scale pretrained models, namely CLIP and CLAP, to estimate the events in each video segment and generate segment-level visual and audio pseudo labels, respectively. We then propose a new loss function to exploit these pseudo labels by taking into account their category-richness and segment-richness. A label denoising strategy is also adopted to further improve the visual pseudo labels by flipping them whenever abnormally large forward losses occur. We perform extensive experiments on the LLP dataset and demonstrate the effectiveness of each proposed design and we achieve state-of-the-art video parsing performance on all types of event parsing, \ie, audio event, visual event, and audio-visual event. We also examine the proposed pseudo label generation strategy on a relevant weakly-supervised audio-visual event localization task and the experimental results again verify the benefits and generalization of our method.
- Abstract(参考訳): オーディオ・ビジュアル・ビデオ・パーシング(Audio-Visual Video Parsing)タスクは、可聴ビデオの音声ストリームと視覚ストリームの両方で発生する事象を特定し、時間的にローカライズすることを目的としている。
ビデオ・イベント・ラベルのみが提供され、iie、モダリティ、ラベルのタイムスタンプが不明な、弱い教師付きで実行されることが多い。
高度に注釈付けされたラベルがないため、最近の研究は偽のラベルを活用して監督を強化しようとしている。
一般的に使用される戦略は、既知のビデオイベントラベルをモダリティごとに分類することで擬似ラベルを生成することである。
しかし、ラベルは依然としてビデオレベルに限定されており、イベントの時間的境界はラベル付きのままである。
本稿では,オープンワールドから学んだ事前知識を活用することで,各ビデオセグメントにラベルを明示的に割り当てることのできる,新しい擬似ラベル生成戦略を提案する。
具体的には、CLIPとCLAPという大規模な事前学習モデルを用いて、各ビデオセグメントのイベントを推定し、セグメントレベルの視覚的および音声的擬似ラベルを生成する。
そこで我々は,これらの擬似ラベルをカテゴリ豊かさとセグメント豊かさを考慮した新たな損失関数を提案する。
また、異常に大きな前方損失が発生した場合にそれを反転させることで、視覚的擬似ラベルをさらに改善するためのラベル装飾戦略も採用する。
LLPデータセットの広範な実験を行い、提案した各設計の有効性を実証し、あらゆる種類のイベント解析、Shaie、オーディオイベント、ビジュアルイベント、オーディオ視覚イベントにおける最先端のビデオ解析性能を達成する。
また,本手法の利点と一般化を再度検証し,音声・視覚事象の局所化タスクに関する擬似ラベル生成戦略についても検討した。
関連論文リスト
- Label-anticipated Event Disentanglement for Audio-Visual Video Parsing [61.08434062821899]
我々は新しいデコードパラダイムであるアンダーライン・サンダーライン・エンダーライン・アンダーライン・インダーライン・プロジェクション(LEAP)を導入する。
LEAPは、音声/視覚セグメントの符号化された潜在機能を意味的に独立したラベル埋め込みに反復的に投影する。
LEAPパラダイムを促進するために,新しい音声・視覚的類似性損失関数を含むセマンティック・アウェア・最適化戦略を提案する。
論文 参考訳(メタデータ) (2024-07-11T01:57:08Z) - Temporal Label-Refinement for Weakly-Supervised Audio-Visual Event
Localization [0.0]
AVEL(英: AVEL)とは、ビデオの中で同時に可視かつ可聴な事象を時間的に局所化し、分類するタスクである。
本稿では,ビデオレベルのイベントラベルのみをトレーニングの監督として利用できる弱教師付き環境でAVELを解く。
我々の考えは、ベースモデルを用いて、ビデオレベルよりも微妙な時間分解能でトレーニングデータのラベルを推定し、これらのラベルでモデルを再訓練することである。
論文 参考訳(メタデータ) (2023-07-12T18:13:58Z) - Revisit Weakly-Supervised Audio-Visual Video Parsing from the Language
Perspective [41.07880755312204]
本稿では,音声・視覚的モダリティのすべての事象を特定し,特定することを目的とした,弱教師付き音声・視覚的ビデオ解析タスク(AVVP)に焦点を当てる。
AVVPを言語の観点から扱うことを考える。なぜなら言語は固定ラベルを超えて各セグメントにどのように様々なイベントが現れるかを自由に記述できるからである。
我々の単純で効果的なアプローチは、最先端の手法を大きなマージンで上回ります。
論文 参考訳(メタデータ) (2023-06-01T12:12:22Z) - Imprecise Label Learning: A Unified Framework for Learning with Various Imprecise Label Configurations [91.67511167969934]
imprecise label learning (ILL)は、様々な不正確なラベル構成で学習を統合するためのフレームワークである。
我々は、ILLが部分ラベル学習、半教師付き学習、雑音ラベル学習にシームレスに適応できることを実証した。
論文 参考訳(メタデータ) (2023-05-22T04:50:28Z) - Improving Audio-Visual Video Parsing with Pseudo Visual Labels [33.25271156393651]
音声映像解析のためのセグメントレベルの擬似ラベルを生成するための新しい手法を提案する。
これらのラベルをカテゴリー豊かさとセグメント豊かさを考慮して正規化するために, 新たな損失関数を提案する。
高前方のバイナリクロスエントロピー損失の発生時にそれを反転させることにより、擬似ラベルを改善するためにラベルの復調戦略を採用する。
論文 参考訳(メタデータ) (2023-03-04T07:21:37Z) - Exploiting Completeness and Uncertainty of Pseudo Labels for Weakly
Supervised Video Anomaly Detection [149.23913018423022]
弱教師付きビデオ異常検出は、ビデオレベルのラベルのみを用いて、ビデオ内の異常事象を特定することを目的としている。
2段階の自己学習法は擬似ラベルの自己生成によって著しく改善されている。
本稿では,自己学習のための完全性と不確実性を利用した強化フレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-08T05:53:53Z) - Joint-Modal Label Denoising for Weakly-Supervised Audio-Visual Video
Parsing [52.2231419645482]
本稿では,弱教師付き音声・視覚ビデオ解析タスクについて述べる。
それぞれのモードに属する全ての事象を認識し、時間的境界をローカライズすることを目的としている。
論文 参考訳(メタデータ) (2022-04-25T11:41:17Z) - Unified Multisensory Perception: Weakly-Supervised Audio-Visual Video
Parsing [48.87278703876147]
オーディオ・ヴィジュアル・ビデオ解析と呼ばれる新しい問題は、ビデオを時間的なイベントセグメントにパースし、それらを可聴性、可視性、あるいはその両方にラベル付けすることを目指している。
本稿では,一助的・横断的時間的文脈を同時に探索するハイブリッドアテンションネットワークを提案する。
実験結果から,映像レベルが弱いラベルであっても,難易度の高い映像解析が可能であることがわかった。
論文 参考訳(メタデータ) (2020-07-21T01:53:31Z) - Labelling unlabelled videos from scratch with multi-modal
self-supervision [82.60652426371936]
ビデオデータセットの教師なしラベリングは、強力な機能エンコーダから解放されない。
人間のアノテーションを使わずにビデオデータセットの擬似ラベリングを可能にする新しいクラスタリング手法を提案する。
広範囲な分析により、結果として得られたクラスタは、真理の人間ラベルと高いセマンティックオーバーラップがあることが示されている。
論文 参考訳(メタデータ) (2020-06-24T12:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。