論文の概要: Improving Audio-Visual Video Parsing with Pseudo Visual Labels
- arxiv url: http://arxiv.org/abs/2303.02344v1
- Date: Sat, 4 Mar 2023 07:21:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 20:15:03.739314
- Title: Improving Audio-Visual Video Parsing with Pseudo Visual Labels
- Title(参考訳): 擬似視覚ラベルを用いた視聴覚映像解析の改善
- Authors: Jinxing Zhou, Dan Guo, Yiran Zhong, Meng Wang
- Abstract要約: 音声映像解析のためのセグメントレベルの擬似ラベルを生成するための新しい手法を提案する。
これらのラベルをカテゴリー豊かさとセグメント豊かさを考慮して正規化するために, 新たな損失関数を提案する。
高前方のバイナリクロスエントロピー損失の発生時にそれを反転させることにより、擬似ラベルを改善するためにラベルの復調戦略を採用する。
- 参考スコア(独自算出の注目度): 33.25271156393651
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-Visual Video Parsing is a task to predict the events that occur in
video segments for each modality. It often performs in a weakly supervised
manner, where only video event labels are provided, i.e., the modalities and
the timestamps of the labels are unknown. Due to the lack of densely annotated
labels, recent work attempts to leverage pseudo labels to enrich the
supervision. A commonly used strategy is to generate pseudo labels by
categorizing the known event labels for each modality. However, the labels are
still limited to the video level, and the temporal boundaries of event
timestamps remain unlabeled. In this paper, we propose a new pseudo label
generation strategy that can explicitly assign labels to each video segment by
utilizing prior knowledge learned from the open world. Specifically, we exploit
the CLIP model to estimate the events in each video segment based on visual
modality to generate segment-level pseudo labels. A new loss function is
proposed to regularize these labels by taking into account their
category-richness and segmentrichness. A label denoising strategy is adopted to
improve the pseudo labels by flipping them whenever high forward binary cross
entropy loss occurs. We perform extensive experiments on the LLP dataset and
demonstrate that our method can generate high-quality segment-level pseudo
labels with the help of our newly proposed loss and the label denoising
strategy. Our method achieves state-of-the-art audio-visual video parsing
performance.
- Abstract(参考訳): オーディオ・ビジュアルビデオ解析は、各モダリティの映像セグメントで発生するイベントを予測するタスクである。
しばしば、ビデオイベントラベルのみが提供される、すなわちラベルのモダリティとタイムスタンプが不明な、弱い監督のやり方で実行される。
高度に注釈付けされたラベルがないため、最近の研究は偽のラベルを利用して監督を強化しようとしている。
一般的に使用される戦略は、既知のイベントラベルを各モダリティに分類して擬似ラベルを生成することである。
しかし、ラベルはまだビデオレベルに限定されており、イベントタイムスタンプの時間的境界はラベルを付けていない。
本稿では,オープンワールドから学習した事前知識を利用して,各映像セグメントにラベルを明示的に割り当てることができる擬似ラベル生成戦略を提案する。
具体的には、CLIPモデルを用いて、視覚的モダリティに基づいて各ビデオセグメントの事象を推定し、セグメントレベルの擬似ラベルを生成する。
これらのラベルをカテゴリー豊かさとセグメント豊かさを考慮した新しい損失関数を提案する。
高次2次クロスエントロピー損失が発生するたびにフリップすることで擬似ラベルを改善するためのラベル修飾戦略が採用されている。
我々は,llpデータセットに関する広範囲な実験を行い,提案手法が新たに提案する損失とラベル表示戦略の助けを借りて,高品質セグメントレベル擬似ラベルを生成できることを実証する。
本手法は,最先端のオーディオ映像解析性能を実現する。
関連論文リスト
- Label-anticipated Event Disentanglement for Audio-Visual Video Parsing [61.08434062821899]
我々は新しいデコードパラダイムであるアンダーライン・サンダーライン・エンダーライン・アンダーライン・インダーライン・プロジェクション(LEAP)を導入する。
LEAPは、音声/視覚セグメントの符号化された潜在機能を意味的に独立したラベル埋め込みに反復的に投影する。
LEAPパラダイムを促進するために,新しい音声・視覚的類似性損失関数を含むセマンティック・アウェア・最適化戦略を提案する。
論文 参考訳(メタデータ) (2024-07-11T01:57:08Z) - Advancing Weakly-Supervised Audio-Visual Video Parsing via Segment-wise Pseudo Labeling [31.197074786874943]
オーディオ・ビジュアル・ビデオ・パーシング(Audio-Visual Video Parsing)タスクは、可聴ビデオの音声ストリームと視覚ストリームの両方で発生する事象を特定し、時間的にローカライズすることを目的としている。
高度に注釈付けされたラベルがないため、最近の研究は偽のラベルを活用して監督を強化しようとしている。
本稿では,各ビデオセグメントにラベルを明示的に割り当てる擬似ラベル生成戦略を提案する。
論文 参考訳(メタデータ) (2024-06-03T01:09:15Z) - Pseudo-labelling meets Label Smoothing for Noisy Partial Label Learning [8.387189407144403]
部分ラベル学習(Partial label learning、PLL)は、各トレーニングインスタンスが候補ラベル(Partial label)のセットとペアリングされる弱い教師付き学習パラダイムである。
NPLLはこの制約を緩和し、一部の部分ラベルが真のラベルを含まないようにし、問題の実用性を高める。
本稿では,近傍の重み付けアルゴリズムを用いて,雑音のある部分ラベルを利用して画像に擬似ラベルを割り当てる最小限のフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-07T13:32:47Z) - Temporal Label-Refinement for Weakly-Supervised Audio-Visual Event
Localization [0.0]
AVEL(英: AVEL)とは、ビデオの中で同時に可視かつ可聴な事象を時間的に局所化し、分類するタスクである。
本稿では,ビデオレベルのイベントラベルのみをトレーニングの監督として利用できる弱教師付き環境でAVELを解く。
我々の考えは、ベースモデルを用いて、ビデオレベルよりも微妙な時間分解能でトレーニングデータのラベルを推定し、これらのラベルでモデルを再訓練することである。
論文 参考訳(メタデータ) (2023-07-12T18:13:58Z) - Revisit Weakly-Supervised Audio-Visual Video Parsing from the Language
Perspective [41.07880755312204]
本稿では,音声・視覚的モダリティのすべての事象を特定し,特定することを目的とした,弱教師付き音声・視覚的ビデオ解析タスク(AVVP)に焦点を当てる。
AVVPを言語の観点から扱うことを考える。なぜなら言語は固定ラベルを超えて各セグメントにどのように様々なイベントが現れるかを自由に記述できるからである。
我々の単純で効果的なアプローチは、最先端の手法を大きなマージンで上回ります。
論文 参考訳(メタデータ) (2023-06-01T12:12:22Z) - BadLabel: A Robust Perspective on Evaluating and Enhancing Label-noise
Learning [113.8799653759137]
我々はBadLabelと呼ばれる新しいラベルノイズタイプを導入し、既存のLNLアルゴリズムの性能を大幅に劣化させることができる。
BadLabelは、標準分類に対するラベルフライング攻撃に基づいて開発されている。
そこで本稿では, 各エポックにおいてラベルを逆向きに摂動させ, クリーンかつノイズの多いラベルの損失値を再び識別可能にする頑健なLNL法を提案する。
論文 参考訳(メタデータ) (2023-05-28T06:26:23Z) - Imprecise Label Learning: A Unified Framework for Learning with Various
Imprecise Label Configurations [95.12263518034939]
imprecise label learning (ILL)は、様々な不正確なラベル構成で学習を統合するためのフレームワークである。
我々は、ILLが部分ラベル学習、半教師付き学習、雑音ラベル学習にシームレスに適応できることを実証した。
論文 参考訳(メタデータ) (2023-05-22T04:50:28Z) - Exploiting Completeness and Uncertainty of Pseudo Labels for Weakly
Supervised Video Anomaly Detection [149.23913018423022]
弱教師付きビデオ異常検出は、ビデオレベルのラベルのみを用いて、ビデオ内の異常事象を特定することを目的としている。
2段階の自己学習法は擬似ラベルの自己生成によって著しく改善されている。
本稿では,自己学習のための完全性と不確実性を利用した強化フレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-08T05:53:53Z) - Learning from Pixel-Level Label Noise: A New Perspective for
Semi-Supervised Semantic Segmentation [12.937770890847819]
ピクセルレベルのノイズラベルに対処するためのグラフベースのラベルノイズ検出および補正フレームワークを提案する。
特に,クラスアクティベーションマップ(cam)による弱い監督から生成した画素レベルのノイズラベルに対して,強い監督を施したクリーンセグメンテーションモデルを訓練する。
最後に,超画素ベースのグラフを用いて,画像中の画素間の空間的隣接性と意味的類似性の関係を表現する。
論文 参考訳(メタデータ) (2021-03-26T03:23:21Z) - A Study on the Autoregressive and non-Autoregressive Multi-label
Learning [77.11075863067131]
本稿では,ラベルとラベルの依存関係を共同で抽出する自己アテンションに基づく変分エンコーダモデルを提案する。
したがって、ラベルラベルとラベル機能の両方の依存関係を保ちながら、すべてのラベルを並列に予測することができる。
論文 参考訳(メタデータ) (2020-12-03T05:41:44Z) - Labelling unlabelled videos from scratch with multi-modal
self-supervision [82.60652426371936]
ビデオデータセットの教師なしラベリングは、強力な機能エンコーダから解放されない。
人間のアノテーションを使わずにビデオデータセットの擬似ラベリングを可能にする新しいクラスタリング手法を提案する。
広範囲な分析により、結果として得られたクラスタは、真理の人間ラベルと高いセマンティックオーバーラップがあることが示されている。
論文 参考訳(メタデータ) (2020-06-24T12:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。