論文の概要: Joint-Modal Label Denoising for Weakly-Supervised Audio-Visual Video
Parsing
- arxiv url: http://arxiv.org/abs/2204.11573v2
- Date: Thu, 28 Apr 2022 04:30:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-29 10:35:23.807461
- Title: Joint-Modal Label Denoising for Weakly-Supervised Audio-Visual Video
Parsing
- Title(参考訳): 弱教師付き視聴覚映像解析のためのジョイントモーダルラベル雑音化
- Authors: Haoyue Cheng, Zhaoyang Liu, Hang Zhou, Chen Qian, Wayne Wu, Limin Wang
- Abstract要約: 本稿では,弱教師付き音声・視覚ビデオ解析タスクについて述べる。
それぞれのモードに属する全ての事象を認識し、時間的境界をローカライズすることを目的としている。
- 参考スコア(独自算出の注目度): 52.2231419645482
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper focuses on the weakly-supervised audio-visual video parsing task,
which aims to recognize all events belonging to each modality and localize
their temporal boundaries. This task is challenging because only overall labels
indicating the video events are provided for training. However, an event might
be labeled but not appear in one of the modalities, which results in a
modality-specific noisy label problem. Motivated by two observations that
networks tend to learn clean samples first and that a labeled event would
appear in at least one modality, we propose a training strategy to identify and
remove modality-specific noisy labels dynamically. Specifically, we sort the
losses of all instances within a mini-batch individually in each modality, then
select noisy samples according to relationships between intra-modal and
inter-modal losses. Besides, we also propose a simple but valid noise ratio
estimation method by calculating the proportion of instances whose confidence
is below a preset threshold. Our method makes large improvements over the
previous state of the arts (e.g., from 60.0% to 63.8% in segment-level visual
metric), which demonstrates the effectiveness of our approach.
- Abstract(参考訳): 本稿では,各モーダリティに属するすべてのイベントを認識し,その時間的境界を局所化することを目的とした,弱教師付き音声映像解析タスクに注目した。
ビデオイベントを示すラベル全体だけがトレーニング用に提供されるため、このタスクは難しい。
しかし、イベントはラベル付けされるが、モダリティの1つには表示されないため、モダリティ特有のノイズラベル問題が発生する。
ネットワークがまずクリーンサンプルを学習する傾向にあり,少なくとも1つのモードでラベル付きイベントが現れるという2つの観察結果から,モーダリティ固有のノイズラベルを動的に識別・除去するためのトレーニング戦略を提案する。
具体的には、各モーダルにおいて各インスタンスの損失を個別にソートし、モーダル内損失とモーダル間損失の関係に応じてノイズサンプルを選択する。
また,信頼度が予め設定された閾値未満のインスタンスの比率を計算することで,簡易かつ有効な雑音比推定法を提案する。
本手法は,従来の技術状況(例えば,セグメントレベルの視覚測定値の60.0%から63.8%)を大きく改善し,アプローチの有効性を実証する。
関連論文リスト
- Learning Discriminative Dynamics with Label Corruption for Noisy Label Detection [25.55455239006278]
トレーニング信号のダイナミクスに基づいて,誤ラベル付きインスタンスと正しくラベル付けされたインスタンスを識別するDynaCorフレームワークを提案する。
我々の総合的な実験により、DynaCorは最先端のライバルより優れており、様々なノイズタイプやノイズレートに対して強い堅牢性を示している。
論文 参考訳(メタデータ) (2024-05-30T10:06:06Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - Learning with Noisy labels via Self-supervised Adversarial Noisy Masking [33.87292143223425]
対向雑音マスキングと呼ばれる新しいトレーニング手法を提案する。
入力データとラベルを同時に調整し、ノイズの多いサンプルが過度に収まらないようにする。
合成および実世界のノイズデータセットの両方でテストされる。
論文 参考訳(メタデータ) (2023-02-14T03:13:26Z) - Learning from Noisy Labels with Coarse-to-Fine Sample Credibility
Modeling [22.62790706276081]
ノイズの多いラベルでディープニューラルネットワーク(DNN)を訓練することは事実上難しい。
従来の取り組みでは、統合されたデノナイジングフローで部分データや完全なデータを扱う傾向があります。
本研究では,ノイズの多いデータを分割・分散的に処理するために,CREMAと呼ばれる粗大な頑健な学習手法を提案する。
論文 参考訳(メタデータ) (2022-08-23T02:06:38Z) - Noise-Tolerant Learning for Audio-Visual Action Recognition [31.641972732424463]
ビデオデータセットは通常、粗い注釈付きまたはインターネットから収集される。
本稿では,雑音ラベルと雑音対応の両方に対して,反干渉モデルパラメータを求めるための耐雑音性学習フレームワークを提案する。
本手法は,動作認識モデルのロバスト性を大幅に向上し,ベースラインをクリアマージンで越える。
論文 参考訳(メタデータ) (2022-05-16T12:14:03Z) - S3: Supervised Self-supervised Learning under Label Noise [53.02249460567745]
本稿では,ラベルノイズの存在下での分類の問題に対処する。
提案手法の核心は,サンプルのアノテートラベルと特徴空間内のその近傍のラベルの分布との整合性に依存するサンプル選択機構である。
提案手法は,CIFARCIFAR100とWebVisionやANIMAL-10Nなどの実環境ノイズデータセットの両方で,従来の手法をはるかに上回っている。
論文 参考訳(メタデータ) (2021-11-22T15:49:20Z) - Reliable Shot Identification for Complex Event Detection via
Visual-Semantic Embedding [72.9370352430965]
本稿では,映像中の事象検出のための視覚的意味的誘導損失法を提案する。
カリキュラム学習に動機付け,高い信頼性の事例で分類器の訓練を開始するために,負の弾性正規化項を導入する。
提案する非ネット正規化問題の解法として,代替最適化アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-10-12T11:46:56Z) - Unsupervised Sound Localization via Iterative Contrastive Learning [106.56167882750792]
データアノテーションを必要としない反復型コントラスト学習フレームワークを提案する。
次に、擬似ラベルを用いて、同じビデオからサンプリングされた視覚信号と音声信号の相関関係を学習する。
我々の反復的戦略は徐々に音像の局所化を奨励し、非発声領域と参照音声との相関を減少させる。
論文 参考訳(メタデータ) (2021-04-01T07:48:29Z) - Tackling Instance-Dependent Label Noise via a Universal Probabilistic
Model [80.91927573604438]
本稿では,ノイズラベルをインスタンスに明示的に関連付ける,単純かつ普遍的な確率モデルを提案する。
合成および実世界のラベルノイズを用いたデータセット実験により,提案手法がロバスト性に大きな改善をもたらすことを確認した。
論文 参考訳(メタデータ) (2021-01-14T05:43:51Z) - Unsupervised Contrastive Learning of Sound Event Representations [30.914808451327403]
自己教師付き表現学習は、手動でラベル付けされたデータはほとんどないがラベル付けされていないデータで、認識タスクの制限を軽減することができる。
本研究では,音声イベント表現を学習する手段として,教師なしのコントラスト学習を検討する。
その結果、教師なしのコントラスト事前学習は、データ不足の影響を軽減し、ノイズラベルに対するロバスト性を高めることが示唆された。
論文 参考訳(メタデータ) (2020-11-15T19:50:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。