論文の概要: Noise-Tolerant Learning for Audio-Visual Action Recognition
- arxiv url: http://arxiv.org/abs/2205.07611v1
- Date: Mon, 16 May 2022 12:14:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-17 20:09:01.344096
- Title: Noise-Tolerant Learning for Audio-Visual Action Recognition
- Title(参考訳): 聴覚行動認識のための耐雑音性学習
- Authors: Haochen Han, Qinghua Zheng, Minnan Luo, Kaiyao Miao, Feng Tian and Yan
Chen
- Abstract要約: 最も広く使われているビデオデータセットはインターネットから収集され、必然的にノイズラベルとノイズ対応を含んでいる。
本稿では,雑音ラベルと雑音対応の両方に対する反干渉モデルパラメータを求めるための耐雑音学習フレームワークを提案する。
本手法は2つの位相からなり,モード間の固有相関により雑音を補正することを目的としている。
- 参考スコア(独自算出の注目度): 25.562433147510554
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, video recognition is emerging with the help of multi-modal
learning, which focuses on integrating multiple modalities to improve the
performance or robustness of a model. Although various multi-modal learning
methods have been proposed and offer remarkable recognition results, almost all
of these methods rely on high-quality manual annotations and assume that
modalities among multi-modal data provide relevant semantic information.
Unfortunately, most widely used video datasets are collected from the Internet
and inevitably contain noisy labels and noisy correspondence. To solve this
problem, we use the audio-visual action recognition task as a proxy and propose
a noise-tolerant learning framework to find anti-interference model parameters
to both noisy labels and noisy correspondence. Our method consists of two
phases and aims to rectify noise by the inherent correlation between
modalities. A noise-tolerant contrastive training phase is performed first to
learn robust model parameters unaffected by the noisy labels. To reduce the
influence of noisy correspondence, we propose a cross-modal noise estimation
component to adjust the consistency between different modalities. Since the
noisy correspondence existed at the instance level, a category-level
contrastive loss is proposed to further alleviate the interference of noisy
correspondence. Then in the hybrid supervised training phase, we calculate the
distance metric among features to obtain corrected labels, which are used as
complementary supervision. In addition, we investigate the noisy correspondence
in real-world datasets and conduct comprehensive experiments with synthetic and
real noise data. The results verify the advantageous performance of our method
compared to state-of-the-art methods.
- Abstract(参考訳): 近年,マルチモーダル学習(multi-modal learning)により,複数のモダリティの統合によるモデルの性能向上や堅牢性の向上が注目されている。
様々なマルチモーダル学習手法が提案され、優れた認識結果を提供するが、これらの手法のほとんどは高品質なマニュアルアノテーションに依存し、マルチモーダルデータのモダリティが関連する意味情報を提供すると仮定する。
残念ながら、最も広く使われているビデオデータセットはインターネットから収集され、必然的にノイズラベルとノイズ対応を含んでいる。
この問題を解決するために,音声・視覚行動認識タスクをプロキシとして使用し,雑音ラベルと雑音対応の両方に反干渉モデルパラメータを求めるための雑音耐性学習フレームワークを提案する。
本手法は2つの位相から成り,モダリティ間の固有相関によるノイズの修正を目標とする。
まず、ノイズ耐性コントラストトレーニングフェーズを行い、ノイズラベルに影響を受けないロバストなモデルパラメータを学習する。
雑音応答の影響を低減するため,異なるモード間の整合性を調整するクロスモーダル雑音推定成分を提案する。
ノイズ対応がインスタンスレベルに存在するため、ノイズ対応の干渉をさらに緩和するためにカテゴリレベルのコントラスト損失が提案されている。
次に, ハイブリッド教師付き学習フェーズにおいて, 特徴間の距離メトリックを計算し, 補足的監督に用いる補正ラベルを得る。
さらに,実世界のデータセットにおける雑音対応について検討し,合成および実雑音データを用いた包括的実験を行う。
その結果,最先端手法と比較して,提案手法の利点を検証した。
関連論文リスト
- Disentangled Noisy Correspondence Learning [56.06801962154915]
クロスモーダル検索は、モダリティ間の潜在対応を理解する上で重要である。
DisNCLはノイズ対応学習における特徴分散のための新しい情報理論フレームワークである。
論文 参考訳(メタデータ) (2024-08-10T09:49:55Z) - Relation Modeling and Distillation for Learning with Noisy Labels [4.556974104115929]
本稿では,自己教師型学習を通して,サンプル間の関係をモデル化する関係モデリングと蒸留の枠組みを提案する。
提案手法は,ノイズの多いデータに対する識別表現を学習し,既存の手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2024-05-30T01:47:27Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - Co-Learning Meets Stitch-Up for Noisy Multi-label Visual Recognition [70.00984078351927]
本稿では,多ラベル分類と長期学習の特徴に基づく雑音の低減に焦点をあてる。
よりクリーンなサンプルを合成し,マルチラベルノイズを直接低減するStitch-Up拡張を提案する。
ヘテロジニアス・コラーニング・フレームワークは、長い尾の分布とバランスの取れた分布の不整合を活用するためにさらに設計されている。
論文 参考訳(メタデータ) (2023-07-03T09:20:28Z) - Label Noise-Robust Learning using a Confidence-Based Sieving Strategy [15.997774467236352]
ラベルノイズを伴うタスクの学習では、オーバーフィッティングに対するモデルの堅牢性を改善することが重要な課題である。
サンプルをノイズのあるラベルで識別し、モデルを学習するのを防ぐことは、この課題に対処するための有望なアプローチである。
本研究では, 信頼度誤差と呼ばれる新しい判別基準と, クリーンサンプルとノイズサンプルを効果的に識別するためのCONFESと呼ばれるシービング戦略を提案する。
論文 参考訳(メタデータ) (2022-10-11T10:47:28Z) - Robust Contrastive Learning against Noisy Views [79.71880076439297]
ノイズの多い視点に対して頑健な新しいコントラスト損失関数を提案する。
提案手法は,最新の画像,ビデオ,グラフのコントラスト学習ベンチマークに対して一貫した改善を提供する。
論文 参考訳(メタデータ) (2022-01-12T05:24:29Z) - Few-Shot Fine-Grained Action Recognition via Bidirectional Attention and
Contrastive Meta-Learning [51.03781020616402]
現実世界のアプリケーションで特定のアクション理解の需要が高まっているため、きめ細かいアクション認識が注目を集めている。
そこで本研究では,各クラスに付与されるサンプル数だけを用いて,新規なきめ細かい動作を認識することを目的とした,数発のきめ細かな動作認識問題を提案する。
粒度の粗い動作では進展があったが、既存の数発の認識手法では、粒度の細かい動作を扱う2つの問題に遭遇する。
論文 参考訳(メタデータ) (2021-08-15T02:21:01Z) - Multi-Objective Interpolation Training for Robustness to Label Noise [17.264550056296915]
標準教師付きコントラスト学習はラベル雑音の存在下で劣化することを示す。
コントラスト学習により学習したロバストな特徴表現を利用する新しいラベルノイズ検出手法を提案する。
合成および実世界のノイズベンチマークの実験は、MOIT/MOIT+が最先端の結果を得ることを示した。
論文 参考訳(メタデータ) (2020-12-08T15:01:54Z) - Learning Not to Learn in the Presence of Noisy Labels [104.7655376309784]
ギャンブラーの損失と呼ばれる新しい種類の損失関数は、様々なレベルの汚職にまたがってノイズをラベル付けするのに強い堅牢性をもたらすことを示す。
この損失関数によるトレーニングは、ノイズのあるラベルを持つデータポイントでの学習を"維持"することをモデルに促すことを示す。
論文 参考訳(メタデータ) (2020-02-16T09:12:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。