論文の概要: Noise-Tolerant Learning for Audio-Visual Action Recognition
- arxiv url: http://arxiv.org/abs/2205.07611v3
- Date: Mon, 11 Sep 2023 04:23:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 23:31:06.998923
- Title: Noise-Tolerant Learning for Audio-Visual Action Recognition
- Title(参考訳): 聴覚行動認識のための耐雑音性学習
- Authors: Haochen Han, Qinghua Zheng, Minnan Luo, Kaiyao Miao, Feng Tian and Yan
Chen
- Abstract要約: ビデオデータセットは通常、粗い注釈付きまたはインターネットから収集される。
本稿では,雑音ラベルと雑音対応の両方に対して,反干渉モデルパラメータを求めるための耐雑音性学習フレームワークを提案する。
本手法は,動作認識モデルのロバスト性を大幅に向上し,ベースラインをクリアマージンで越える。
- 参考スコア(独自算出の注目度): 31.641972732424463
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, video recognition is emerging with the help of multi-modal
learning, which focuses on integrating distinct modalities to improve the
performance or robustness of the model. Although various multi-modal learning
methods have been proposed and offer remarkable recognition results, almost all
of these methods rely on high-quality manual annotations and assume that
modalities among multi-modal data provide semantically relevant information.
Unfortunately, the widely used video datasets are usually coarse-annotated or
collected from the Internet. Thus, it inevitably contains a portion of noisy
labels and noisy correspondence. To address this challenge, we use the
audio-visual action recognition task as a proxy and propose a noise-tolerant
learning framework to find anti-interference model parameters against both
noisy labels and noisy correspondence. Specifically, our method consists of two
phases that aim to rectify noise by the inherent correlation between
modalities. First, a noise-tolerant contrastive training phase is performed to
make the model immune to the possible noisy-labeled data. To alleviate the
influence of noisy correspondence, we propose a cross-modal noise estimation
component to adjust the consistency between different modalities. As the noisy
correspondence existed at the instance level, we further propose a
category-level contrastive loss to reduce its interference. Second, in the
hybrid-supervised training phase, we calculate the distance metric among
features to obtain corrected labels, which are used as complementary
supervision to guide the training. Extensive experiments on a wide range of
noisy levels demonstrate that our method significantly improves the robustness
of the action recognition model and surpasses the baselines by a clear margin.
- Abstract(参考訳): 近年,マルチモーダル学習の助けを借りて映像認識が登場し,モデルの性能やロバスト性を改善するために,異なるモダリティの統合に焦点を当てている。
様々なマルチモーダル学習手法が提案され、顕著な認識結果を提供しているが、これらの手法のほとんどは高品質なマニュアルアノテーションに依存し、マルチモーダルデータ間のモダリティが意味的に関連する情報を提供すると仮定している。
残念ながら、広く使われているビデオデータセットは通常、粗い注釈やインターネットから収集される。
したがって、必然的にノイズラベルの一部とノイズ対応を含む。
この課題に対処するために,音声・視覚行動認識タスクをプロキシとして使用し,雑音ラベルと雑音対応の両方に対して反干渉モデルパラメータを求めるための雑音耐性学習フレームワークを提案する。
具体的には,モダリティ間の固有相関による雑音の修正を目的とした2つの位相からなる。
まず、ノイズ耐性コントラスト訓練フェーズを行い、モデルがうる雑音ラベルデータに免疫させる。
ノイズ対応の影響を緩和するために,異なるモード間の一貫性を調整するクロスモーダル雑音推定コンポーネントを提案する。
インスタンスレベルでのノイズ対応が存在するため、その干渉を減らすためのカテゴリレベルのコントラスト損失も提案する。
第2に,ハイブリッド教師付きトレーニングフェーズでは,特徴間の距離メトリックを算出し,学習指導のための補完的監督として使用される補正ラベルを得る。
幅広い雑音レベルの実験により,本手法は動作認識モデルのロバスト性を大幅に改善し,ベースラインをクリアマージンで上回ることを示した。
関連論文リスト
- Disentangled Noisy Correspondence Learning [56.06801962154915]
クロスモーダル検索は、モダリティ間の潜在対応を理解する上で重要である。
DisNCLはノイズ対応学習における特徴分散のための新しい情報理論フレームワークである。
論文 参考訳(メタデータ) (2024-08-10T09:49:55Z) - Relation Modeling and Distillation for Learning with Noisy Labels [4.556974104115929]
本稿では,自己教師型学習を通して,サンプル間の関係をモデル化する関係モデリングと蒸留の枠組みを提案する。
提案手法は,ノイズの多いデータに対する識別表現を学習し,既存の手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2024-05-30T01:47:27Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - Co-Learning Meets Stitch-Up for Noisy Multi-label Visual Recognition [70.00984078351927]
本稿では,多ラベル分類と長期学習の特徴に基づく雑音の低減に焦点をあてる。
よりクリーンなサンプルを合成し,マルチラベルノイズを直接低減するStitch-Up拡張を提案する。
ヘテロジニアス・コラーニング・フレームワークは、長い尾の分布とバランスの取れた分布の不整合を活用するためにさらに設計されている。
論文 参考訳(メタデータ) (2023-07-03T09:20:28Z) - Label Noise-Robust Learning using a Confidence-Based Sieving Strategy [15.997774467236352]
ラベルノイズを伴うタスクの学習では、オーバーフィッティングに対するモデルの堅牢性を改善することが重要な課題である。
サンプルをノイズのあるラベルで識別し、モデルを学習するのを防ぐことは、この課題に対処するための有望なアプローチである。
本研究では, 信頼度誤差と呼ばれる新しい判別基準と, クリーンサンプルとノイズサンプルを効果的に識別するためのCONFESと呼ばれるシービング戦略を提案する。
論文 参考訳(メタデータ) (2022-10-11T10:47:28Z) - Robust Contrastive Learning against Noisy Views [79.71880076439297]
ノイズの多い視点に対して頑健な新しいコントラスト損失関数を提案する。
提案手法は,最新の画像,ビデオ,グラフのコントラスト学習ベンチマークに対して一貫した改善を提供する。
論文 参考訳(メタデータ) (2022-01-12T05:24:29Z) - Few-Shot Fine-Grained Action Recognition via Bidirectional Attention and
Contrastive Meta-Learning [51.03781020616402]
現実世界のアプリケーションで特定のアクション理解の需要が高まっているため、きめ細かいアクション認識が注目を集めている。
そこで本研究では,各クラスに付与されるサンプル数だけを用いて,新規なきめ細かい動作を認識することを目的とした,数発のきめ細かな動作認識問題を提案する。
粒度の粗い動作では進展があったが、既存の数発の認識手法では、粒度の細かい動作を扱う2つの問題に遭遇する。
論文 参考訳(メタデータ) (2021-08-15T02:21:01Z) - Multi-Objective Interpolation Training for Robustness to Label Noise [17.264550056296915]
標準教師付きコントラスト学習はラベル雑音の存在下で劣化することを示す。
コントラスト学習により学習したロバストな特徴表現を利用する新しいラベルノイズ検出手法を提案する。
合成および実世界のノイズベンチマークの実験は、MOIT/MOIT+が最先端の結果を得ることを示した。
論文 参考訳(メタデータ) (2020-12-08T15:01:54Z) - Learning Not to Learn in the Presence of Noisy Labels [104.7655376309784]
ギャンブラーの損失と呼ばれる新しい種類の損失関数は、様々なレベルの汚職にまたがってノイズをラベル付けするのに強い堅牢性をもたらすことを示す。
この損失関数によるトレーニングは、ノイズのあるラベルを持つデータポイントでの学習を"維持"することをモデルに促すことを示す。
論文 参考訳(メタデータ) (2020-02-16T09:12:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。