論文の概要: Robust Noisy Correspondence Learning via Self-Drop and Dual-Weight
- arxiv url: http://arxiv.org/abs/2412.06172v1
- Date: Mon, 09 Dec 2024 03:06:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:54:50.156988
- Title: Robust Noisy Correspondence Learning via Self-Drop and Dual-Weight
- Title(参考訳): 自由度と二重重みによるロバスト雑音対応学習
- Authors: Fan Liu, Chenwei Dong, Chuanyi Zhang, Hualiang Zhou, Jun Zhou,
- Abstract要約: クラウドソーシング(Crowd-sourcing)あるいはWebクローリング(web crawling)は、マッチしないペアを導入する。
現在のアプローチでは、ディープニューラルネットワークの効果を利用してノイズを識別し、再重み付けを行う。
本稿では,データ分割による精巧なデータ処理を実現するための,新たなセルフドロップとデュアルウェイトアプローチを提案する。
- 参考スコア(独自算出の注目度): 11.523154025649758
- License:
- Abstract: Many researchers collect data from the internet through crowd-sourcing or web crawling to alleviate the data-hungry challenge associated with cross-modal matching. Although such practice does not require expensive annotations, it inevitably introduces mismatched pairs and results in a noisy correspondence problem. Current approaches leverage the memorization effect of deep neural networks to distinguish noise and perform re-weighting. However, briefly lowering the weight of noisy pairs cannot eliminate the negative impact of noisy correspondence in the training process. In this paper, we propose a novel self-drop and dual-weight approach, which achieves elaborate data processing by qua-partitioning the data. Specifically, our approach partitions all data into four types: clean and significant, clean yet insignificant, vague, and noisy. We analyze the effect of noisy and clean data pairs and find that for vision-language pre-training models, a small number of clean samples is more valuable than a majority of noisy ones. Based on this observation, we employ self-drop to discard noisy samples to effectively mitigate the impact of noise. In addition, we adopt a dual-weight strategy to ensure that the model focuses more on significant samples while appropriately leveraging vague samples. Compared to the prior works, our approach is more robust and demonstrates relatively more stable performance on noisy datasets, especially under a high noise ratio. Extensive experiments on three widely used datasets, including Flickr30K, MS-COCO, and Conceptual Captions, validate the effectiveness of our approach. The source code is available at https://github.com/DongChenwei2000/SDD.
- Abstract(参考訳): 多くの研究者がクラウドソーシングやウェブクローリングを通じてインターネットからデータを収集し、クロスモーダルマッチングに関連するデータ不足の問題を緩和している。
このような手法は高価なアノテーションを必要としないが、不一致のペアを必然的に導入し、ノイズの多い対応問題を引き起こす。
現在のアプローチでは、ディープニューラルネットワークの記憶効果を利用してノイズを識別し、再重み付けを行う。
しかし,ノイズペアの重みを短時間に下げても,トレーニング過程におけるノイズ対応の負の影響を排除できない。
本稿では,データの四分割による精巧なデータ処理を実現するための,新たな自己ドロップと二重重み付きアプローチを提案する。
具体的には、当社のアプローチでは、すべてのデータを、クリーンで重要で、クリーンで、重要で、曖昧で、ノイズの多い4つのタイプに分割しています。
ノイズとクリーンなデータペアの効果を分析し、視覚言語による事前学習モデルでは、ノイズの多いサンプルの大半よりも少数のクリーンサンプルの方が有用であることを示す。
この観測に基づいて、ノイズの影響を効果的に緩和するために、ノイズの除去にセルフドロップを用いる。
さらに,モデルが重要なサンプルに焦点をあてると同時に,あいまいなサンプルを適切に活用することを保証するために,二重重み戦略を採用する。
従来の手法と比較して,本手法はより堅牢であり,特に高雑音比下で,ノイズの多いデータセットに対して比較的安定した性能を示す。
Flickr30K、MS-COCO、Conceptual Captionsなど、広く使われている3つのデータセットに対する大規模な実験により、我々のアプローチの有効性が検証された。
ソースコードはhttps://github.com/DongChenwei2000/SDDで入手できる。
関連論文リスト
- Dataset Distillers Are Good Label Denoisers In the Wild [16.626153947696743]
ノイズ除去にデータセット蒸留を利用する新しい手法を提案する。
本手法は,既存の手法に共通するフィードバックループを回避し,訓練効率を向上させる。
各種ノイズ条件下での3つの代表的なデータセット蒸留法(DATM, DANCE, RCIG)を厳格に評価した。
論文 参考訳(メタデータ) (2024-11-18T06:26:41Z) - Stochastic Amortization: A Unified Approach to Accelerate Feature and Data Attribution [62.71425232332837]
雑音ラベル付きモデルを用いたトレーニングは安価で驚くほど効果的であることを示す。
このアプローチは、いくつかの特徴属性とデータ評価手法を著しく加速し、しばしば既存のアプローチよりも桁違いにスピードアップする。
論文 参考訳(メタデータ) (2024-01-29T03:42:37Z) - Negative Pre-aware for Noisy Cross-modal Matching [46.5591267410225]
雑音対応は認識と修正が難しいため,クロスモーダルノイズロバスト学習は難しい課題である。
本稿では,雑音の多い下流タスクに対する大規模視覚言語モデルファインタニングのための,否定的事前認識型クロスモーダルマッチングソリューションを提案する。
論文 参考訳(メタデータ) (2023-12-10T05:52:36Z) - Fine tuning Pre trained Models for Robustness Under Noisy Labels [34.68018860186995]
トレーニングデータセットにノイズの多いラベルが存在することは、機械学習モデルのパフォーマンスに大きな影響を及ぼす可能性がある。
我々は、事前学習されたモデルの事前知識を頑健かつ効率的に伝達するTURNと呼ばれる新しいアルゴリズムを導入する。
論文 参考訳(メタデータ) (2023-10-24T20:28:59Z) - Co-Learning Meets Stitch-Up for Noisy Multi-label Visual Recognition [70.00984078351927]
本稿では,多ラベル分類と長期学習の特徴に基づく雑音の低減に焦点をあてる。
よりクリーンなサンプルを合成し,マルチラベルノイズを直接低減するStitch-Up拡張を提案する。
ヘテロジニアス・コラーニング・フレームワークは、長い尾の分布とバランスの取れた分布の不整合を活用するためにさらに設計されている。
論文 参考訳(メタデータ) (2023-07-03T09:20:28Z) - Confidence-based Reliable Learning under Dual Noises [46.45663546457154]
ディープニューラルネットワーク(DNN)は、様々なコンピュータビジョンタスクにおいて顕著な成功を収めている。
しかし、オープンワールドから収集されたデータはノイズによって必然的に汚染され、学習されたモデルの有効性を著しく損なう可能性がある。
データノイズ下でDNNを確実に訓練する様々な試みがなされているが、ラベルに存在するノイズと画像に存在するノイズを別々に考慮している。
この作業は、ジョイント(イメージ、ラベル)ノイズの下での信頼性学習のための、最初の統一されたフレームワークを提供する。
論文 参考訳(メタデータ) (2023-02-10T07:50:34Z) - Improving the Robustness of Summarization Models by Detecting and
Removing Input Noise [50.27105057899601]
本研究では,様々な種類の入力ノイズから,様々なデータセットやモデルサイズに対する性能損失を定量化する大規模な実験的検討を行った。
本稿では,モデル推論中の入力中のそのようなノイズを検出し,除去するための軽量な手法を提案する。
論文 参考訳(メタデータ) (2022-12-20T00:33:11Z) - The Dynamic of Consensus in Deep Networks and the Identification of
Noisy Labels [5.28539620288341]
ノイズラベルは トレーニングの終わりまでに きれいな例とは区別できない
最近の研究では、ディープネットワークがノイズの多い例よりもずっと早くサンプルを記憶しているように見えるという事実を活用して、この問題に対処している。
我々は,この観測結果を用いて,ノイズラベル濾過の新しい手法を開発した。
論文 参考訳(メタデータ) (2022-10-02T17:47:23Z) - Neighborhood Collective Estimation for Noisy Label Identification and
Correction [92.20697827784426]
ノイズラベルを用いた学習(LNL)は,ノイズラベルに対するモデルオーバーフィットの効果を軽減し,モデル性能と一般化を改善するための戦略を設計することを目的としている。
近年の進歩は、個々のサンプルのラベル分布を予測し、ノイズ検証とノイズラベル補正を行い、容易に確認バイアスを生じさせる。
提案手法では, 候補サンプルの予測信頼性を, 特徴空間近傍と対比することにより再推定する。
論文 参考訳(メタデータ) (2022-08-05T14:47:22Z) - Identifying Hard Noise in Long-Tailed Sample Distribution [76.16113794808001]
NLT(Noisy Long-Tailed Classification)を紹介する。
ほとんどのノイズ除去法は、ハードノイズを特定するのに失敗する。
我々はH2E(Hard-to-Easy)と呼ばれる反復的な雑音学習フレームワークを設計する。
論文 参考訳(メタデータ) (2022-07-27T09:03:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。