論文の概要: Contrast to Divide: Self-Supervised Pre-Training for Learning with Noisy
Labels
- arxiv url: http://arxiv.org/abs/2103.13646v1
- Date: Thu, 25 Mar 2021 07:40:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-26 13:50:28.405118
- Title: Contrast to Divide: Self-Supervised Pre-Training for Learning with Noisy
Labels
- Title(参考訳): contrast to divide: self-supervised pre-training for learning with noise labels
- Authors: Evgenii Zheltonozhskii, Chaim Baskin, Avi Mendelson, Alex M.
Bronstein, Or Litany
- Abstract要約: C2D(Contrast to Divide)は、機能抽出器を自己監督的に事前訓練するフレームワークである。
自己教師付き事前学習を用いることで、既存のLNLアプローチの性能が向上し、ウォームアップステージのノイズレベルへの感受性が大幅に低下する。
実際のノイズ設定では、Mini-WebVisionで訓練されたC2Dは、WebVisionとImageNetの検証セットで以前の作業より3%高い精度で優れています。
- 参考スコア(独自算出の注目度): 12.181548895121685
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The success of learning with noisy labels (LNL) methods relies heavily on the
success of a warm-up stage where standard supervised training is performed
using the full (noisy) training set. In this paper, we identify a "warm-up
obstacle": the inability of standard warm-up stages to train high quality
feature extractors and avert memorization of noisy labels. We propose "Contrast
to Divide" (C2D), a simple framework that solves this problem by pre-training
the feature extractor in a self-supervised fashion. Using self-supervised
pre-training boosts the performance of existing LNL approaches by drastically
reducing the warm-up stage's susceptibility to noise level, shortening its
duration, and increasing extracted feature quality. C2D works out of the box
with existing methods and demonstrates markedly improved performance,
especially in the high noise regime, where we get a boost of more than 27% for
CIFAR-100 with 90% noise over the previous state of the art. In real-life noise
settings, C2D trained on mini-WebVision outperforms previous works both in
WebVision and ImageNet validation sets by 3% top-1 accuracy. We perform an
in-depth analysis of the framework, including investigating the performance of
different pre-training approaches and estimating the effective upper bound of
the LNL performance with semi-supervised learning. Code for reproducing our
experiments is available at https://github.com/ContrastToDivide/C2D
- Abstract(参考訳): ノイズラベル(LNL)法による学習の成功は、標準的な教師付きトレーニングがフル(ノイズ)トレーニングセットを使用して実行されるウォームアップステージの成功に大きく依存する。
本稿では,高品質な特徴抽出器を訓練するための標準的なウォームアップステージの欠如と,ノイズラベルの暗記を回避する「ウォームアップ障害」を特定する。
本稿では,特徴抽出器を自己指導型で事前学習することで,この問題を解決するためのシンプルなフレームワークである"Contrast to Divide"(C2D)を提案する。
自己教師付き事前学習を用いることで、ウォームアップステージのノイズレベルへの感受性を大幅に低減し、その持続時間を短縮し、抽出された特徴量を増やすことで、既存のLNLアプローチの性能を高めることができる。
c2dは既存の手法で最初から動作し、特に高ノイズ環境ではパフォーマンスが著しく向上しており、cifar-100では27%以上向上し、以前の技術では90%のノイズが発生している。
実生活のノイズ設定では、mini-WebVisionでトレーニングされたC2Dは、WebVisionとImageNetバリデーションセットの両方において、3%のトップ1精度で過去の作業より優れています。
このフレームワークの詳細な分析を行い、様々な事前学習手法の性能を調査し、半教師付き学習を用いてLNL性能の有効上限を推定する。
実験を再現するためのコードはhttps://github.com/ContrastToDivide/C2Dで公開されている。
関連論文リスト
- The Solution for Temporal Sound Localisation Task of ICCV 1st Perception Test Challenge 2023 [11.64675515432159]
視覚的特徴と音声的特徴を組み合わせるために,マルチモーダル融合方式を用いる。
最先端の自己教師付き事前学習ネットワークを用いて高品質な視覚特徴を抽出する。
同時に、音声機能は、モデルが音の開始と終了をよりよくローカライズするのに役立つ補完的な情報として機能する。
論文 参考訳(メタデータ) (2024-07-01T12:52:05Z) - Adaptive Rentention & Correction for Continual Learning [114.5656325514408]
連続学習における一般的な問題は、最新のタスクに対する分類層のバイアスである。
アダプティブ・リテンション・アンド・コレクション (ARC) のアプローチを例に挙げる。
ARCはCIFAR-100とImagenet-Rのデータセットで平均2.7%と2.6%のパフォーマンス向上を達成した。
論文 参考訳(メタデータ) (2024-05-23T08:43:09Z) - Refining Pre-Trained Motion Models [56.18044168821188]
我々は、自己教師付きトレーニングによる最先端の教師付きモデルの改善に挑戦する。
実世界の未学習ビデオから「クリーン」な訓練信号を得ることに重点を置いている。
本研究では,本手法が実動画における完全教師付き手法よりも信頼性が高いことを示す。
論文 参考訳(メタデータ) (2024-01-01T18:59:33Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - CALIP: Zero-Shot Enhancement of CLIP with Parameter-free Attention [31.84299688413136]
コントラスト言語-画像事前学習は、大きな伝達性を持つ視覚表現を学習することが示されている。
既存の作業では、CLIPに新たな学習可能なモジュールを提案し、数ショットのトレーニングセットでそれらを微調整する。
本稿では,パラメータフリーアテンションモジュールを通じてCLIPのゼロショット性能を向上させるために,フリーランチ拡張手法であるCALIPを導入する。
論文 参考訳(メタデータ) (2022-09-28T15:22:11Z) - Simultaneous Double Q-learning with Conservative Advantage Learning for
Actor-Critic Methods [133.85604983925282]
保守的アドバンテージ学習(SDQ-CAL)を用いた同時二重Q-ラーニングを提案する。
提案アルゴリズムはバイアスの少ない値推定を実現し,一連の連続制御ベンチマークタスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2022-05-08T09:17:16Z) - CNLL: A Semi-supervised Approach For Continual Noisy Label Learning [12.341250124228859]
コスト効率と精度の両立したオンラインデータストリームを効果的に浄化する簡単な浄化手法を提案する。
精製後、我々は、利用可能なすべてのサンプルを確実に参加させる半教師付きで微調整を行う。
従来のSOTA法よりも20%のノイズでCIFAR10の24.8%の性能向上を実現した。
論文 参考訳(メタデータ) (2022-04-21T05:01:10Z) - Activation to Saliency: Forming High-Quality Labels for Unsupervised
Salient Object Detection [54.92703325989853]
本稿では,高品質なサリエンシキューを効果的に生成する2段階アクティベーション・ツー・サリエンシ(A2S)フレームワークを提案する。
トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。
本フレームワークは,既存のUSOD法と比較して高い性能を示した。
論文 参考訳(メタデータ) (2021-12-07T11:54:06Z) - Investigating Tradeoffs in Real-World Video Super-Resolution [90.81396836308085]
実世界のビデオ超解像(VSR)モデルは、一般化性を改善するために様々な劣化で訓練されることが多い。
最初のトレードオフを軽減するために,性能を犠牲にすることなく,最大40%のトレーニング時間を削減できる劣化手法を提案する。
そこで本研究では,多種多様な実世界の低品質映像系列を含むビデオLQデータセットを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:58:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。