論文の概要、ライセンス

# (参考訳) 雑音ラベル学習のための強化戦略 [全文訳有]

Augmentation Strategies for Learning with Noisy Labels ( http://arxiv.org/abs/2103.02130v2 )

ライセンス: CC BY 4.0
Kento Nishi, Yi Ding, Alex Rich, Tobias H\"ollerer(参考訳) 不完全なラベルは、実世界のデータセットに普遍的です。 ラベルノイズに強いディープニューラルネットワーク(DNN)を訓練するいくつかの成功した方法は、ウォームアップフェーズ中の損失に基づいてサンプルをフィルタリングして、クリーンなラベル付きサンプルの最初のセットをキュレートし、その後の損失計算のための擬似ラベルとしてネットワークの出力を使用することである。 本稿では,「ノイズラベルを用いた学習」問題に取り組むアルゴリズムの強化戦略について検討する。 CIFAR-10 と CIFAR-100 に基づく合成データセットと実世界データセット Clothing1M を用いて,複数の拡張戦略を提案し,検討する。 これらのアルゴリズムにいくつかの共通性があるため、損失モデリングタスクに1組の加減と学習のためのもう1セットを用いることが最も効果的であり、最先端や他の以前の方法の結果を改善することが判明した。 さらに, ウォームアップ期間中に添加することで, 不正確なラベル付き試料に対する損失収束挙動に負の影響がみられた。 我々は,この拡張戦略を最先端技術に導入し,評価されたすべての騒音レベルにおける性能向上を実証する。 特に、CIFAR-10ベンチマークの精度を90%の対称雑音で絶対精度で15%以上向上し、実世界のデータセットであるClathing1Mの性能も向上する。 (※同等の貢献)

Imperfect labels are ubiquitous in real-world datasets. Several recent successful methods for training deep neural networks (DNNs) robust to label noise have used two primary techniques: filtering samples based on loss during a warm-up phase to curate an initial set of cleanly labeled samples, and using the output of a network as a pseudo-label for subsequent loss calculations. In this paper, we evaluate different augmentation strategies for algorithms tackling the "learning with noisy labels" problem. We propose and examine multiple augmentation strategies and evaluate them using synthetic datasets based on CIFAR-10 and CIFAR-100, as well as on the real-world dataset Clothing1M. Due to several commonalities in these algorithms, we find that using one set of augmentations for loss modeling tasks and another set for learning is the most effective, improving results on the state-of-the-art and other previous methods. Furthermore, we find that applying augmentation during the warm-up period can negatively impact the loss convergence behavior of correctly versus incorrectly labeled samples. We introduce this augmentation strategy to the state-of-the-art technique and demonstrate that we can improve performance across all evaluated noise levels. In particular, we improve accuracy on the CIFAR-10 benchmark at 90% symmetric noise by more than 15% in absolute accuracy and we also improve performance on the real-world dataset Clothing1M. (* equal contribution)
公開日: Thu, 4 Mar 2021 02:05:43 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
1 2 0 2 r a M 4 ] V C . 1 2 0 2 r a m 4 ] v c である。 0.79
s c [ 2 v 0 3 1 2 0 . s c [ 2 v 0 3 1 2 0 . 0.85
3 0 1 2 : v i X r a 3 0 1 2 : v i X r a 0.85
Augmentation Strategies for Learning with Noisy Labels 雑音ラベル学習のための強化戦略 0.78
Kento Nishi *† Yi Ding*‡ Alex Rich ‡ Tobias Höllerer ‡ ケント・ニシ(kento nishi)※ アレックス・リッチ(alex rich)* トビアス・ヘラー(tobias höllerer)* 0.40
†Lynbrook High School, San Jose CA, USA 米国カリフォルニア州サンノゼにあるリンブルック高校 0.50
‡University of California Santa Barbara, Santa Barbara CA, USA カリフォルニア大学サンタバーバラ校 サンタバーバラ校 サンタバーバラ校 0.41
kento24gs@gmail.com, yding@cs.ucsb.edu, anrich@cs.ucsb.edu, holl@cs.ucsb.edu kento24gs@gmail.com, yding@cs.ucsb.edu, anrich@cs.ucsb.edu, holl@cs.ucsb.edu 0.59
Abstract Imperfect labels are ubiquitous in real-world datasets. 概要 不完全なラベルは、実世界のデータセットに普遍的です。 0.44
Several recent successful methods for training deep neural networks (DNNs) robust to label noise have used two primary techniques: filtering samples based on loss during a warm-up phase to curate an initial set of cleanly labeled samples, and using the output of a network as a pseudo-label for subsequent loss calculations. ラベルノイズに強いディープニューラルネットワーク(DNN)を訓練するいくつかの成功した方法は、ウォームアップフェーズ中の損失に基づいてサンプルをフィルタリングして、クリーンなラベル付きサンプルの最初のセットをキュレートし、その後の損失計算のための擬似ラベルとしてネットワークの出力を使用することである。 0.70
In this paper, we evaluate different augmentation strategies for algorithms tackling the "learning with noisy labels" problem. 本稿では,「ノイズラベルを用いた学習」問題に取り組むアルゴリズムの強化戦略について検討する。 0.79
We propose and examine multiple augmentation strategies and evaluate them using synthetic datasets based on CIFAR-10 and CIFAR-100, as well as on the real-world dataset Clothing1M. CIFAR-10 と CIFAR-100 に基づく合成データセットと実世界データセット Clothing1M を用いて,複数の拡張戦略を提案し,検討する。 0.80
Due to several commonalities in these algorithms, we find that using one set of augmentations for loss modeling tasks and another set for learning is the most effective, improving results on the state-of-the-art and other previous methods. これらのアルゴリズムにいくつかの共通性があるため、損失モデリングタスクに1組の加減と学習のためのもう1セットを用いることが最も効果的であり、最先端や他の以前の方法の結果を改善することが判明した。
訳抜け防止モード: これらのアルゴリズムのいくつかの共通性から 損失モデリングタスクのための1セットの強化と学習のためのもう1セットの使用 最も効果的で、その状態における結果を改善するものなのです。
0.71
Furthermore, we find that applying augmentation during the warm-up period can negatively impact the loss convergence behavior of correctly versus incorrectly labeled samples. さらに, ウォームアップ期間中に添加することで, 不正確なラベル付き試料に対する損失収束挙動に負の影響がみられた。 0.64
We introduce this augmentation strategy to the state-of-the-art technique and demonstrate that we can improve performance across all evaluated noise levels. 我々は,この拡張戦略を最先端技術に導入し,評価されたすべての騒音レベルにおける性能向上を実証する。 0.71
In particular, we improve accuracy on the CIFAR-10 benchmark at 90% symmetric noise by more than 15% in absolute accuracy and we also improve performance on the real-world dataset Clothing1M. 特に、CIFAR-10ベンチマークの精度を90%の対称雑音で絶対精度で15%以上向上し、実世界のデータセットであるClathing1Mの性能も向上する。 0.73
1. Introduction Data augmentation is a common method used to expand datasets and has been applied successfully in many computer vision problems such as image classification [31] and object detection [28], among many others. 1. 導入データ拡張はデータセットの拡張に使われる一般的な方法であり、画像分類[31]やオブジェクト検出[28]といった多くのコンピュータビジョン問題にうまく適用されている。 0.84
In particular, there has been much success using learned augmentations such as AutoAugment [7] and RandAugment [8] which do *Equal contribution 特にAutoAugment[7]やRandAugment[8]といった,*平等なコントリビューションを行う学習的な拡張を使って,多くの成功を収めています。
訳抜け防止モード: 特に,オートオーグメンションなどの学習的増補法では,多くの成功を収めている[7]。 そして、*等しい貢献をするランダウメント [8]
0.74
not require an expert who knows the dataset to curate augmentation policies. 拡張ポリシーをキュレートするためにデータセットを知っている専門家は必要ない。 0.60
It has been shown that incorporating augmentation policies during training can improve generalization and robustness [13, 9]. 訓練中に強化ポリシーを組み込むことで一般化と堅牢性が向上することが示されている[13,9]。 0.72
However, few works have explored their efficacy for the domain of learning with noisy labels (LNL) [21]. しかし,ノイズラベル(lnl)[21]を用いた学習領域における効果を探究した著作は少ない。 0.67
Many techniques which tackle the LNL problem make use of the network memorization effect where correctly labeled data fit before incorrectly labeled data, discovered by Arpit et al [4]. LNL問題に対処する多くの手法は、Arpitらによって発見された誤ったラベル付きデータの前に正しくラベル付けされたデータが適合するネットワーク記憶効果を利用する。 0.70
This phenomenon was successfully explored in Deep Neural Networks (DNNs) through modeling the loss function and the training process, leading to the development of approaches such as loss correction [29] and sample selection [11]. この現象は、損失関数とトレーニング過程をモデル化し、Deep Neural Networks (DNN) においてうまく探索され、損失補正[29]やサンプル選択[11]のようなアプローチの開発に繋がった。 0.87
Recently, the incorporation of MixUp augmentation [34] has dramatically improved the ability for algorithms to tolerate higher noise levels [3, 15]. 近年,MixUp拡張[34]の導入により,アルゴリズムによる高騒音レベル[3,15]の許容能力が劇的に向上した。 0.84
While many existing works use the common random flip and crop image augmentation which we refer to as weak augmentation, to the best of our knowledge, no work at the time of writing has explored using more aggressive augmentation from learned policies such as AutoAugment during training for LNL algorithms. LNLアルゴリズムのトレーニング中にAutoAugmentなどの学習ポリシーから、より積極的な増強を使用して、執筆時点での作業は、私たちの知識のベストに、我々は弱い増強と呼ばれる一般的なランダムなフリップと作物の画像増強を使用する既存の作品の多くは、検討されていません。
訳抜け防止モード: 多くの既存の作品は、私たちが弱い増強と呼ぶ一般的なランダムフリップと作物画像増強を使用します。 私たちの知る限り 執筆時点での作業は LNLアルゴリズムのトレーニング中にAutoAugmentなどの学習ポリシーからより積極的な強化を使用します。
0.73
These stronger augmentation policies include transformations such as rotate, invert, sheer, etc. これらの強化ポリシーには、回転、反転、せん断などの変換が含まれる。 0.67
We propose to incorporate these stronger augmentation policies into existing architectures in a strategic way to improve performance. これらの強化ポリシーを既存のアーキテクチャに戦略的に組み込んでパフォーマンスを改善することを提案します。 0.75
Our intuition is that for any augmentation technique to succeed, they must (1) improve the generalization of the dataset and (2) not negatively impact the loss modeling and loss convergence behavior that LNL techniques rely on. 我々の直感は、拡張技術が成功するためには、(1)データセットの一般化を改善し、(2)LNL技術が依存する損失モデリングと損失収束挙動に悪影響を及ぼさないようにしなければなりません。 0.73
With this in mind, we propose an augmentation strategy we call Augmented Descent (AUGDESC) to bring the benefits of data augmentation without negatively impacting the network memorization effect. そこで我々は,ネットワーク記憶効果に悪影響を与えることなく,データ拡張のメリットをもたらすための拡張戦略であるAugmented Descent(AUGDESC)を提案する。 0.82
Our idea for AUGDESC is to use two different augmentations: a weak augmentation for any loss modeling and pseudo-labeling task, and a strong augmentation for the back-propagation step to improve generalization. AUGDESCのための私達の考えは2つの異なった増強を使用することです:あらゆる損失モデリングおよび疑似ラベル付けの仕事のための弱い増強、および一般化を改善するために背部プロパゲーションのステップのための強い増強。 0.56
In this paper, we propose and examine how we can incor- 本稿では,どのように逆転できるかを提案し,検討する。 0.60
1 1 0.85
英語(論文から抽出)日本語訳スコア
porate stronger augmentation into existing LNL algorithms to yield improved results. 既存のLNLアルゴリズムに強化を加え、改善された結果を得る。 0.64
We provide some answers to this problem through the following contributions: • We propose an augmentation strategy, Augmented Descent, which demonstrates state-of-the-art performance on synthetic and real-world datasets under noisy label scenarios. • 雑音の多いラベルシナリオ下での合成および実世界のデータセットにおける最先端のパフォーマンスを示す拡張戦略であるAugmented Descentを提案する。 0.61
We show empirically that this can increase performance across all evaluated noise levels (Section 4.4). 評価されたすべてのノイズレベル(4.4)でパフォーマンスが向上できることを実証的に示します。 0.65
In particular, we improve accuracy on the CIFAR-10 benchmark at 90% symmetric noise by more than 15% in absolute accuracy, and we also improve performance on the real-world dataset Clothing1M (Section 4.5). 特に、90%対称ノイズのcifar-10ベンチマークの精度を絶対精度で15%以上向上させ、実世界のデータセットwears1m(セクション4.5)の性能を向上させる。 0.76
• We show that there is a large effect on performance depending on how augmentation is incorporated into the training process (Section 4.2). • 強化が訓練プロセスにどのように組み込まれるかによって、性能に大きな影響があることを示す(第4条2)。 0.77
We empirically determine that it is best to use weaker augmentation during earlier epochs followed by stronger augmentations to not adversely affect the memorization effect. 我々は, 記憶効果に悪影響を及ぼすことなく, 早期の増補後, より弱い増補を用いるのが最善であると実証的に判断する。 0.64
We analyze the behavior of loss distribution to yield insight to guide effective incorporation of augmentation in future work (Section 4.3). 我々は,損失分布の挙動を分析し,今後の作業における増強の効果的な導入を導くための洞察を与える(第4条3)。 0.66
• We evaluate the effectiveness of our augmentation methodology by performing generalization studies on existing techniques (Section 4.7). • 既存の技術に関する一般化研究を行うことにより、増強手法の有効性を評価する(第4.7節)。 0.67
Without tuning any hyperparameters, we were able to improve existing techniques with only the addition of our proposed augmentation strategy by up to 5% in absolute accuracy. ハイパーパラメータをチューニングすることなく、提案した拡張戦略を最大5%の精度で追加するだけで既存の技術を改善することができた。 0.81
2. Related Work Learning with Noisy Labels The most recent advances in training with noisy labels use varying strategies of (1) selecting or heavily weighting a subset of clean labels during training [20, 14, 11, 6], or (2) using the output predictions of the DNN or an additional network to correct the loss [25, 22, 10, 29, 19]. 2. ノイズラベルによる関連作業学習 ノイズのあるラベルによるトレーニングの最近の進歩は、(1)訓練中にクリーンラベルのサブセットを選択または重重くする[20, 14, 11, 6]、または(2)DNNの出力予測または追加のネットワークを使用して損失を補正する[25, 22, 10, 29]のさまざまな戦略を使用しています。 0.86
Many methods use varying strategies of training two networks, using the output of one or both networks to guide selection of inputs with clean labels. 多くの方法は、2つのネットワークをトレーニングする様々な戦略を使い、1つまたは両方のネットワークの出力を使ってクリーンなラベルで入力の選択をガイドする。 0.64
Decoupling [20] maintains two networks during training, updating their parameters using only the inputs whose predictions the networks disagree on. デカップリング[20]はトレーニング中に2つのネットワークを維持し、ネットワークが反対する入力のみを使用してパラメータを更新する。 0.72
MentorNet [14] pre-trains an extra network and uses the pre-trained network to apply weight to cleanly labeled inputs more heavily during training of a student network. mentornet [14]は、追加のネットワークを事前トレーニングし、事前トレーニングされたネットワークを使用して、学生ネットワークのトレーニング中により強くラベル付けされた入力にウェイトを適用する。
訳抜け防止モード: mentornet [14 ] pre - 追加のネットワークをトレーニングし、pre-trained networkを使用する 学生ネットワークのトレーニング中に、より大きくラベル付けされた入力に重みを付与する。
0.69
Co-teaching [11] maintains two networks, and feeds the low-loss inputs of each network to its peer for parameter updating. co-teaching [11]は2つのネットワークを保持し、パラメータ更新のために各ネットワークの低損失入力をピアに送信する。 0.73
The low-loss inputs are expected to be clean, following the finding that DNNs fit to the underlying clean distribution before overfitting to noisy labels [4]. 低損失の入力は、ノイズの多いラベルにオーバーフィットする前に、DNNが根底にあるクリーンな分布に適合することが判明した後、クリーンであることが予想されます[4]。 0.49
INCV [6] trains two networks on mutually exclusive partitions of the training dataset, then uses cross-validation to select clean INCV[6]はトレーニングデータセットの相互排他的パーティション上で2つのネットワークをトレーニングし、次にクロスバリデーションを使用してクリーンを選択する。 0.56
inputs. INCV uses the Co-teaching architecture for its networks. 入力。 incvはネットワークにコティーチングアーキテクチャを使用している。 0.65
The main drawback of these strategies is they only utilize a subset of the information available for training. これらの戦略の主な欠点は、トレーニングに利用可能な情報のサブセットのみを使用することです。 0.77
The second category of techniques attempts to use the model’s output prediction to correct the loss at training time. テクニックの第2のカテゴリは、トレーニング時の損失を修正するためにモデルの出力予測を使用しようとします。 0.77
One such common method is to estimate the noise transition matrix and use it to correct the loss, as in forward and backward correction [22] and S-Model [10]. そのような一般的な方法は、ノイズ遷移行列を推定して、前・後補正[22]やSモデル[10]のように、損失を補正することである。 0.72
Another common method is to linearly combine the output of the network and the noisy label for calculating loss. もう1つの一般的な方法は、ネットワークの出力とノイズラベルを線形に組み合わせて損失を計算することである。 0.67
Bootstrap [25] replaces labels with a combination of the label and the prediction from the DNN. Bootstrap [25]はラベルとDNNからの予測の組み合わせでラベルを置き換えます。 0.67
Joint Optimization [29] uses a similar approach as the work in [25], but adds a term to the loss to optimize correction of the noisy labels. 共同最適化[29]は[25]での作業と同様のアプローチを用いるが、ノイズラベルの補正を最適化するために損失に項を追加する。 0.86
D2L [19] monitors the dimensionality of subspaces during training and uses this to guide weighting of a linear combination of output prediction and noisy label during loss calculation. D2L [19] はトレーニング中のサブスペースの寸法をモニターし、損失計算中の出力予測とノイズラベルの線形組み合わせの重み付けをガイドします。 0.81
Optimized Augmentation Augmentation of training data is a widely used method for improving generalization of machine learning models. トレーニングデータの最適化強化は、機械学習モデルの一般化を改善するために広く使われている方法である。 0.70
Recent works such as AutoAugment [7] and RandAugment [8] have focused on studying which augmentation strategies are optimal. AutoAugment [7] や RandAugment [8] のような最近の研究は、どの拡張戦略が最適かの研究に焦点を当てている。 0.67
AutoAugment uses reinforcement learning to determine the selection and ordering of a set of augmentation functions in order to optimize validation loss. autoaugmentは強化学習を使用して拡張関数のセットの選択と順序を決定し、検証損失を最適化する。 0.81
To remove the search phase of AutoAugment and therefore reduce training complexity, RandAugment drastically reduces the search space for optimal augmentations and uses grid search to determine the optimal set. AutoAugmentの検索フェーズを削除し、トレーニングの複雑さを低減するため、RandAugmentは最適な拡張のための検索スペースを大幅に削減し、グリッドサーチを使用して最適なセットを決定する。 0.66
Both techniques are widely used in semisupervised settings. 両方の技術は、半監視設定で広く使用されています。 0.47
In semi-supervised learning settings, augmentation has been successfully applied to consistency regularization [26, 2, 1, 27]. 半教師付き学習環境では, 整合正則化 [26, 2, 1, 27] に拡張がうまく適用されている。 0.65
In consistency regularization, a loss is applied to minimize the difference in network prediction between two versions of the same input during training. 整合性正規化では、トレーニング中に同じ入力の2つのバージョン間のネットワーク予測の差を最小限に抑えるために損失が適用される。
訳抜け防止モード: 整合正則化では損失が適用される トレーニング中に同じ入力の2つのバージョン間のネットワーク予測の差を最小限に抑える。
0.83
[26] uses a mixture of augmentation, random dropout, and random max-pooling to produce these two versions. [26]は、これらの2つのバージョンを生成するために、拡張、ランダムドロップアウト、ランダムマックスプールの混合を使用します。 0.53
More recently, Unsupervised Data Augmentation [2] and ReMixMatch [1] minimize the network predictions between a strongly augmented and weakly augmented version of the input. 最近では、Unsupervised Data Augmentation [2]とReMixMatch [1]は、強い拡張と弱い拡張された入力間のネットワーク予測を最小限に抑えます。 0.72
All of these findings motivate us to incorporate strong augmentation within the realm of LNL to improve performance. これらの結果から,LNLの領域に強い増強を取り入れ,性能向上を図った。 0.67
The semi-supervised learning problem itself is similar to the LNL problem with the subtle difference that some labels are unknown versus corrupt. 半教師付き学習問題そのものはLNL問題に類似しており、一部のラベルが未知であることと破損することの微妙な違いがある。 0.57
As techniques in semisupervised learning have been able to make predictions on a larger dataset from a smaller dataset, it would be logical that these techniques would benefit from the generalization effects of augmentation. 半教師付き学習のテクニックは、より小さなデータセットからより大きなデータセットを予測できるため、これらのテクニックが拡張の一般化効果の恩恵を受けることは理にかなっている。 0.70
In fact, the recent semisupervised techniques MixUp [34], and Luo et al [18] all exhibit strong robustness to label noise. 実際、最近の半監督技術MixUp [34]とLuo et al [18]はすべて、ノイズをラベル付ける強い堅牢性を示しています。 0.68
Most recently, FixMatch [27] successfully combines strong vs. weak augmentation in consistency regulariza- 直近の fixmatch [27] は一貫性正規化における強弱強化をうまく組み合わせている- 0.59
2 2 0.85
英語(論文から抽出)日本語訳スコア
tion with pseudo-labeling to achieve state-of-the-art results in semi-supervised classification tasks. 擬似ラベルを用いて、半教師付き分類タスクで最先端の結果を得る。 0.45
While we similarly employ two separate pools of augmentation functions for use in downstream tasks, there are key important differences. 同様に、下流タスクで使用する拡張関数のプールを2つ用意していますが、重要な違いがあります。 0.62
Most notably, our key idea is separating augmentations used during loss analysis from augmentations used during back propagation, rather than focusing on pseudolabeling and consistency regularization. 特に重要なのは、損失解析で使われる増分を、疑似ラベル化や整合性正規化にフォーカスするのではなく、バックプロパゲーションで使われる増分から切り離すことです。 0.54
We apply this idea to LNL, a separate domain with different considerations. このアイデアを異なる考察の異なる別のドメインであるLNLに適用する。 0.71
We experimentally show improvements for a wide variety of LNL algorithms and demonstrate improvements on realworld datasets. 様々なLNLアルゴリズムの改良と実世界のデータセットの改善を実験的に示す。 0.78
3. Method We first describe how various algorithms operate within the context of the network memorization effect [4]. 3. まず,ネットワーク記憶効果の文脈において,様々なアルゴリズムがどのように動作するかを記述する [4]。 0.80
We then propose the Augmented Descent strategy for filtering and generating pseudo-labels on high confidence samples based on one set of augmentations, then performing gradient descent on a different set of augmentations. そこで我々は,高信頼度試料のフィルタと擬似ラベル生成のための拡張 Descent 戦略を提案し,その後,異なる拡張集合の勾配降下を行う。 0.76
Lastly, we provide an example for how to retrofit an existing technique. 最後に、既存のテクニックをレトロフィットする方法の例を示します。 0.66
3.1. Loss Modeling Under Noisy Label Scenarios For some training data D = (xi, yi)N i=1, a classifier can l(θ) = − (cid:88) be trained to make predictions using the cross entropy loss: x,y∈D where hθ is the function approximated by a neural network. 3.1. Loss Modeling Under Noisy Label Scenarios 一部のトレーニングデータ D = (xi, yi)N i=1 では、分類器は l(θ) = − (cid:88) をトレーニングして、交叉エントロピー損失を使って予測することができる。
訳抜け防止モード: 3.1. ノイズのあるラベルシナリオ下での損失モデリング トレーニングデータD = (xi,) yi)N i=1, a classifier can l(θ ) = − (cid:88 ) be trained to make prediction using the cross entropy loss: x, hθ はニューラルネットワークによって近似される関数である。
0.80
Fundamentally, many algorithms are exploiting the behavior outlined in Arpit et al [4] which finds that correctly labeled data tends to converge before incorrectly label data when training neural networks. 基本的に、多くのアルゴリズムはArpit et al [4]で概説された振る舞いを利用しており、ニューラルネットワークのトレーニング中に正しくラベル付けされたデータが誤ってラベル付けされる前に収束する傾向があります。 0.54
Many existing algorithms are then employing some degree of "pseudo-labeling" ;, where the network is using its own guesses to approximate the labels for the remainder of the dataset. 既存のアルゴリズムの多くは、ネットワークがデータセットの残りの部分のラベルを近似するために独自の推測を用いているような、ある程度の "pseudo-labeling" ; を採用している。 0.72
This is done by encouraging the learning of high confidence (or lower initial loss) samples via filtering or modifications to the loss function. これは、フィルタや損失関数の変更を通じて、高い信頼度(または低い初期損失)サンプルの学習を促すことで達成される。 0.77
For example, in Co-teaching [11], this is accomplished by feeding low-loss samples to a sister network, training the networks on data which it believes is correct. 例えば、コティーチング[11]では、低損失のサンプルを姉妹ネットワークに供給し、それが正しいと思われるデータでネットワークを訓練することによって実現されます。 0.70
Abstractly, this would create two datasets from the input for each training epoch of what is believed to be correctly labeled C = arg minD:|D|≥R(T )|D|l(f, D), and incorrectly labeled I = D \ C and the loss function: yT log(hθ(x)) − 0 ∗ (cid:88) l(θ) = − (cid:88) x,y∈I x,y∈C where R(T ) is a threshold for the number of samples to place into the clean set set determined empirically by the 抽象的には、c = arg mind:|d|≥r(t )|d|l(f, d) と誤ってラベル付けされたi = d \c と損失関数: yt log(hθ(x)) − 0 ∗ (cid:88) l(θ) = − (cid:88) x,yhtmli x,yhtmlc ここで r(t ) は、実験によって決定されたクリーンセットに設定されるサンプルの数の閾値である。 0.67
yT log(hθ(x)), yT log(h*(x)) です。 0.87
yT log(hθ(x)), yT log(h*(x)) です。 0.87
(1 − w)yT log(hθ(x)) wzT log(hθ(x)), (1 − w)yT log(hθ(x)) wzT log(hθ(x)) 0.88
loss behavior. Here, the learning process is ignoring samples which are believed to be incorrectly labeled as the training progresses. 損失行動 ここでは、学習プロセスはトレーニングの進行に伴って誤ってラベル付けされていると思われるサンプルを無視している。 0.54
By contrast, Arazo et al [3] accomplishes noise tolerance by incorporating a network’s own prediction into its loss as a weighted sum based on the confidence determined by a mixture model fit to the previous epoch’s losses which enables a softer incorporation of the labels: l(θ) = − (cid:88) − (cid:88) x,y∈D,w∈W x∈D,w∈W where W is a set of weights learned using a beta mixture model, z is the model’s prediction for input x. 対照的に、arazo et al [3] は、前のエポックの損失に適合する混合モデルによって決定された信頼度に基づいて、ネットワーク自身の予測を重み付け和として損失に組み込むことで、雑音耐性を達成する: l(θ) = − (cid:88) − (cid:88) x,yhtmld,whtmlw xservletd,whtmlw ここで w はベータ混合モデルを用いて学習された重みの集合であり、z は入力 x のモデル予測である。 0.83
More recently, DivideMix [15] combines these ideas and first assigns weights to inputs to incorporate network guesses, separates the input into two sets, and trains the resulting data in a semi-supervised manner using MixMatch [5]. 最近ではdis dividemix [15] がこれらのアイデアを結合し、まず入力に重みを割り当て、ネットワーク推測を取り入れ、入力を2つのセットに分離し、mixmatch [5] を使って半教師付きでデータを訓練する。 0.71
With this understanding, we propose Augmented Descent (AUGDESC) for LNL techniques that employ loss modeling to separate correctly labeled from incorrectly labeled data. そこで本論文では,不正確なラベル付きデータから正しいラベル付きデータを分離するロスモデリングを用いたLNL技術について,Augmented Descent(AUGDESC)を提案する。 0.63
We propose to use one augmentation of the input for sample loss modeling and categorization to create the hypothetical sets C and I or to determine the pseudo label z, while utilizing another different augmentation as input to the network hθ for purposes of back-propagation. サンプル損失モデリングとカテゴリ化のための入力の1つの強化を用いて、仮想集合 c と i を作成し、擬似ラベル z を判定し、バックプロパゲーションの目的でネットワーク hθ への入力として別の異なる拡張を利用する。 0.68
This would require twice the number of forward passes during training for each input. これは各入力のトレーニング中にフォワードパスの2倍の回数を必要とする。 0.76
The goal of this is so that we do not adversely affect any loss modeling but also be able to inject more generalization during the learning process. この目標は、損失モデリングに悪影響を及ぼすことなく、学習プロセス中により一般化を注入できるようにすることです。 0.69
We provide an example in section 3.4 for how we can incorporate AUGDESC into DivideMix. AUGDESCをDivideMixに組み込む方法については、セクション3.4の例を示します。 0.62
3.2. Augmentation Strategies We examine the following strategies for incorporating augmentation into existing algorithms. 3.2. Augmentation Strategies 既存のアルゴリズムにAugmentationを組み込むための以下の戦略を検討する。 0.75
Figure 1 presents a conceptual representation for incorporating our augmentation strategy into existing techniques. 図1は、拡張戦略を既存の技術に組み込むための概念表現である。 0.78
Raw: Batches are sampled from the dataset without any modifications. raw: バッチは変更なしでデータセットからサンプリングされる。 0.79
Dataset Expansion: A dataset is created that is twice the original size of the dataset. Dataset Expansion: データセットのオリジナルサイズの2倍のデータセットが生成される。 0.84
This is then fed directly into the model without further augmentation. その後、さらに拡張することなくモデルに直接供給される。 0.73
Runtime Augmentation: Images are augmented before being fed into network at runtime. ランタイム拡張: イメージは実行時にネットワークに送信される前に拡張される。 0.65
Augmented Descent (AUGDESC): Two sets of augmented images are created. Augmented Descent (AUGDESC): 2組の画像が作成されます。 0.81
One set is used for any loss analysis tasks, while the other is used for gradient descent. 1つの集合は損失解析タスクに使われ、もう1つは勾配降下に使用される。 0.72
The motivation is that we can learn a better representation for each image while not compromising the sample filtering and pseudo-labeling process. モチベーションは、サンプルフィルタリングと擬似ラベル処理を妥協することなく、各画像に対するより良い表現を学習できることです。 0.74
3 3 0.85
英語(論文から抽出)日本語訳スコア
(a) Raw (b) Dataset Expansion (a)生 (b)データセット拡張 0.76
(c) Runtime (d) Augmented Descent (c)ランタイム (d)増量染料 0.73
Figure 1: Visualization of training methods when incorporating different augmentation strategies. 図1: 異なる拡張戦略を取り入れたトレーニングメソッドの可視化。 0.86
Raw takes the input directly and feeds it into the model for loss analysis and back propagation. Rawは直接入力を取り出し、損失分析とバック伝播のためにモデルに供給します。 0.72
Dataset expansion first creates an expanded dataset which is then sampled by batches and fed into the network. データセット拡張は、まず拡張データセットを生成し、次にバッチによってサンプリングされ、ネットワークに送信される。 0.64
Runtime Augmentation applies a random augmentation policy during runtime for each sampled batch. 実行時拡張は、サンプルバッチ毎に実行時にランダムな拡張ポリシーを適用します。 0.58
Augmented Descent produces two sets of random augmentations at the batch level: one is used for all loss analysis tasks, and the other is used for gradient descent. Augmented Descentは、バッチレベルで2つのランダムな拡張を生成する: 1つはすべての損失解析タスクに、もう1つは勾配降下に使用される。 0.66
Algorithm 1: Retrofitting Augmented Descent for DivideMix. アルゴリズム1:DivideMix用の拡張Descentの再適合。 0.63
Train Batch: Input: θ1, θ2, training batch possibly labeled x, possibly unlabeled u, dataset labels y, gmm probabilities w, number of augmentations M, augmentation policies Augment1 and Augment2 xdesc = Augment2(x) udesc = Augment2(u) for m = 1 to M x = Augment1(x) (cid:80) u = Augment1(u) end // co-guessing and sharpening p = 1 m pmodel(x; θ(k)) ¯y = wy + (1 − w)p (cid:80) M ˆy = Sharpen(y, T ) ¯q = 1 m(pmodel(ˆu; θ(1)) 2M +pmodel(ˆu; θ(2))) ˆq = Sharpen(ˆq, T ) // train using a different augmentation ˆX = {(x, y)|x ∈ xdesc, y ∈ ˆy} ˆU = {(u, q)|u ∈ udesc, q ∈ ˆq} Lx,Lu = MixMatch( ˆX , ˆU) L = Lx + λuLu + λrLreg θ(k) =SGD(L, θ(k)) Train Batch: Input: θ1, θ2, training batch possibly labeled x, possibly unlabeled u, dataset labels y, gmm probabilities w, number of augmentations M, augmentation policies Augment1 and Augment2 xdesc = Augment2(x) udesc = Augment2(u) for m = 1 to M x = Augment1(x) (cid:80) u = Augment1(u) end // co-guessing and sharpening p = 1 m pmodel(x; θ(k)) ¯y = wy + (1 − w)p (cid:80) M ˆy = Sharpen(y, T ) ¯q = 1 m(pmodel(ˆu; θ(1)) 2M +pmodel(ˆu; θ(2))) ˆq = Sharpen(ˆq, T ) // train using a different augmentation ˆX = {(x, y)|x ∈ xdesc, y ∈ ˆy} ˆU = {(u, q)|u ∈ udesc, q ∈ ˆq} Lx,Lu = MixMatch( ˆX , ˆU) L = Lx + λuLu + λrLreg θ(k) =SGD(L, θ(k)) 0.99
3.3. Augmentation Policy We evaluate three different augmentation policies, classified into "weak" and "strong". 3.3. Augmentation Policy We evaluate three different augmentation Policy, classified into "weak" and "strong"。 0.74
Many algorithms make use of the standard random crop and flip method for augmentation [17]. 多くのアルゴリズムは標準ランダムクロップ法とフリップ法を用いて拡張[17]を行う。 0.73
We call this process weak augmentation. この過程を弱増強と呼びます 0.75
We experiment with strong augmentations using automatically learned policies from AutoAugment [7] and RandAugment [8]. 自動学習 [7] と randaugment [8] から自動学習したポリシーを用いて,強力な拡張実験を行った。 0.63
AutoAugment and RandAugment both provide a way to apply augmentations without hand-tuning the particular policy. AutoAugmentとRandAugmentはどちらも、特定のポリシーを手調整せずに拡張を適用する方法を提供します。
訳抜け防止モード: オートオーグメントとランダウグメントはどちらも 特定のポリシーを調整せずに拡張を適用する。
0.58
Our strong augmentation policy first applies a random crop and flip, followed by an AutoAugment or Ran- 強い増強政策はまずランダムな作物とフリップを適用し、次にAutoAugmentまたはRanを適用します。 0.57
4 dAugment transformation, and lastly normalization. 4 dAugment変換、そして最後に正規化。 0.77
For dataset expansion and runtime augmentation, we experiment with both weak and strong augmentations. データセットの拡張と実行時拡張のために、弱い拡張と強い拡張の両方を実験する。 0.53
We examine three variants of Augmented Descent. 我々はAugmented Descentの3つの変種を調べた。 0.56
AUGDESC-WW means we perform loss analysis using a weakly-augmented input, then use this label to train a different weakly augmented version of the same input. AUGDESC-WWは、弱い拡張入力を使用して損失分析を行い、このラベルを使用して同じ入力の弱い拡張バージョンを訓練することを意味します。 0.59
Similarly, AUGDESC-SS represents strongly-augmented loss analysis, coupled with strongly augmented gradient descent process. 同様に、AUGDESC-SSは強く増強された勾配降下プロセスと結合される強く増強された損失の分析を表します。 0.53
Finally, AUGDESC-WS corresponds to weaklyaugmented loss analysis coupled with strongly augmented optimization. 最後に、 augdesc-ws は弱相関損失解析に対応し、強力な最適化が組み合わされる。 0.47
Because AutoAugment is learned on a small subset of the actual data, it is easy to incorporate into existing architectures. オートオーグメントは実際のデータの小さなサブセットで学習されるため、既存のアーキテクチャに組み込むのが容易である。 0.78
We further perform an ablation study using RandAugment to show that our augmentation strategy is agnostic to augmentation policy, as well as the fact that no datasetspecific or pre-trained augmentations are necessary. 我々はさらに,randaugmentを用いたアブレーション研究を行い,拡張戦略が強化方針に依存せず,データセット固有の拡張や事前学習された拡張が不要であることを示す。 0.69
We use AutoAugment for most of our experiments as it prescribes a pre-trained set of policies, while RandAugment requires tuning that can depend on the networks used as well as the training set size. 我々はAutoAugmentを、事前トレーニング済みのポリシーセットを規定する実験の大部分に使用していますが、RandAugmentでは、使用するネットワークとトレーニングセットのサイズに依存するチューニングが必要です。 0.73
3.4. Application to State of the Art While many techniques beyond those above have similar characteristics that we can analyze in a similar manner, in this paper we examine this augmentation strategy within the context of the current state-of-the-art DivideMix [15] approach. 3.4. 最先端技術の適用 上記の技術を超える多くの技術は、同様の方法で分析できるような特徴を持っているが、本稿では、現在の最先端DivideMix [15]アプローチの文脈内で、この拡張戦略を検討する。
訳抜け防止モード: 3.4. 技術の現状と展望 上記の技術を超える多くの技術は、同じような方法で分析できる同様の特性を持っています。 本稿では,この拡張戦略を,現在---アートDivideMix [ 15 ] アプローチの状況の中で検証する。
0.73
We then extend our augmentation strategy to other techniques and report results in the experiments section. 次に,拡張戦略を他の手法に拡張し,実験セクションで結果を報告する。 0.75
DivideMix incorporates aspects of warm-up, cotraining[14, 11], and MixUp [34]. DivideMixはウォームアップ、コトレーニング[14, 11]、MixUp[34]の側面を取り入れている。 0.69
The original DivideMix algorithm works by first warming up using normal crossentropy loss with a penalty for confident predictions by adding a negative cross entropy term from Pereyra et al [23]. 元のDivideMixアルゴリズムは、Pereyraらによる負のクロスエントロピー項を追加して、正常なクロスエントロピー損失と自信のある予測に対するペナルティを最初にウォームアップして動作する。 0.66
Afterwards, for each training epoch, the algorithm first uses a GMM to model the per-sample loss with each of the two networks. その後、各トレーニングエポックについて、アルゴリズムは最初にGMMを使用して2つのネットワークでサンプルごとの損失をモデル化します。 0.74
Using this and a clean probability thresh- これと清潔な確率を生かして- 0.66
英語(論文から抽出)日本語訳スコア
old, the network then categorizes samples into a labeled set x and an unlabeled set u. Batches are pulled from from each of these two sets and are first augmented. その後、ネットワークはサンプルをラベル付き集合 x に分類し、ラベルなし集合 u のバッチはこれら2つの集合から引き出され、最初に拡張される。 0.76
Predictions using the augmented samples are made and a sharpening function is applied to the output [5] to reduce the entropy of the label distribution. 拡張サンプルを用いた予測を行い、出力[5]に研削関数を適用してラベル分布のエントロピーを低減する。
訳抜け防止モード: 拡張サンプルを用いた予測が作成されます そして、出力[5]に研削機能を適用し、ラベル分布のエントロピーを低減させる。
0.78
This produces sharpened guesses for the labeled and unlabeled inputs which is then used for optimization. これによりラベル付きおよびラベルなしの入力に対するシャープな推測が生成され、最適化に使用される。 0.61
We outline the application of our augmentation strategy in Algorithm 1. アルゴリズム1における拡張戦略の適用について概説する。 0.76
We require two different sets of augmentations, one for the original DivideMix pipeline, one to augment the original input for training with MixMatch losses. ひとつはオリジナルのDivideMixパイプライン用で、もうひとつはMixMatchの損失を伴うトレーニングのためにオリジナルのインプットを拡張するものです。 0.66
Additional examples of how we introduce this augmentation strategy in previous techniques is included in the supplemental. この強化戦略を以前の手法で導入する方法の更なる例が補足書に含まれている。 0.73
4. Experiments We first perform evaluations on synthetically generated noise to determine an effective augmentation strategy. 4. 実験 最初に合成ノイズの評価を行い、効果的な増強戦略を決定します。 0.81
We then conduct generalization experiments on real-world datasets, applications to previous techniques, and alternative augmentation policies. 次に、実世界のデータセット、従来の手法への応用、代替拡張ポリシーに関する一般化実験を行う。 0.63
4.1. Experimental Setup We perform extensive validation of each augmentation technique on CIFAR-10 and CIFAR-100, two well-known synthetic image classification datasets frequently used for this task. 4.1. CIFAR-10とCIFAR-100では,このタスクによく使用される2つのよく知られた合成画像分類データセットである。 0.73
CIFAR-10 contains 10 categories of images and CIFAR-100 contains 100 categories for classification. CIFAR-10は10の画像カテゴリを含み、CIFAR-100は100の分類カテゴリを含む。 0.69
Each dataset has 50K color images for training and 10K test images of size 32x32. 各データセットにはトレーニング用の50Kカラーイメージと、サイズ32x32の10Kテストイメージがある。 0.62
Symmetric and asymmetric noise injection methods [29, 16] are evaluated. 対称および非対称なノイズ注入法[29, 16]を評価する。 0.76
We perform most of the ablation studies within the DivideMix framework as this is the state-of-the-art technique. これは最先端技術であるため、divisionmixフレームワーク内でほとんどのアブレーション研究を行います。 0.68
We then extend the augmentation strategies we found to other techniques. その後、拡張戦略を他のテクニックにも拡張しました。 0.60
We use an 18-layer PreAct Resnet [12] as the network backbone and train it using SGD with a batch size of 128. ネットワークバックボーンとして18層PreAct Resnet[12]を使用し、バッチサイズ128のSGDを使用してトレーニングします。 0.73
Some experiments are conducted using a batch size of 64 due to hardware constraints but consistency is maintained in the comparisons. いくつかの実験は、ハードウェアの制約により64のバッチサイズで実施されるが、比較では一貫性が維持される。 0.61
We conduct the experiments using the method outlined in [15] with all the same hyperparameters: a momentum of 0.9, weight decay of 0.0005, and trained for roughly 300 epochs depending on the speed of convergence. 実験は,0.9の運動量,0.0005の重量減衰,および収束速度に応じて約300エポックのトレーニングという,同じハイパーパラメータで[15]で概説した手法を用いて実施する。 0.83
The initial learning rate is set to 0.02 and reduced by a factor of 10 after roughly 150 epochs. 初期学習率は0.02に設定され、約150エポック後の10倍に減少する。 0.80
Warm-up periods where applicable are set to 10 epochs for CIFAR-10 and to 30 epochs for CIFAR-100. CIFAR-10は10エポック、CIFAR-100は30エポックに設定されています。 0.67
We keep the number of augmentations parameter M = 2 fixed to demonstrate the effect of altering the augmentation strategy and for a fair comparison. 増分パラメータM = 2の数を固定し、増分戦略を変更する効果を実証し、公正な比較を行う。
訳抜け防止モード: 拡張パラメータ M = 2 の数を保ちます。 強化戦略を変更し 公正な比較を行う効果を示すために 固定された
0.75
Method/Noise Best Raw Last Best Expansion-W Last Expansion-S Best Last Runtime-W [15] Best Last Best Runtime-S Last AugDesc-WW Best Last AugDesc-SS Best Last AugDesc-WS Best Last Method/Noise Best Raw Last Best Expansion-W Last Expansion-S Best Last Runtime-W [15] Best Best Last AugDesc-WW Best AugDesc-SS Best Last AugDesc-WS Best Last 0.82
CIFAR-10 20% 90% 27.58 85.94 83.23 23.92 90.86 31.22 89.95 10.00 35.10 90.56 89.51 34.23 96.10 76.00 95.70 75.40 96.54 70.47 96.33 70.22 96.27 36.05 96.08 23.50 96.47 81.77 81.54 96.19 91.88 96.33 91.76 96.17 CIFAR-10 20% 90% 27.58 85.94 83.23 23.92 90.86 31.22 89.95 10.00 35.10 90.56 89.51 34.23 96.10 76.00 95.70 75.40 96.54 70.47 96.33 70.22 96.27 36.05 96.08 23.50 96.47 81.77 81.54 96.19 91.88 96.33 91.76 96.17 0.43
CIFAR-100 90% 20% 7.99 52.24 39.18 2.98 57.11 7.30 53.29 2.23 7.54 55.15 54.37 3.24 77.30 31.50 76.90 31.00 79.89 40.52 40.34 79.40 78.90 30.33 78.44 29.88 79.79 38.85 79.51 38.55 41.20 79.50 40.90 79.22 CIFAR-100 90% 20% 7.99 52.24 39.18 2.98 57.11 7.30 53.29 2.23 7.54 55.15 54.37 3.24 77.30 31.50 76.90 31.00 79.89 40.52 40.34 79.40 78.90 30.33 78.44 29.88 79.79 38.85 79.51 38.55 41.20 79.50 40.90 79.22 0.43
Table 1: Performance differences for each augmentation strategy. 表1:各増強戦略のパフォーマンスの違い。 0.80
The best performance in each category is highlighted in bold. 各カテゴリの最高のパフォーマンスは、大胆に強調される。 0.79
Removing all augmentation is highly detrimental to performance, while more augmentation seemingly improves performance. すべての増分を取り除くことはパフォーマンスに非常に有害ですが、増分はパフォーマンスを改善するようです。 0.56
However, too much augmentation is also detrimental to performance (AugDesc-SS). しかし、過剰な拡張はパフォーマンスに有害である(AugDesc-SS)。 0.64
Strategically adding augmentation by exploiting the loss properties (AugDesc-WS) yields the best results in general. 損失特性(augdesc-ws)を利用するという戦略的追加は、一般的に最良の結果をもたらす。
訳抜け防止モード: 損失特性を利用した戦略的拡張(AugDesc - WS ) 一般に最も良い結果をもたらします
0.76
4.2. Comparison of Augmentation Strategies We examine the performance of each proposed augmentation strategy outlined in Section 3.2 using DivideMix as our baseline model. 4.2. Augmentation Strategiesの比較 DivideMixをベースラインモデルとして,第3.2節で概説した各Augmentation Strategiesの性能を検討した。 0.75
We investigate the performance impact on lower label noise (20%) and very high label noise (90%) for some performance bounds. 性能境界に対する低ラベル雑音(20%)と高ラベル雑音(90%)に対する性能の影響について検討した。 0.80
We report results in Table 1. 表1で結果を報告する。 0.74
As shown in the table, there is a large effect on algorithm performance based on how augmentations are included. 表に示すように、オーグメンテーションの含み方に基づいてアルゴリズムのパフォーマンスに大きな効果があります。 0.69
While in some aspects this is unsurprising, what is surprising is the huge effect augmentation can have with regards to higher noise datasets. ある面では、これは驚くことではありませんが、高いノイズデータセットに関して、拡張が大きな効果をもたらすことは驚くべきことです。 0.63
In the best case, we see AUGDESC-WS at 90% noise achieve results on CIFAR10 close to accuracies reported on augmentation techniques with 20% label noise. 最善の例では, augdesc-wsが90%の雑音でcifar10が20%のラベルノイズで拡張技術で報告された精度に近い結果が得られる。 0.69
For CIFAR-100, we also witness a large effect with higher noise rates but it remains a challenging benchmark for noisy datasets. cifar-100では、ノイズ率の高い大きな効果も見られますが、いまだに騒がしいデータセットのベンチマークです。 0.69
Overall, we find that AugDesc-WS achieves the strongest result across the board. 全体としては、AugDesc-WSが全社で最強の結果を達成している。 0.56
It should be noted that a vast number of image based machine learning algorithms incorporate some level of weak augmentation (flip, crop, and normalization) during training time. 膨大な数の画像ベース機械学習アルゴリズムには、トレーニング期間中の弱い増強(フリップ、作物、正規化)が組み込まれている点に注意が必要だ。 0.72
For completeness, we retrospectively examine the effect of removing these augmentations to tease out the effect of augmentation on LNL techniques, i.e. 完全性のために、これらの増分除去の効果を振り返りに検討し、増分処理がLNL技術に与える影響を解明する。 0.66
the raw input method. raw input メソッド。 0.56
We see that including some very small amount of augmentation is hugely beneficial, in particular when ex- ごく少量の増員を含むことは、特に前者にとって非常に有益である。 0.60
5 5 0.85
英語(論文から抽出)日本語訳スコア
amining the transition from raw to weak augmentation at runtime. 実行時に生から弱い拡張への遷移を弱める。 0.68
4.3. Effect of Augmentation During Warm-up LNL algorithms generally rely on fact that clean samples are fit before noisy ones. 4.3. Augmentation during Warm-up LNLアルゴリズムの効果は、一般的に、クリーンなサンプルが騒々しいものの前に収まるという事実に依存します。 0.62
To take advantage of such a property, many algorithms create scheduled learning or tune the loss function. このような特性を活用するために、多くのアルゴリズムはスケジュール学習を作成するか、損失関数をチューニングします。
訳抜け防止モード: そのような性質を生かす 多くのアルゴリズムがスケジュール学習を作成したり、損失関数をチューニングしたりする。
0.73
Many techniques explicitly have a warm-up period to exploit the label noise learning property [3, 15, 33]. 多くの技術は、ラベルノイズ学習特性を利用するためのウォームアップ期間を明示的に持つ[3, 15, 33]。 0.70
We test the effect of introducing augmentation before and after this period by comparing the performance of models injected with augmentations from the first epoch and models trained with augmentations after the designated warm-up period. 本研究では,第1期の増量モデルと,所定のウォームアップ期間後に増量訓練を受けたモデルの比較を行い,この期間前後の増量導入の効果を検証した。 0.82
We report performance metrics in Table 2 for various noise levels. さまざまなノイズレベルのパフォーマンス指標を表2で報告します。 0.79
We find injecting strong augmentations during the warm-up period in low noise datasets benefit performance, but is detrimental when the dataset becomes increasingly noisy. 低ノイズデータセットのウォームアップ期間中に強力な拡張を注入するとパフォーマンスが向上するが、データセットがますます騒がしくなると有害である。 0.65
This is particularly evident when examining the 90% noise rate. これは90%の騒音率を調べるとき特に明らかです。 0.77
Conversely, weakly augmented warm-up greatly increases performance at higher noise levels. 逆に、弱く強化されたウォームアップは高いノイズレベルで性能を大幅に向上させる。 0.46
To better understand why this is, we perform an experiment by stochastically applying strong augmentation to each batch with increasing chance to observe its distribution at epoch 20. その理由をより深く理解するために,各バッチに確率的に強増強を施し,エポック20でその分布を観測する機会を増加させる実験を行った。 0.77
Figure 2 shows the loss distribution for samples in the training set associated with the clean versus the noisy dataset. 図2は、クリーンとノイズの多いデータセットに関連するトレーニングセット内のサンプルの損失分布を示しています。 0.78
We find that applying too much augmentation too soon can encourage lower noise data to have too high of a loss and noisy data to have lower loss. オーグメンテーションをあまりに早く適用すると、低ノイズのデータが高すぎるとノイズの多いデータが低損失になる可能性があります。 0.65
4.4. Synthetic Dataset Summary Results We report the summary results in Table 3. 4.4. 合成データセットの概要結果 表3に要約結果を報告します。 0.77
The results show that augmenting the state-of-the-art algorithm using our best augmentation strategy increases accuracy across all noise levels. その結果、最高の拡張戦略を用いて最先端のアルゴリズムを増強することで、全てのノイズレベルにわたって精度が向上することがわかった。
訳抜け防止モード: その結果 最善の増補戦略を用いた状態---アートアルゴリズムの強化 すべてのノイズレベルにまたがって精度を高める。
0.78
In particular, the improvement for extremely noisy datasets (90%) is very large, and approaches the best performance of lower noise datasets and represents an error reduction of 65%. 特に、非常にノイズの多いデータセット(90%)の改善は非常に大きく、低ノイズデータセットの最高のパフォーマンスに近づき、65%のエラー低減を表しています。 0.75
For comparison, we achieve 91% accuracy for 90% symmetric noise on the CIFAR-10 dataset while the previous state-of-the-art achieves 96.1% on only 20% label noise. 比較のために、cifar-10データセットで90%の対称ノイズに対して91%の精度を達成し、以前の状態は20%のラベルノイズで96.1%を達成した。 0.66
Furthermore, we achieve an over 15% improvement in accuracy over previous state-of-the-art for CIFAR-10 at 90% label noise. さらに,従来のCIFAR-10の精度を90%以上のラベルノイズで15%以上向上させることができた。 0.80
4.5. Clothing1M Performance Clothing1M [30] is a large-scale real-world dataset containing 1 million images obtained from online shopping websites. 4.5. Clothing1M Performance Clothing1M [30]は、オンラインショッピングサイトから取得した100万枚の画像を含む大規模な実世界のデータセットです。 0.66
Labels are generated by extracting tags from the surrounding texts and keywords, and are thus very noisy. ラベルは、周囲のテキストやキーワードからタグを抽出して生成されるため、非常に騒がしい。 0.65
A ResNet-50 with pre-trained ImageNet weights are used following the work of [16]. トレーニング済みの ImageNet 重み付き ResNet-50 は [16] の作業に続いて使用される。 0.77
We applied the pre-trained ImageNet AutoAugment augmentation policy to this task. トレーニング済みの ImageNet AutoAugment Augment ポリシをこのタスクに適用した。 0.68
6 We report results in table 4. 6 結果は第4表で報告する。 0.78
Our augmentation strategy obtained state-of-the-art performance when utilizing a strongly augmented warm-up cycle. 強化したウォームアップサイクルを利用する場合, 改良戦略により最先端の性能が得られた。 0.46
In addition to obtaining competitive results, this further indicates that the noise level is likely to be below 80% based on our previous experiments, as strong warm-up improves accuracy. 競争結果の獲得に加えて, 強いウォームアップにより精度が向上するため, 従来の実験結果からノイズレベルが80%以下になる可能性が示唆された。 0.77
This is in concordance with the estimates of the noise level of Clothing1M, said to be approximately 61.54% [30]. これは、約61.54%[30]と言われるClothing1Mの騒音レベルの推定と一致しています。 0.71
4.6. Automatic Augmentation Policies In our evaluation benchmarks, we primarily used AutoAugment pre-trained policies. 4.6. 自動強化ポリシー 評価ベンチマークでは、主にAutoAugment事前トレーニングポリシーを使用しています。 0.67
These policies are trained on a small subset of the original dataset with regards to CIFAR-10 and CIFAR-100 (5000 samples). これらのポリシーは、CIFAR-10およびCIFAR-100(5000サンプル)に関する元のデータセットの小さなサブセットで訓練されています。 0.66
We do this due to the simplistic nature of integrating pre-trained AutoAugment policies. これは、事前訓練されたAutoAugmentポリシーを統合する単純な性質のためです。 0.57
For completeness, we evaluate whether we can achieve similar performance with an untrained set of augmentations, as theoretically we could then tune policies based on validation accuracy for our task. 完全性については、理論上、タスクの検証精度に基づいてポリシーをチューニングできるため、訓練されていない拡張セットで同様のパフォーマンスを達成できるかどうかを評価する。 0.60
To do this, we compare whether we can achieve on-par performance with RandAugment [8], which can be tuned by adjusting 2 parameters. これを実現するため、RandAugment [8]とオンパーのパフォーマンスを比較し、2つのパラメータを調整することで調整できる。 0.74
For these experiments we used N = 1 and M = 6 for RandAugment hyperparameters as the magnitude approximates the mean of those used in the AutoAugment policy. これらの実験では、RandAugment hyperparameters に対して N = 1 と M = 6 を用い、その大きさは AutoAugment policy における平均値に近似した。 0.74
We report results in Table 5. 表5で結果を報告します。 0.74
As shown in the table, RandAugment can achieve performance on-par with AutoAugment with minimal tuning and demonstrates the validity of our approach. 表に示すように、RandAugmentは最小限のチューニングでAutoAugmentと同等のパフォーマンスを実現し、我々のアプローチの有効性を示す。 0.70
Furthermore, since we were able to outperform the state-of-the-art on Clothing1M while using a pretrained ImageNet AutoAugment policy for the task, optimizing an AutoAugment policy on Clothing1M could potentially yield better results. さらに,前訓練したimagenetオートオーグメントポリシをタスクに使用しながら,wears1mの最先端を上回ることができるため,wears1mのオートオーグメントポリシを最適化することで,よりよい結果が得られる可能性がある。
訳抜け防止モード: さらに、私たちはChrothing1 Mの------アートの状態を上回りました。 タスクに事前トレーニングされたImageNet AutoAugmentポリシーを使用する。 Clothing1 M における AutoAugment ポリシの最適化 より良い結果が得られます
0.64
4.7. Generalization to Previous Techniques We apply our most effective augmentation strategy to previous techniques to evaluate generalizability of our approach. 4.7. 先行技術への一般化 従来の手法に最も効果的な拡張戦略を適用し,その一般化性を評価する。 0.71
Based on our evaluations, we find that a weakly augmented warm-up period followed by the application of strong augmentation works best. 評価結果から, 温暖化期間が弱く, 強増加の適用が最善であることが判明した。 0.61
Furthermore, it is beneficial to perform the loss analysis process on a weakly augmented input, then forwarding a strongly augmented input through the network for training. さらに、弱い拡張入力で損失分析プロセスを実行し、トレーニングのためにネットワークを介して強力な拡張入力を転送することが有益です。 0.76
We apply these strategies to previous techniques to observe their performance benefits. これらの戦略を従来の手法に応用し、パフォーマンスのメリットを観察します。 0.60
We to Cross-Entropy, CoTeaching+[33], M-Correction (the M-DYR-H variant) [3], and DivideMix [15] due to the range of techniques these algorithms employ. クロスエントロピー、CoTeaching+[33]、M-Correction(M-DYR-H variant)[3]、DivideMix[15]は、これらのアルゴリズムが採用する技術の範囲のためです。 0.79
Co-Teaching+ uses a two networks and thresholding to exploit the memorization effect and is an updated work based on the popular Co-Teaching [11] technique. Co-Teaching+は2つのネットワークとしきい値を使って記憶効果を利用しており、人気の高いCo-Teaching [11]技術に基づいて更新された作業である。 0.62
M-DYR-H uses mixture models to fit the loss to previous epochs to weight the models predic- M-DYR-Hは混合モデルを用いて、モデル述語を重み付けする以前のエポックへの損失に適合する 0.64
to compare choose 比較して 選ぶ 0.74
英語(論文から抽出)日本語訳スコア
Model DivideMix (baseline) [15] DM-AugDesc-WS-SAW DM-AugDesc-WS-WAW Model DivideMix (baseline) [15] DM-AugDesc-WS-SAW DM-AugDesc-WS-WAW 0.56
Noise Best Last Best Last Best Last ノイズ ベスト ベスト ベスト ベスト ベスト ベスト ベスト ベスト 0.56
20% 50% 80% 90% 40% Asym 20% 50% 80% 90% 96.1 31.5 95.7 31.0 96.3 17.3 96.2 15.1 41.2 96.3 96.2 40.9 20% 50% 80% 90% 40% Asym 20% 50% 80% 90% 96.1 31.5 95.7 31.0 96.3 17.3 96.2 15.1 41.2 96.3 96.2 40.9 0.67
93.4 92.1 94.4 94.1 94.6 94.3 93.4 92.1 94.4 94.1 94.6 94.3 0.43
94.6 94.4 95.6 95.4 95.4 95.1 94.6 94.4 95.6 95.4 95.4 95.1 0.43
CIFAR-10 76.0 92.3 92.9 75.4 93.7 35.3 93.6 10.0 91.9 93.8 93.6 91.8 CIFAR-10 76.0 92.3 92.9 75.4 93.7 35.3 93.6 10.0 91.9 93.8 93.6 91.8 0.41
CIFAR-100 60.2 74.6 74.2 59.6 77.6 61.8 77.5 61.6 66.4 77.2 66.1 77.0 CIFAR-100 60.2 74.6 74.2 59.6 77.6 61.8 77.5 61.6 66.4 77.2 66.1 77.0 0.41
77.3 76.9 79.6 79.5 79.5 79.2 77.3 76.9 79.6 79.5 79.5 79.2 0.43
Table 2: Application of strong versus weak augmentation during the warm-up period of DivideMix, in comparison to the baseline model. 表2:DivideMixのウォームアップ期間における強と弱の増大の応用 : ベースラインモデルとの比較 0.71
WAW signifies weakly augmented warm-up, SAW represents strongly augmented warm-up. WAWは弱い拡張ウォームアップを示し、SAWは強い拡張ウォームアップを表す。 0.50
Weak warm-up appears to benefit datasets with higher noise while strong warm-up benefits datasets with lower noise. 弱いウォームアップは高いノイズでデータセットに利益をもたらし、強いウォームアップは低ノイズでデータセットに利益をもたらす。 0.46
Figure 2: Effect of augmentation strength on the distribution of normalized loss for noisy versus clean segments of the dataset during warm-up for 90% label noise. 図2: ラベルノイズ90%のウォームアップ中のデータセットのクリーンセグメントに対して、ノイズに対する正規化損失の分布に及ぼす補強強度の影響。 0.79
Too much augmentation can cause samples in the clean dataset to be have higher loss, causing lower loss in samples from the noisy dataset. 増量が多すぎると、クリーンデータセットのサンプルは損失が増加し、ノイズの多いデータセットからのサンプルの損失が減少する。 0.76
tions using a single network. シングルネットワークを使ったオプション。 0.68
DivideMix is the current state-of-the-art which combines these and brings in a semi-supervised learning framework. DivideMixはこれらを組み合わせて半教師付き学習フレームワークを提供する最新技術です。 0.75
All source code for each evaluated technique was available publicly published by the original authors. 評価されたテクニックのソースコードはすべて、オリジナルの著者によって公開された。 0.64
We follow the hyperparameters and models outlined in the original published paper and apply no tuning of our own. 我々は、オリジナルの論文で概説されたハイパーパラメータとモデルに従い、私たち自身のチューニングを適用しない。 0.61
This demonstrates the ease at which we can insert augmentation without delicate tuning of hyperparameters and highlights the generalizability of our approach. これは、ハイパーパラメータの微調整なしに拡張を挿入する容易さを示し、我々のアプローチの一般化可能性を強調します。 0.61
We detail the exact algorithm modifications to insert augmentation in the supplemental of this paper. 本論文の補足に拡張を挿入するための正確なアルゴリズム修正について詳述する。 0.75
We perform the evaluation on a lower noise setting (20%) as many previous techniques did not perform well at high noise levels. 従来の多くの手法では高騒音レベルでは性能が良くなかったため,低騒音環境 (20%) で評価を行った。 0.80
Table 6 shows the performance of our evaluation. 表6は、評価のパフォーマンスを示しています。 0.69
For vanilla cross-entropy, we used RUNTIME-S since as there is no warm-up period. 暖房期間がないため,バニラクロスエントロピーではRUNTIME-Sを用いた。 0.73
For other techniques, we applied the AUGDESC-WS-WAW strategy. 他の手法ではAUGDESC-WS-WAW戦略を適用しました。 0.58
We evaluated our augmentation strategy on these algorithms as they cover a range of general approaches to learning with label noise. ラベルノイズによる学習の一般的なアプローチを網羅し,これらのアルゴリズムの強化戦略を評価した。 0.84
Some differences in performance are larger than expected due to the specific implementation of network architecture and synthetic noise generation techniques. ネットワークアーキテクチャの具体的実装と合成ノイズ生成技術のため、性能のいくつかの違いは期待より大きい。 0.81
We attempted strongly augmented warm-up for Co-teaching and found that there was a very large detrimental impact to performance. 私達はCo-teachingのための強く増強されたウォームアップを試み性能に非常に大きな有害な影響があったことを見つけました。 0.50
This agrees with our earlier observation that too much augmentation during the warm-up period can be detrimental. これは、ウォームアップ期間中に過剰な増強が有害な可能性があるという以前の観測と一致している。 0.48
In particular, it appears to have a strong impact on the way noisy and clean data converge during the warm-up 特に、ウォームアップの間、ノイズやクリーンなデータが収束する方法に大きな影響を与えているようだ。 0.66
period, which these algorithms typically rely on. これらのアルゴリズムが通常依存する期間。 0.73
As shown in the table, the AUGDESC-WS-WAW strategy and even augmentation in general benefits performance in multiple categories. 表に示すように、AUGDESC-WS-WAW戦略と一般的な拡張は、複数のカテゴリでパフォーマンスを向上します。 0.65
As the experiments conducted were with no tuning of hyperparameters, we expect that further improvements can be seen when tuning with augmentation in mind due to the ways in which some of these algorithms exploit the loss distributions. 実験はハイパーパラメータのチューニングを行わなかったため、これらのアルゴリズムのいくつかが損失分布を利用する方法によって、強化を念頭に置いてチューニングすることでさらなる改善が期待できる。 0.79
Additionally, we see that across the board, the average performance of the last few epochs with augmentation is better than performance without. さらに、ボード全体では、Augmentationによる過去数回のエポックの平均パフォーマンスは、パフォーマンスなしよりも優れています。 0.67
This indicates that the our augmentation strategy aids in learning a better distribution when compared to those without. これは、私たちの増強戦略は、ないものと比較して、より良い分布を学ぶのに役立ちます。 0.61
5. Conclusion In this paper, we propose and examine the effect of various augmentation strategies within the domain of learning with label noise. 5. 結論本論文では,ラベルノイズを用いた学習領域における様々な増強戦略の効果について検討する。 0.82
We find that it is advantageous to add additional augmentation, particularly for higher noise ratios. 特に高いノイズ比では、追加の強化を加えるのが有利であることがわかった。 0.64
Furthermore, we should avoid copious amounts of augmentation during warm-up periods if the noise rate is high, as this can have detrimental effects on the property that neural networks fit clean data before noisy data [4]. さらに,ノイズ率が高い場合,ウォームアップ期間中の過剰な拡張は避けるべきであり,ノイズデータの前にニューラルネットワークがクリーンデータに適合する特性に悪影響を及ぼす可能性がある [4]。 0.84
We performed extensive studies and found that the AUGDESC-WS strategy is capable of producing improvements across all noise levels and in multiple datasets. 我々は広範な研究を行い、AUGDESC-WS戦略がすべてのノイズレベルと複数のデータセットで改善をもたらすことができることを発見した。 0.71
We further show its generalization capability by applying it to previous techniques with demonstrated success. さらに,従来の手法に応用することで,その一般化能力を示す。 0.55
7 7 0.85
英語(論文から抽出)日本語訳スコア
Model Cross-Entropy Reed et. モデルクロスエントロピーリード等。 0.69
al. [24] Patrini et al [22] Yu et al [33] Zhang et al [34] Yi & Wu [32] Li et al [16] Arazo et al [3] Li et al [15] DM-AugDesc-WS-SAW DM-AugDesc-WS-WAW アル [24]Patrini et al [22]Yu et al [33]Zhang et al [34]Yi & Wu [32]Li et al [16]Arazo et al [3]Li et al [15]DM-AugDesc-WS-SAW DM-AugDesc-WS-WAW 0.58
Noise Best Last Best Last Best Last Best Last Best Last Best Last Best Last Best Last Best Last Best Last Best Last ノイズ ベスト ベスト ベスト ベスト ベスト ベスト ベスト ベスト ベスト ベスト ベスト ベスト ベスト ベスト ベスト ベスト ベスト ベスト ベスト ベスト ベスト ベスト 0.48
20% 50% 80% 90% 20% 50% 80% 90% 86.8 10.1 82.7 3.5 86.8 10.2 82.9 3.8 10.2 86.8 83.1 3.4 89.5 13.7 88.2 8.8 95.6 14.6 8.1 92.3 92.4 15.3 92.0 8.8 92.9 19.5 92.0 14.3 94.0 24.3 93.8 20.5 31.5 96.1 31.0 95.7 96.3 17.3 96.2 15.1 96.3 41.2 40.9 96.2 20% 50% 80% 90% 20% 50% 80% 90% 86.8 10.1 82.7 3.5 86.8 10.2 82.9 3.8 10.2 86.8 83.1 3.4 89.5 13.7 88.2 8.8 95.6 14.6 8.1 92.3 92.4 15.3 92.0 8.8 92.9 19.5 92.0 14.3 94.0 24.3 93.8 20.5 31.5 96.1 31.0 95.7 96.3 17.3 96.2 15.1 96.3 41.2 40.9 96.2 0.48
CIFAR-100 19.9 46.7 37.3 8.8 46.6 19.9 37.9 8.9 19.9 46.6 37.3 9.0 51.8 27.9 45.3 15.5 30.8 57.3 17.6 46.6 57.5 31.1 56.4 20.7 59.2 42.4 40.1 58.0 66.1 48.2 65.4 47.6 74.6 60.2 59.6 74.2 77.6 61.8 77.5 61.6 66.4 77.2 66.1 77.0 CIFAR-100 19.9 46.7 37.3 8.8 46.6 19.9 37.9 8.9 19.9 46.6 37.3 9.0 51.8 27.9 45.3 15.5 30.8 57.3 17.6 46.6 57.5 31.1 56.4 20.7 59.2 42.4 40.1 58.0 66.1 48.2 65.4 47.6 74.6 60.2 59.6 74.2 77.6 61.8 77.5 61.6 66.4 77.2 66.1 77.0 0.40
CIFAR-10 62.9 79.4 57.9 26.1 79.8 63.3 58.4 26.8 63.3 79.8 59.4 26.2 85.7 67.4 84.1 45.5 71.6 87.1 46.7 77.6 89.1 77.5 88.7 76.5 89.3 77.4 76.1 88.8 92.0 86.8 91.9 86.6 94.4 92.3 92.9 94.6 95.6 93.7 93.6 95.4 93.8 95.4 93.6 95.1 CIFAR-10 62.9 79.4 57.9 26.1 79.8 63.3 58.4 26.8 63.3 79.8 59.4 26.2 85.7 67.4 84.1 45.5 71.6 87.1 46.7 77.6 89.1 77.5 88.7 76.5 89.3 77.4 76.1 88.8 92.0 86.8 91.9 86.6 94.4 92.3 92.9 94.6 95.6 93.7 93.6 95.4 93.8 95.4 93.6 95.1 0.40
42.7 16.8 42.9 17.0 42.9 18.8 47.9 30.1 52.2 43.9 58.9 58.2 58.7 58.3 69.1 68.7 76.0 75.4 35.3 10.0 91.9 91.8 42.7 16.8 42.9 17.0 42.9 18.8 47.9 30.1 52.2 43.9 58.9 58.2 58.7 58.3 69.1 68.7 76.0 75.4 35.3 10.0 91.9 91.8 0.40
62.0 61.8 62.1 62.0 61.5 61.4 65.6 64.1 67.8 66.0 69.4 68.1 68.5 67.7 73.9 73.4 77.3 76.9 79.6 79.5 79.5 79.2 62.0 61.8 62.1 62.0 61.5 61.4 65.6 64.1 67.8 66.0 69.4 68.1 68.5 67.7 73.9 73.4 77.3 76.9 79.6 79.5 79.5 79.2 0.40
Table 3: Performance comparison when incorporating our best augmentation strategy into the current state-of-the-art. 表3:現在の最新技術に最高の増強戦略を取り入れた際の性能比較。 0.74
Our augmentation strategy improves performance at every noise level. 私達の増強の戦略はあらゆる騒音レベルで性能を改善します。 0.61
Results for previous techniques were directly copied from their respective papers. 従来の技術の結果はそれぞれの論文から直接コピーされた。 0.69
Method Cross Entropy M-correction [3] Joint Optimization [29] MetaCleaner [35] MLNT [16] PENCIL [32] DivideMix [15] DM-AugDesc-WS-WAW (ours) DM-AugDesc-WS-SAW (ours) 方法 クロスエントロピーM補正 [3] ジョイント最適化 [29] MetaCleaner [35] MLNT [16] PENCIL [32] DivideMix [15] DM-AugDesc-WS-WAW (当社) DM-AugDesc-WS-SAW (当社) 0.80
Test Accuracy 69.21 71.00 72.16 72.50 73.47 73.49 74.76 74.72 75.11 テスト精度 69.21 71.00 72.16 72.50 73.47 73.49 74.76 74.72 75.11 0.60
Table 4: Comparison against state-of-the-art for accuracy on the Clothing1M dataset. 表4: Clothing1Mデータセットの精度に対する最先端の比較。 0.76
This is additional evidence for how using two separate pools of augmentation operations for two separate tasks in these machine learning algorithms can be beneficial. これは、これらの機械学習アルゴリズムの2つの別々のタスクに2つの別々の拡張操作プールを使用する方法の追加の証拠です。 0.75
This idea has previously been demonstrated to be effective for consistency regularization in SSL settings [27], and we now show this for LNL settings. このアイデアはSSL設定[27]における一貫性の正則化に有効であることがこれまで実証されており、LNL設定でこれを示す。 0.75
In summary, we examined where it is advantageous to incorporate varying degrees of augmentation and were able to demonstrate a strategy to advance the state-of-the-art as well as improve the performance of previous techniques. 要約すると,様々な拡張度を組み込むのが有利な点について検討し,最新技術の進歩と従来の技術の性能向上の戦略を示すことができた。 0.72
We hope the insights regarding the strength and amount of augmentation will be beneficial for future applications of 強化の強さと量に関する洞察が将来のアプリケーションに有益になることを願っています。 0.69
Method/Noise Best Baseline [15] Last Best AutoAugment Last RandAugment Best Last Method/Noise Best Baseline [15] Last Best AutoAugment Last RandAugment Best Last 0.97
CIFAR-100 CIFAR-10 20% 90% 20% 90% 96.1 76.0 77.3 31.5 31.0 76.9 75.4 95.7 79.5 91.9 96.3 41.2 96.2 91.8 79.2 40.9 96.1 89.6 78.1 36.8 36.7 77.8 89.4 96.0 CIFAR-100 CIFAR-10 20% 90% 20% 90% 96.1 76.0 77.3 31.5 31.0 76.9 75.4 95.7 79.5 91.9 96.3 41.2 96.2 91.8 79.2 40.9 96.1 89.6 78.1 36.8 36.7 77.8 89.4 96.0 0.47
Table 5: Comparison of different automated augmentation policy algorithms. 表5: さまざまな自動拡張ポリシーアルゴリズムの比較。 0.79
We compare performance of each policy using the AugDesc-WS approach. AugDesc-WSアプローチを用いて各ポリシーのパフォーマンスを比較する。 0.74
Adjusting the augmentation policy has minimal effect but still handily outperforms the runtime augmentation used in the baseline. 拡張ポリシーの調整は、最小限の効果を持つが、ベースラインで使用されるランタイム拡張よりも巧みに優れている。
訳抜け防止モード: 増補政策の調整 最小限の効果を持つが、しかしながら、ベースラインで使われるランタイム拡張よりも優れている。
0.56
The improved performance is still large with a noise ratio of 90%. 改善された性能は依然として90%のノイズ比で大きい。 0.75
augmentation when developing LNL algorithms. LNLアルゴリズムの開発時の増強。 0.77
References [1] Remixmatch: Semi-supervised learning with distribution matching and augmentation anchoring. 参照 [1] Remixmatch: 分散マッチングと拡張アンカーによる半教師付き学習。 0.77
In ICLR, 2020. ICLR、2020年。 0.72
2 [2] Unsupervised data augmentation for consistency training. 2 [2] 一貫性トレーニングのための教師なしデータ拡張。 0.60
In NeurIPS, 2020. 内 NeurIPS、2020年。 0.75
2 [3] Eric Arazo, Diego Ortego, Paul Albert, Noel E O’Connor, and Kevin McGuinness. 2 Eric Arazo氏、Diego Ortego氏、Paul Albert氏、Noel E O’Connor氏、Kevin McGuinness氏。 0.79
Unsupervised label noise modeling 教師なしラベルノイズモデリング 0.59
8 8 0.85
英語(論文から抽出)日本語訳スコア
CIFAR-10 Base Aug 89.9 86.8 85.1 82.7 60.6 59.3 57.4 55.9 94.0 93.9 93.9 93.8 96.3 96.1 96.2 95.7 CIFAR-10 Base Aug 89.9 86.8 85.1 82.7 60.6 59.3 57.4 55.9 94.0 93.9 93.9 93.8 96.3 96.1 96.2 95.7 0.44
Best Last Best Last Best Last Best Last ベスト・ラスト・ラスト・ラスト・ラスト・ラスト 0.44
Cross Entropy Co-Teaching+ [33] M-DYR-H [3] DivideMix クロスエントロピーコティーチング+ [33] M-DYR-H [3] DivideMix 0.87
CIFAR-100 Aug Base 61.2 60.2 60.4 59.9 26.2 25.6 23.7 23.0 73.0 68.2 72.7 67.5 79.5 77.3 79.2 76.9 Table 6: Performance benefits when applying our augmentation strategy to previous techniques at 20% noise level. CIFAR-100 Aug Base 61.2 60.2 60.4 59.9 26.2 25.2 25.6 23.7 23.0 73.0 68.2 72.7 67.5 79.5 77.3 79.2 76.9 Table 6: 拡張戦略を従来の20%ノイズレベルに適用する際のパフォーマンス上の利点。 0.51
We used available public code for each experiment and no hyperparameters were altered. 各実験で利用可能な公開コードを使い、ハイパーパラメータは変更されませんでした。 0.59
Baseline and augmented accuracy scores are reported. ベースラインおよび拡張精度スコアが報告される。 0.70
and loss correction. arXiv preprint arXiv:1904.11238, 2019. そして損失の訂正。 arXiv preprint arXiv:1904.11238, 2019 0.78
1, 3, 6, 8, 9, 11 [4] Devansh Arpit, Stanisław Jastrz˛ebski, Nicolas Ballas, David Krueger, Emmanuel Bengio, Maxinder S. Kanwal, Tegan Maharaj, Asja Fischer, Aaron Courville, Yoshua Bengio, and Simon Lacoste-Julien. 1, 3, 6, 8, 9, 11 [4] Devansh Arpit, Stanisław Jastrz sebski, Nicolas Ballas, David Krueger, Emmanuel Bengio, Maxinder S. Kanwal, Tegan Maharaj, Asja Fischer, Aaron Courville, Yoshua Bengio, Simon Lacoste-Julien。 0.87
A closer look at memorization in deep networks. 深層ネットワークにおける記憶を詳しく調べる。 0.68
In ICML, 2017. 2017年、ICML。 0.70
1, 2, 3, 7 [5] David Berthelot, Nicholas Carlini, Ian Goodfellow, Nicolas Papernot, Avital Oliver, and Colin A Raffel. 1, 2, 3, 7 [5] David Berthelot, Nicholas Carlini, Ian Goodfellow, Nicolas Papernot, Avital Oliver, Colin A Raffel。 0.80
Mixmatch: In AdA holistic approach to semi-supervised learning. Mixmatch: 半教師付き学習に対するAdAの全体的アプローチ。 0.69
vances in Neural Information Processing Systems, pages 5049–5059, 2019. Neural Information Processing Systems, page 5049–5059, 2019。 0.77
3, 5 [6] Pengfei Chen, Ben Ben Liao, Guangyong Chen, and Shengyu Zhang. 3、5 [6] Pengfei Chen、Ben Ben Liao、Guangyong Chen、Shengyu Zhang。 0.71
Understanding and utilizing deep neural networks trained with noisy labels. 雑音ラベルを用いた深層ニューラルネットワークの理解と活用 0.73
In ICML, 2019. 2019年、ICML入社。 0.80
2 [7] Ekin D Cubuk, Barret Zoph, Dandelion Mane, Vijay Vasudevan, and Quoc V Le. 2 [7] Ekin D Cubuk, Barret Zoph, Dandelion Mane, Vijay Vasudevan, Quoc V Le。 0.75
Autoaugment: Learning augmentation strategies from data. Autoaugment: データから拡張戦略を学ぶ。 0.77
In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 113–123, 2019. コンピュータビジョンとパターン認識に関するIEEEカンファレンスのProceedings of the IEEE conference, page 113–123, 2019。 0.78
1, 2, 4 [8] Ekin D Cubuk, Barret Zoph, Jonathon Shlens, and Quoc V Le. 1, 2, 4 [8] Ekin D Cubuk, Barret Zoph, Jonathon Shlens, Quoc V Le。 0.77
Randaugment: Practical automated data augmentaIn Proceedings of the tion with a reduced search space. Randaugment: 実用的な自動化されたデータオーグメンタ検索スペースを縮小したtionのProceedings。 0.71
IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, pages 702–703, 2020. IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, page 702–703, 2020 0.94
1, 2, 4, 6 [9] Terrance DeVries and Graham W Taylor. 1, 2, 4, 6[9] Terrance DeVries氏とGraham W Taylor氏。 0.86
Improved regularization of convolutional neural networks with cutout. 切断による畳み込みニューラルネットワークの正則化の改善 0.80
arXiv preprint arXiv:1708.04552, 2017. arXiv preprint arXiv:1708.04552, 2017 0.79
1 [10] Jacob Goldberger and Ehud Ben-Reuven. 1 [10] Jacob GoldbergerとEhud Ben-Reuven。 0.96
Training deep In ICLR, neural-networks using a noise adaptation layer. ノイズ適応層を用いたニューラルネットワークIn ICLRの深層トレーニング。 0.82
2017. 2 [11] Bo Han, Quanming Yao, Xingrui Yu, Gang Niu, Miao Xu, Weihua Hu, Ivor Tsang, and Masashi Sugiyama. 2017. 2[11]Bo Han, Quanming Yao, Xingrui Yu, Gang Niu, Miao Xu, Weihua Hu, Ivor Tsang, Sugiyama Masashi。 0.79
Coteaching: Robust training of deep neural networks with extremely noisy labels. Coteaching: 非常に騒々しいラベルを持つディープニューラルネットワークのロバストトレーニング。 0.67
In NeurIPS, pages 8535–8545, 2018. NeurIPS, page 8535–8545, 2018。 0.86
1, 2, 3, 4, 6, 11 [12] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. 1, 2, 3, 4, 6, 11 [12] Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun。 0.75
Identity mappings in deep residual networks. 深い残存ネットワークにおけるアイデンティティマッピング。 0.78
In European conference on computer vision, pages 630–645. コンピュータビジョンに関する欧州会議では、630-645ページ。 0.74
Springer, 2016. スプリンガー、2016年。 0.60
5 9 [13] Dan Hendrycks, Norman Mu, Ekin D Cubuk, Barret Zoph, Justin Gilmer, and Balaji Lakshminarayanan. 5 9 13] Dan Hendrycks, Norman Mu, Ekin D Cubuk, Barret Zoph, Justin Gilmer, Balaji Lakshminarayanan。 0.81
Augmix: A simple data processing method to improve robustness and uncertainty. Augmix:堅牢性と不確実性を改善するためのシンプルなデータ処理方法。 0.71
arXiv preprint arXiv:1912.02781, 2019. arXiv preprint arXiv:1912.02781, 2019 0.81
1 [14] Lu Jiang, Zhengyuan Zhou, Thomas Leung, Li-Jia Li, and Li Fei-Fei. 1 [14]Lu Jiang、Zhengyuan Zhou、Thomas Leung、Li-Jia Li、Li Fei-Fei。 0.82
Mentornet: Learning data-driven curriculum for In ICML, very deep neural networks on corrupted labels. Mentornet: ICMLにおけるデータ駆動型カリキュラムの学習、破損したラベル上の非常に深いニューラルネットワーク。 0.71
2018. 2, 4 2018. 2, 4 0.85
[15] Junnan Li, Richard Socher, and Steven CH Hoi. [15] Junnan Li、Richard Socher、Steven CH Hoi。 0.69
Dividemix: Learning with noisy labels as semi-supervised learning. dividemix: 半教師付き学習としてのノイズラベルによる学習。 0.60
arXiv preprint arXiv:2002.07394, 2020. arXiv preprint arXiv:2002.07394, 2020 0.80
1, 3, 4, 5, 6, 7, 8 [16] Junnan Li, Yongkang Wong, Qi Zhao, and Mohan S Kankanhalli. 1, 3, 4, 5, 6, 7, 8 [16] Junnan Li, Yongkang Wong, Qi Zhao, Mohan S Kankanhalli。 0.76
Learning to learn from noisy labeled data. 騒々しいラベル付きデータから学ぶことを学ぶ。 0.71
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 5051–5059, 2019. コンピュータビジョンとパターン認識に関するIEEE会議の進行において、ページ5051-5059、2019。 0.76
5, 6, 8 [17] Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, and Piotr Dollár. 5, 6, 8 17] Tsung-Yi Lin、Priya Goyal、Ross Girshick、Kaming He、Piotr Dollár。 0.76
Focal loss for dense object detection. 密度物体検出のための焦点損失 0.79
In Proceedings of the IEEE international conference on computer vision, pages 2980–2988, 2017. IEEEのコンピュータビジョンに関する国際会議Proceedings of the IEEE International Conference on computer vision, page 2980–2988, 2017。 0.68
4 [18] Yucen Luo, Jun Zhu, Mengxi Li, Yong Ren, and Bo Zhang. 4 18] Yucen Luo、Jun Zhu、Mengxi Li、Yong Ren、Bo Zhang。 0.74
Smooth neighbors on teacher graphs for semi-supervised In Proceedings of the IEEE conference on comlearning. Smooth neighbors on teacher graphs for semi-supervised In Proceedings of the IEEE conference on comlearning。 0.87
puter vision and pattern recognition, pages 8896–8905, 2018. puter vision and pattern recognition, page 8896–8905, 2018。 0.93
2 [19] Xingjun Ma, Yisen Wang, Michael E. Houle, Shuo Zhou, Sarah M. Erfani, Shu-Tao Xia, Sudanthi Wijewickrema, and James Bailey. 2 [19]Xingjun Ma、Yisen Wang、Michael E. Houle、Shuo Zhou、Sarah M. Erfani、Shu-Tao Xia、Sudanthi Wijewickrema、James Bailey。
訳抜け防止モード: 2 [19 ]Xingjun Ma,Yisen Wang,Michael E. Houle, Shuo Zhou, Sarah M. Erfani, Shu - Tao Xia Sudanthi WijewickremaとJames Bailey。
0.86
Dimensionality-drive n learning with noisy labels. ノイズラベルを用いた次元学習 0.64
In ICML, 2018. 2018年、ICML入社。 0.74
2 [20] Eran Malach and Shai Shalev-Shwartz. 2 20] Eran MalachとShai Shalev-Shwartz。 0.85
Decoupling “when をデカップリングします。 0.29
to update” from “how to update”. how to update”から“how to update”へ。 0.91
In NIPS, 2017. 2017年、NIPS。 0.73
2 [21] Nagarajan Natarajan, Inderjit S Dhillon, Pradeep K RavikuIn mar, and Ambuj Tewari. 2 [21] Nagarajan Natarajan、Inderjit S Dhillon、Pradeep K RavikuMar、Ambuj Tewari。 0.75
Learning with noisy labels. 騒がしいラベルで学ぶこと。 0.68
Advances in neural information processing systems, pages 1196–1204, 2013. 神経情報処理システムの進歩、2013年1196-1204ページ。 0.78
1 [22] Giorgio Patrini, Alessandro Rozza, Aditya Krishna Menon, Richard Nock, and Lizhen Qu. 1 Alessandro Rozza, Aditya Krishna Menon, Richard Nock, Lizhen Qu.[22] Giorgio Patrini, Alessandro Rozza, Aditya Krishna Menon, Lizhen Qu 0.82
Making deep neural networks robust to label noise: a loss correction approach. ディープニューラルネットワークをラベルノイズに対して堅牢にする:損失補正アプローチ。 0.76
In CVPR, 2017. 2017年、CVPR。 0.68
2, 8 [23] Gabriel Pereyra, George Tucker, Jan Chorowski, Łukasz Kaiser, and Geoffrey Hinton. 2, 8 Gabriel Pereyra氏、George Tucker氏、Jan Chorowski氏、Sukasz Kaiser氏、Geoffrey Hinton氏。 0.73
Regularizing neural networks by penalizing confident output distributions. 信頼出力分布のペナルティ化によるニューラルネットワークの正規化 0.67
arXiv preprint arXiv:1701.06548, 2017. arXiv preprint arXiv:1701.06548, 2017 0.79
4 [24] Scott Reed, Honglak Lee, Dragomir Anguelov, Christian Szegedy, Dumitru Erhan, and Andrew Rabinovich. 4 24] Scott Reed、Honglak Lee、Dragomir Anguelov、Christian Szegedy、Dumitru Erhan、Andrew Rabinovich。 0.76
Training deep neural networks on noisy labels with bootstrapping. ブートストラップによるノイズラベル上のディープニューラルネットワークのトレーニング。 0.65
arXiv preprint arXiv:1412.6596, 2014. arXiv preprint arXiv:1412.6596, 2014 0.80
8 [25] Scott E. Reed, Honglak Lee, Dragomir Anguelov, Christian Szegedy, Dumitru Erhan, and Andrew Rabinovich. 8 [25] Scott E. Reed、Honglak Lee、Dragomir Anguelov、Christian Szegedy、Dumitru Erhan、Andrew Rabinovich。 0.80
Training deep neural networks on noisy labels with bootstrapping. ブートストラップによるノイズラベル上のディープニューラルネットワークのトレーニング。 0.65
In ICLR, 2015. 2015年、ICLR。 0.69
2 [26] Mehdi Sajjadi, Mehran Javanmardi, and Tolga Tasdizen. 2 [26] Mehdi Sajjadi、Mehran Javanmardi、Tolga Tasdizen。 0.72
Regularization with stochastic transformations and perturbations for deep semi-supervised learning. 半教師あり深層学習のための確率変換と摂動による正規化 0.56
In Advances in Neural Information Processing Systems, 2016. 2016年、ニューラル・インフォメーション・プロセッシング・システムズ(neural information processing systems)。 0.67
2 [27] Kihyuk Sohn, David Berthelot, Chun-Liang Li, Zizhao Zhang, Nicholas Carlini, Ekin D Cubuk, Alex Kurakin, Han 2 27] Kihyuk Sohn, David Berthelot, Chun-Liang Li, Zizhao Zhang, Nicholas Carlini, Ekin D Cubuk, Alex Kurakin, Han 0.86
英語(論文から抽出)日本語訳スコア
Zhang, and Colin Raffel. ZhangとColin Raffel。 0.64
Fixmatch: Simplifying semisupervised learning with consistency and confidence. Fixmatch: 一貫性と信頼性を備えた半教師付き学習の簡略化。 0.56
arXiv preprint arXiv:2001.07685, 2020. arXiv preprint arXiv:2001.07685, 2020 0.81
2, 8 [28] Kihyuk Sohn, Zizhao Zhang, Chun-Liang Li, Han Zhang, Chen-Yu Lee, and Tomas Pfister. 2, 8 [28] Kihyuk Sohn、Zizhao Zhang、Chun-Liang Li、Han Zhang、Chen-Yu Lee、Tomas Pfister。 0.81
A simple semi-supervised arXiv preprint learning framework for object detection. オブジェクト検出のためのシンプルな半教師付きarxivプレプリント学習フレームワーク 0.52
arXiv:2005.04757, 2020. arXiv:2005.04757, 2020 0.70
1 [29] Daiki Tanaka, Daiki Ikami, Toshihiko Yamasaki, and Kiyoharu Aizawa. 1 [29]田中大樹、井上大樹、山崎俊彦、愛沢清治 0.64
Joint optimization framework for learning with noisy labels. 雑音ラベル学習のための統合最適化フレームワーク 0.71
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 5552– 5560, 2018. コンピュータビジョンとパターン認識に関するIEEE会議の進行において、ページ5552–5560、2018。 0.78
1, 2, 5, 8 1, 2, 5, 8 0.85
[30] Tong Xiao, Tian Xia, Yi Yang, Chang Huang, and Xiaogang Wang. [30]Tong Xiao、Tian Xia、Yi Yang、Chang Huang、Xiaogang Wang。 0.66
Learning from massive noisy labeled data for image classification. 画像分類のための大雑音ラベルデータからの学習 0.80
In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 2691–2699, 2015. Proceedings of the IEEE conference on computer vision and pattern recognition, pages 2691–2699, 2015 0.81
6 [31] Qizhe Xie, Minh-Thang Luong, Eduard Hovy, and Quoc V Le. 6 [31]Qizhe Xie,Minh-Thang Luong,Eduard Hovy,Quoc V Le。 0.77
Self-training with noisy student improves imagenet classification. ノイズの多い学生による自己訓練はイメージネットの分類を改善します。 0.42
In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 10687– 10698, 2020. コンピュータビジョンとパターン認識に関するIEEE/CVF会議の進行で、ページ10687 - 10698、2020。 0.83
1 [32] Kun Yi and Jianxin Wu. 1 [32] Kun YiとJianxin Wu。 0.77
Probabilistic end-to-end noise correction for learning with noisy labels. 雑音ラベル学習のための確率的エンドツーエンドノイズ補正 0.70
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 7017–7025, 2019. IEEEのコンピュータビジョンとパターン認識に関する会議の進行で、ページ7017-7025、2019。 0.81
8 [33] Xingrui Yu, Bo Han, Jiangchao Yao, Gang Niu, Ivor W Tsang, and Masashi Sugiyama. 8 [33]Xingrui Yu, Bo Han, Jiangchao Yao, Gang Niu, Ivor W Tsang, Sugiyama Masashi。
訳抜け防止モード: 8 [33 ]Xingrui Yu, Bo Han, Jiangchao Yao, Gang Niu, Ivor W Tsang, and Sugiyama Masashi .
0.84
How does disagreement help generalization against label corruption? レーベルの腐敗に対する一般化に不一致はどのように役立つのか? 0.45
arXiv preprint arXiv:1901.04215, 2019. arXiv preprint arXiv:1901.04215, 2019 0.81
6, 8, 9, 11 6, 8, 9, 11 0.85
[34] Hongyi Zhang, Moustapha Cisse, Yann N Dauphin, and David Lopez-Paz. [34] Hongyi Zhang、Moustapha Cisse、Yann N Dauphin、David Lopez-Paz。 0.76
mixup: Beyond empirical risk minimization. Mixup: 経験的リスク最小化を超えて。 0.59
arXiv preprint arXiv:1710.09412, 2017. arXiv preprint arXiv:1710.09412, 2017 0.79
1, 2, 4, 8 1, 2, 4, 8 0.85
[35] Weihe Zhang, Yali Wang, and Yu Qiao. 35] Weihe Zhang、Yali WangおよびYu Qiao。 0.65
Metacleaner: Learning to hallucinate clean representations for noisy-labeled viIn Proceedings of the IEEE Conference sual recognition. Metacleaner:IEEE Conference sual recognitionのノイズの多いラベル付きviIn Proceedingsのためにクリーンな表現を幻覚する学習。 0.71
on Computer Vision and Pattern Recognition, pages 7373– 7382, 2019. on Computer Vision and Pattern Recognition, page 7373– 7382, 2019。 0.85
8 10 8 10 0.85
英語(論文から抽出)日本語訳スコア
err 翻訳エラー 0.00
                       ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。