論文の概要、ライセンス

# (参考訳) LaplaceNet:Deep Semi-Supervised Classificationのためのハイブリッドエネルギーニューラルモデル [全文訳有]

LaplaceNet: A Hybrid Energy-Neural Model for Deep Semi-Supervised Classification ( http://arxiv.org/abs/2106.04527v1 )

ライセンス: CC BY 4.0
Philip Sellars and Angelica I. Aviles-Rivero and Carola-Bibiane Sch\"onlieb(参考訳) 半教師付き学習は、しばしば高価で、専門家の知識を必要とし、収集に時間がかかる大量のラベル付きデータの必要性を軽減するため、近年多くの注目を集めている。 近年の深層半教師付き分類の進歩は前例のない性能に達し, 教師付き学習と半教師付き学習のギャップは拡大を続けている。 この性能改善は、多くの技術的トリック、強力な拡張技術、多目的損失関数によるコスト最適化スキームを取り入れたものである。 モデル複雑性を大幅に低減した深層半教師付き分類のための新しいフレームワークであるLaplaceNetを提案する。 グラフベースの擬似ラベルをグラフィカルラプラシアンの最小化によって生成したハイブリッドエネルギーニューラルネットワークを用いて,ニューラルネットワークのバックボーンを反復的に改善する。 本モデルは,複数のベンチマークデータセットを用いて,半教師付き深層分類のための最先端手法より優れる。 さらに,理論上は強弱化をニューラルネットワークに適用し,半教師付き学習におけるマルチサンプリング手法の利用を正当化する。 我々は、厳密な実験を通じて、マルチサンプリング拡張アプローチが一般化を改善し、拡張に対するネットワークの感度を低下させることを示す。

Semi-supervised learning has received a lot of recent attention as it alleviates the need for large amounts of labelled data which can often be expensive, requires expert knowledge and be time consuming to collect. Recent developments in deep semi-supervised classification have reached unprecedented performance and the gap between supervised and semi-supervised learning is ever-decreasing. This improvement in performance has been based on the inclusion of numerous technical tricks, strong augmentation techniques and costly optimisation schemes with multi-term loss functions. We propose a new framework, LaplaceNet, for deep semi-supervised classification that has a greatly reduced model complexity. We utilise a hybrid energy-neural network where graph based pseudo-labels, generated by minimising the graphical Laplacian, are used to iteratively improve a neural-network backbone. Our model outperforms state-of-the-art methods for deep semi-supervised classification, over several benchmark datasets. Furthermore, we consider the application of strong-augmentations to neural networks theoretically and justify the use of a multi-sampling approach for semi-supervised learning. We demonstrate, through rigorous experimentation, that a multi-sampling augmentation approach improves generalisation and reduces the sensitivity of the network to augmentation.
公開日: Tue, 8 Jun 2021 17:09:28 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
LaplaceNet: A Hybrid Energy-Neural Model laplacenet: ハイブリッドエネルギー・ニューラルモデル 0.81
for Deep Semi-Supervised Classification Deep Semi-Supervised Classification の略。 0.51
Philip Sellars1, Angelica I. Aviles-Rivero1 and Carola-Bibiane Sch¨onlieb1 Philip Sellars1, Angelica I. Aviles-Rivero1, Carola-Bibiane Sch sonlieb1 0.60
1 1 2 0 2 n u J 1 1 2 0 2 n u J 0.85
8 ] G L . 8 ] G L。 0.81
s c [ 1 v 7 2 5 4 0 sc [ 1 v 7 2 5 4 0 0.68
. 6 0 1 2 : v i X r a . 6 0 1 2 : v i X r a 0.85
Abstract—Semi-supervised learning has received a lot of recent attention as it alleviates the need for large amounts of labelled data which can often be expensive, requires expert knowledge and be time consuming to collect. abstract—semi-supervised learningは、高価なラベル付きデータの大量必要を軽減し、専門家の知識を必要とし、収集に時間がかかるため、近年多くの注目を集めている。 0.76
Recent developments in deep semi-supervised classification have reached unprecedented performance and the gap between supervised and semi-supervised learning is ever-decreasing. 近年の深層半教師付き分類の進歩は前例のない性能に達し, 教師付き学習と半教師付き学習のギャップは拡大を続けている。 0.52
This improvement in performance has been based on the inclusion of numerous technical tricks, strong augmentation techniques and costly optimisation schemes with multi-term loss functions. この性能改善は、多くの技術的トリック、強力な拡張技術、多目的損失関数によるコスト最適化スキームを取り入れたものである。 0.76
We propose a new framework, LaplaceNet, for deep semi-supervised classification that has a greatly reduced model complexity. モデル複雑性を大幅に低減した深層半教師付き分類のための新しいフレームワークであるLaplaceNetを提案する。 0.75
We utilise a hybrid energyneural network where graph based pseudo-labels, generated by minimising the graphical Laplacian, are used to iteratively improve a neural-network backbone. グラフベースの擬似ラベルをグラフィカルラプラシアンの最小化によって生成したハイブリッドエネルギーネットワークを利用して,ニューラルネットワークのバックボーンを反復的に改善する。 0.78
Our model outperforms state-of-the-art methods for deep semi-supervised classification, over several benchmark datasets. 本モデルは,複数のベンチマークデータセットを用いて,半教師付き深層分類のための最先端手法より優れる。 0.44
Furthermore, we consider the application of strong-augmentations to neural networks theoretically and justify the use of a multi-sampling approach for semi-supervised learning. さらに,理論上は強弱化をニューラルネットワークに適用し,半教師付き学習におけるマルチサンプリング手法の利用を正当化する。 0.72
We demonstrate, through rigorous experimentation, that a multi-sampling augmentation approach improves generalisation and reduces the sensitivity of the network to augmentation. 我々は、厳密な実験を通じて、マルチサンプリング拡張アプローチが一般化を改善し、拡張に対するネットワークの感度を低下させることを示す。
訳抜け防止モード: 厳密な実験を通じて マルチサンプリング拡張アプローチは一般化を改善し、拡張に対するネットワークの感度を低下させる。
0.74
Code coming soon! コードはもうすぐ来る! 0.72
I. INTRODUCTION The advent of deep learning has been key in achieving outstanding performance in several computer vision tasks including image classification [1]–[5], object detection e g [6]–[8] and image segmentation [9]–[11]. I 導入 ディープラーニングの出現は、画像分類 [1]–[5]、オブジェクト検出 e g[6]–[8]、画像分割 [9]–[11] など、いくつかのコンピュータビジョンタスクにおいて、卓越した性能を達成する上で重要である。
訳抜け防止モード: I 導入 深層学習の出現は、画像分類[1]〜[5]を含む複数のコンピュータビジョンタスクにおいて、卓越した性能を達成する上で重要である。 オブジェクト検出 e g [ 6]–[8 ] とイメージセグメンテーション [ 9]–[11 ] 。
0.58
Training deep learning models often relies upon access to large amounts of labelled training data. ディープラーニングモデルのトレーニングは、大量のラベル付きトレーニングデータへのアクセスに依存することが多い。
訳抜け防止モード: ディープラーニングモデルのトレーニング しばしば大量のラベル付きトレーニングデータへのアクセスに依存します。
0.77
In real-world scenarios we often find that labels are scarce, expensive to collect, prone to errors (high uncertainty) and might require expert knowledge. 現実のシナリオでは、ラベルが不足し、収集するのにコストがかかり、エラーが発生しやすい(高い不確実性)ため、専門家の知識が必要な場合がよくあります。 0.50
Therefore, relying on a well-representative dataset to achieve good performance is a major limitation for the practical deployment of machine learnt methods. したがって、優れたパフォーマンスを達成するために、よく表現可能なデータセットに頼ることは、機械学習メソッドの実践的な展開に大きく制限される。 0.61
These issues have motivated the development of techniques which are less reliant on labelled data. これらの問題はラベル付きデータに依存しない技術の開発を動機付けた。 0.70
Semi-supervised learning aims to extract information from unlabelled data, in combination with a small amount of label data, and produce results comparable to fully supervised approaches. 半教師付き学習は、ラベルのないデータから、少量のラベルデータと組み合わせて情報を抽出し、完全な教師付きアプローチに匹敵する結果を生み出すことを目的としている。 0.54
In recent years, the developments in deep learning have motivated new directions in semi-supervised learning (SSL) for image classification. 近年、深層学習の発展は、画像分類のための半教師付き学習(SSL)の新しい方向性を動機付けている。 0.68
The major benefit of these new deep approaches being the ability to learn feature representations rather than rely upon hand-crafted features. これらの新しいディープアプローチの大きな利点は、手作りの機能に頼るのではなく、特徴表現を学ぶ能力である。 0.67
In the last few years, deep SSL papers have reached unprecedented performance e g [12], [13], and the gap between supervised and semi-supervised models is much smaller now that it was 過去数年間、深いssl文書は前例のないパフォーマンスに達し、[12], [13]、そして教師付きモデルと半教師付きモデルの間のギャップは、今ではずっと小さくなっている。 0.62
P. Sellars, Angelica I. Aviles-Rivero and Carola-Bibiane Sch¨onlieb are with the Department of Theoretical Physics and Applied Mathematics, Univeristy of Cambridge, Cambridge, UK. P. Sellars、Angelica I. Aviles-Rivero、Carola-Bibiane Sch ドンリーブはケンブリッジ大学の理論物理学・応用数学科に所属している。 0.77
ps644,ai323,cbs31@ca m.ac.uk . ps644,ai323,cbs31@ca m.ac.uk 0.61
even five years ago, with semi-supervised methods surpassing certain supervised techniques. 5年前でさえ 半監督的手法が ある監督的手法を超えた 0.52
What techniques have been crucial to the improved performance of deep semi-supervised methods? 深層半教師付き手法の性能向上には,どのような技術が重要か? 0.72
Although, there is no universal answer, there are several shared commonalities between the current SOTA. 普遍的な答えはないが、現在のSOTAの間にはいくつかの共通点がある。 0.61
The works of [12]–[14] demonstrated that a key factor for improving performance is the use of strong augmentations strategies such as AutoAugment [15], RandAugment [16], Cutout [17] and CTAugment [14]. 12]-[14]の業績は、AutoAugment [15]、RandAugment [16]、CTAugment [17]、CTAugment [14]のような強力な拡張戦略を使用することによって、パフォーマンス向上の鍵となる要因が示されている。
訳抜け防止モード: 12]–[14 ]の作業は、パフォーマンス向上の鍵となる要因は、AutoAugment [15 ]のような強力な拡張戦略を使用することであることを示した。 RandAugment [ 16 ], Cutout [ 17 ], CTAugment [ 14 ]
0.82
Additionally, the use of confidence thresholding [12], [18] and temperature sharpening [13], [19] are thought to be vital in improving performance for pseudo-labeling methods. また,疑似ラベル法の性能向上には,信頼しきい値[12],[18],温度シャープニング[13],[19]の使用が不可欠であると考えられる。 0.67
Other papers [19]–[21] have shown great improvement from using interpolating techniques such as MixUp [22]. 他の論文 [19]–[21] は mixup [22] のような補間技術を使うことから大きく改善されている。 0.82
Several SOTA have also promoted large batch sizes [12] with a large ratio of unlabelled to labelled data per batch. いくつかのsotaも、バッチ当たりのラベルなしデータとラベル付きデータの比率が大きい[12]大きなバッチサイズを推奨している。 0.55
Recent approaches in SSL have proposed costly optimisation schemes involving multi-term loss functions to improve the generalisation of their models [14], [20]. SSLの最近のアプローチでは、モデル [14], [20] の一般化を改善するために、多項損失関数を含むコスト最適化方式が提案されている。 0.70
Some approaches [12] use separate loss terms for unlabelled and labelled data, whilst consistency regularisation approaches such as [13] use a standard supervised loss in combination with a specialised consistency loss. いくつかのアプローチ [12] ではラベル付きデータとラベル付きデータの別々の損失項を使用し、[13] のような一貫性の正規化アプローチでは標準の教師付き損失と特殊化された一貫性の損失を組み合わせる。 0.65
Other approaches go even further [14], [20] and use three or more loss terms which promote entropy minimisation, class balancing or simultaneously minimise several consistency losses. 他のアプローチはさらに [14], [20] に進み、エントロピー最小化、クラスバランシング、あるいは複数の一貫性損失を同時に最小化する3つ以上の損失項を使用する。 0.72
Over-costly computational approaches and unnecessary complexity, make it hard to directly say what tools or approaches are important for improved generalisation and make it difficult to use SSL methods in realistic settings. コストのかかる計算アプローチと不要な複雑さにより、一般化を改善するためにどのようなツールやアプローチが重要かを直接的に言うのが難しくなり、現実的な設定でSSLメソッドを使用するのが難しくなります。
訳抜け防止モード: オーバー - コストのかかる計算手法と不要な複雑さにより、一般化を改善するためにどのツールやアプローチが重要かを直接言い表すことが困難になる SSLメソッドを現実的な設定で使用するのが難しくなります。
0.66
Furthermore, despite the significant improvements found in using augmentations, there has been little effort in the field of SSL to investigate how best to include strong augmentations techniques in the learning framework. さらに、強化の使用で大きな改善が見られたにもかかわらず、sslの分野において、学習フレームワークに強力な強化技術を含める方法について調査する努力はほとんどありませんでした。 0.62
With these points in mind, in this work, we introduce a new deep SSL framework for image classification which offers state-of-the-art performance with massively reduced model complexity. これらの点を念頭に、本研究では、モデル複雑さを大幅に低減した最先端のパフォーマンスを提供する、画像分類のための新しいディープSSLフレームワークを導入する。 0.63
Our main contributions are: – We propose a graph based pseudo-label approach for semi-supervised image classification which we name LaplaceNet. 私たちの主な貢献は 半教師付き画像分類のためのグラフベース擬似ラベル手法を提案し,LaplaceNetと呼ぶ。 0.76
We demonstrate through extensive testing, that our approach produces state-of-the-art results on benchmark datasets CIFAR-10, CIFAR-100 and MiniImageNet. そこで本研究では,CIFAR-10,CIFAR-100, MiniImageNetのベンチマークデータに対して,最新の結果が得られることを示す。 0.59
We do so with vastly reduced model complexity compared to the current state-of-the-art. 現在の最先端技術と比較して、モデルの複雑さを大幅に削減しています。 0.52
We show that a single loss, the classic supervised loss, is all that is required for fantastic performance in the SSL domain. SSLドメインの素晴らしいパフォーマンスには、単一の損失、古典的な教師付き損失がすべて必要であることを示す。 0.62
英語(論文から抽出)日本語訳スコア
– We show that using an energy-based graphical model for pseudo-label generation produces more accurate pseudolabels, with a small computational overhead, than using the network’s predictions directly. – 擬似ラベル生成にエネルギーベースのグラフィカルモデルを用いることで,ネットワークの予測を直接使用するよりも,計算オーバーヘッドが少なく,より正確な擬似ラベルを生成することを示す。 0.79
Furthermore, we demonstrate that energy-based pseudo-label approaches can produce state-of-the-art results without the techniques (temperature sharpening, confidence thresholding, soft labels) that are currently thought to be essential for pseudolabel methods. さらに,現在疑似ラベル法に不可欠な技術(温度硬化,信頼性閾値,ソフトラベル)を使わずに,エネルギーをベースとした擬似ラベル手法が最先端の成果をもたらすことを示した。 0.72
– Instead, we offer further evidence that strong augmentation is by far and away the most important tool for improving the performance of semi-supervised models in the natural image domain. 画像領域における半教師付きモデルの性能向上のための最も重要なツールとして,強い拡張が重要であるという,さらに証拠を提供する。 0.71
With this in mind, we propose, theoretically justify and experimentally demonstrate that a multisample averaging approach to strong augmenation not only improves generalisation but reduces the sensitivity of the model’s output to data augmentation. このことを念頭に置いて,理論的な正当化と実験により,強いオーグメンテーションに対するマルチサンプル平均化アプローチが一般化を改善できるだけでなく,データ拡張に対するモデルの出力の感度を低下させることを示した。 0.72
II. RELATED WORK The problem of improving image classification performance using SSL has been extensively investigated from the classic perspective e g [23]–[28], in which one seeks to minimise a given energy functional that exploits the assumed relationship between labelled and unlabelled data [29]. II。 関連作業 SSLを用いた画像分類性能向上の問題は、ラベル付きデータと非ラベル付きデータとの仮定関係を利用した与えられたエネルギー関数を最小化しようとする古典的な視点 e g[23]–[28] から広く研究されている。 0.70
However, classical approaches tended to rely on hand-crafted features that limited their performance and generalisation capabilities. しかし、古典的なアプローチは、性能と一般化能力を制限する手作りの機能に依存する傾向があった。
訳抜け防止モード: しかし 古典的なアプローチは 手に頼る - 性能と一般化能力を制限する機能を作る。
0.74
With the popularisation of deep learning and its ability to learn generalisable feature representations, many techniques have incorporated neural networks to mitigate problems of generalisation. ディープラーニングの普及と一般化可能な特徴表現の学習能力により、多くの技術が一般化の問題を軽減するためにニューラルネットワークを組み込んだ。 0.66
These modern state-of-the-art methods are dominated by two approaches, consistency regularisation and pseudolabelling, which differ in how they incorporate unlabelled data into the loss function. これらの現代的な最先端手法は、一貫性の規則化と擬似ラベリングという2つのアプローチで支配されており、非ラベリングデータを損失関数に組み込む方法が異なる。 0.56
A. Consistency Regularisation Techniques A。 一貫性規則化技術 0.69
One of the fundamental assumptions that allows semisupervised learning to help performance is the cluster assumption, which states that points in the same cluster are likely to be in the same class. 半教師付き学習がパフォーマンスに役立つという基本的な仮定の1つは、同じクラスタ内のポイントが同じクラスにある可能性が高いというクラスタ仮定である。 0.77
This can be seen to be equivalent to the low-density assumption which states that the decision boundaries of the model should lie in low-density regions of the data distribution. これは、モデルの決定境界がデータ分布の低密度領域にあるべきであるという低密度仮定と等価であると見なすことができる。 0.72
Following from the above assumptions, if we have access to some labelled data Zl = {xi, yi}nl i=1 and a large amount of unlabelled data Zu = {xi}nl+nu i=nl+1, we should seek to move our decisions boundaries to be in low density regions of the joint labelled and unlabelled data distributions. 上記の仮定に従うと、あるラベル付きデータ Zl = {xi, yi}nl i=1 と大量の非ラベル付きデータ Zu = {xi}nl+nu i=nl+1 にアクセスすることができれば、決定境界をラベル付きデータと非ラベル付きデータ分布の低密度領域に移す必要がある。 0.80
Consistency regularisation seeks to implement the lowdensity assumption by encouraging the model f to be invariant to perturbations δ to the data x. 一貫性正規化は、モデル f がデータ x への摂動 δ に不変であるように促すことにより、低密度の仮定を実装しようとする。
訳抜け防止モード: 一貫性の規則化は、低密度の仮定を実装しようとする モデル f をデータ x に対する摂動 δ に不変にすることを奨励する。
0.65
As a result the decision boundaries are pushed to low-density regions. その結果、決定境界は低密度領域にプッシュされる。 0.66
Mathematically, given some data perturbing function u : X → X , such that u(x) = x + δ, consistency based approaches seek to minimise some consistency loss Lcon in the general form of 数学的には、あるデータ摂動関数 u : x → x が u(x) = x + δ となると、一貫性に基づくアプローチは、ある一貫性損失 lcon を一般形式で最小化しようとする。 0.78
(1) A large number of papers have applied this idea to SSL 1)多くの論文がこのアイデアをSSLに適用した。 0.70
including the(cid:81)−Model and temporal ensembling [30], Virtual cid:81)-Model と temporal ensembling [30], Virtual 0.61
Lcon = ||f (u(x)) − f (x)||2 2. Lcon = ||f (u(x)) − f (x)||2 2。 0.95
2 Adversarial Training (VAT) [31], Mean Teacher [32], the Interpolation Consistency Training (ICT) [21] RemixMatch [14] and MixMatch [19]. 2 VAT(Adversarial Training) [31], Mean Teacher [32], Interpolation Consistency Training (ICT) [21] RemixMatch [14], MixMatch [19]。 0.75
The downside of consistency regularisation techniques is the vagueness in choosing an appropriate δ. 整合正則化技術の欠点は、適切なδを選択する際の曖昧さである。 0.60
This vagueness is reflected in the wide range of perturbations which have been used in the field. この曖昧さは、この分野で使われている幅広い摂動に反映されている。 0.67
Virtual Adversarial Training uses adversarial training to learn an effective δ for each point. 仮想敵訓練は、敵の訓練を用いて、各点に対して効果的なδを学習する。 0.56
Mean Teacher [32] decided to apply a perturbation to the model itself, and replaces f (u(x)) with an exponential moving average of the model fEMA(x). 平均教師[32]はモデル自体に摂動を適用し、f(u(x))をモデルfema(x)の指数的移動平均に置き換えることを決めた。 0.73
Interpolation Consistency Training [21] seeks to train the model to provide consistent predictions at interpolations of unlabelled points. 補間整合性トレーニング [21] は,非補間点の補間において一貫した予測を提供するためにモデルを訓練しようとする。
訳抜け防止モード: 補間一貫性トレーニング[21] 非ラベル点の補間において一貫した予測を提供するようにモデルを訓練する。
0.64
The authors of [13] demonstrated that by replacing simple noising perturbations with stronger augmentation perturbations (eg, RandAugment [16] or CTAugment [14]) leads to a substantial performance improvements. 13] の著者らは,単純なノイズ発生摂動をより強い拡張摂動(RandAugment [16] あるいは CTAugment [14])に置き換えることで,大幅なパフォーマンス向上を実現することを示した。 0.84
Although these techniques have demonstrated great performance, it is unclear how best to set the perturbations δ and how best to incorporated them in learning frameworks. これらの手法は優れた性能を示したが、摂動δを設定するのがいかに最適か、学習フレームワークに組み込むのがいかに最適かは定かではない。 0.58
In our work, we avoid using model based perturbations and instead focus on the the application of strong data augmentation. 我々の研究では、モデルベースの摂動は避け、代わりに強いデータ拡張の適用に焦点を当てます。 0.65
B. Pseudo-Labelling Techniques Another family of methods, termed pseudo-label approaches, focus on estimating labels for the unlabelled data points and then using them in a modified loss function. B.擬似ラベル技術 擬似ラベルアプローチと呼ばれる別の手法のファミリは、未ラベルのデータポイントのラベルを推定し、修正された損失関数でそれらを使用する。 0.66
Forcing the network to make predictions on unlabelled points minimises the entropy of the unlabelled predictions [29] and moves the decision boundaries to low-density regions. ネットワークにラベルなしのポイントで予測を強制することは、ラベルなしの予測[29]のエントロピーを最小化し、決定境界を低密度領域に移す。
訳抜け防止モード: ネットワークに乱れのない点の予測を強制することは、乱れのない予測のエントロピーを最小化する[29] 決定境界を低密度領域に移す。
0.69
Additional, dependent on the accuracy of the pseudo-labels, we increase the amount of labelled data the model has access to and reduce overfitting to the initally small label set. さらに、擬似ラベルの精度に依存して、モデルがアクセスしたラベル付きデータの量を増やし、初期的に小さなラベルセットへのオーバーフィッティングを減らす。 0.70
There are many ways to incorporate unlabelled data / pseudo-label pairs into the loss function but the most common ways are to either create a specific loss term for the unlabelled data pseudo-label pairs [12], [18] or by using composite batches containing both labelled and unlabelled data and keeping the standard supervised classification loss [20], [33]. ラベル付きデータ/擬似ラベルペアを損失関数に組み込む方法は数多くあるが、最も一般的な方法は、ラベル付きデータ/擬似ラベルペア [12], [18] の特定の損失項を作成するか、ラベル付きデータ/擬似ラベルペアの両方を含む複合バッチを使用し、標準教師付き分類損失 [20], [33] を保持することである。 0.75
The first application of this idea to the deep learning setting was presented by Lee [34]. このアイデアをディープラーニング環境に最初に適用したのはLee[34]氏だ。 0.65
Viewing the output of the neural network f (x) as a discrete probability distribution, Lee assigned a hard pseudo-label ˆy for each unlabelled data point according to its most likely prediction ˆyi = arg max f (xi). ニューラルネットワーク f (x) の出力を離散確率分布と見なすと、リーはその最も可能性の高い予測 yi = arg max f (xi) に従って、各未ラベルのデータポイントに対してハード擬似ラベル y を割り当てる。 0.75
These pseudolabels were then used in a two termed loss function of the form これらの擬似ラベルは、フォームの2つの損失関数として使用される。 0.59
labelled loss unlabelled loss ラベル付き損失 unlabelled~ 0.65
nu(cid:88) nu(cid:88) 0.84
i=1 ls(f (x), ˆy), i=1 は ls(f(x) ) である。 0.67
(2) ˆLssl = (2) ~Lssl = 0.84
1 nl ls(f (x), y) + η 1nl ls(f(x), y) + η 0.77
1 nu nl(cid:88) 1 nu nl(cid:88) 0.85
i=1 where ls is some loss function and η is a weighting parameter. i=1 ここでlsは損失関数であり、ηは重み付けパラメータである。 0.68
The pseudo-labels are recalculated every-time the unlabeled data is passed through the network. 擬似ラベルは、未ラベルデータがネットワークを通過するたびに再計算される。 0.68
As an alternative to hard labels, [19] used the full output probability distribution of the network as a soft label for each point. ハードラベルの代替として, [19] は各点について, ネットワークの全出力確率分布をソフトラベルとして使用した。 0.82
However, it was found that sharpening this distribution helped ensured the model’s prediction entropy was minimised. しかし、この分布の研削がモデルの予測エントロピーを最小化するのに役立ったことが判明した。 0.72
英語(論文から抽出)日本語訳スコア
As pointed out by Arazo et al [20] there is a potential pitfall in this style of approach. Arazo氏らが指摘したように、[20]このアプローチには潜在的な落とし穴があります。 0.72
Networks are often wrong and the neural network can overfit to its own incorrectly guessed pseudo-labels in a process termed confirmation bias. ニューラルネットワークは、確認バイアスと呼ばれるプロセスにおいて、誤って推測された疑似ラベルに過度に適合する。 0.70
Arazo et al proposed using MixUp [22], soft labels and a minimum ratio of labeled to unlabeled data to reduce confirmation bias. arazoらはmixup [22]、soft labels、およびラベルのないデータに対する最小の比率を用いて確認バイアスを減らすことを提案している。
訳抜け防止モード: MixUp [22 ], Soft labels を用いた Arazo et al の提案 ラベル付きデータとラベル付きデータの 最小比率は 確認バイアスを減らすためです
0.88
An alternative method to reduce confirmation bias is to use uncertainty quantification for the produced pseudolabels. 確認バイアスを減らす別の方法は、生成した疑似ラベルに対して不確かさの定量化を使用することである。 0.52
These methods calculate a confidence score ri for each pseudolabel ˆyi. これらの方法は、疑似ラベルごとに信頼スコアriを算出する。 0.56
The works of [12], [33] used the entropy of the probability distribution to give ri whilst [35] used the distance between unlabelled points and labelled points in feature space. 12] と[33] の作業は確率分布のエントロピーを使って ri を与え、[35] は特徴空間における非ラベル付き点とラベル付き点の間の距離を使った。 0.81
One can then either weight the loss terms by ri or exclude pseudo-labels whose ri is below some threshold τ in an attempt to prevent the network learning from low confidence predictions. 損失項をriで重み付けするか、ネットワーク学習による信頼度の低い予測を防ぐために、riがしきい値 τ 以下である擬似ラベルを除外するかのいずれかを選択できる。
訳抜け防止モード: ri による損失項の重み付けや、ri が τ のしきい値以下である擬似ラベルの排除が可能である。 ネットワーク学習を低信頼の予測から防ぐためです
0.76
This style of approach is based upon the idea that the neural network is well calibrated, i.e that the model’s softmax score is a good indicator of the actually likelihood of a correct prediction. このスタイルのアプローチは、ニューラルネットワークが十分に校正されている、すなわちモデルのソフトマックススコアが、正しい予測の実際の可能性を示す良い指標であるという考えに基づいている。 0.77
However, recent research has suggested that modern neural networks are not as well calibrated as may be intuitively thought [36]. しかし、最近の研究では、現代のニューラルネットワークは直感的に考えるほど校正されていない[36]。 0.68
In our work we demonstrate that, whilst a intuitive solution, uncertainty quantification is not needed for our pseudolabel approach. 我々の研究では、直感的な解ではあるものの、疑似ラベルアプローチでは不確実性定量化は必要ないことを示した。 0.51
In a completely different direction to network predictions, it has been shown from a classical perspective [25] that energy based models such as graphs are well suited to the task of label propagation. ネットワーク予測とは全く異なる方向において、グラフのようなエネルギーベースのモデルがラベル伝播のタスクに適していることは古典的観点から [25] に示されている。 0.88
Therefore, several works [33], [37], [38] have shown good performance by iteratively feeding the feature representation of a neural network to a graph, performing pseudo-label generation on the graph and then using those labels to train the network. したがって、[33],[37],[38]は、ニューラルネットワークの特徴表現をグラフに反復的に供給し、グラフ上で擬似ラベル生成を行い、それらのラベルを使用してネットワークを訓練することにより、優れた性能を示す。 0.85
However, graphical approaches have yet to show that they can produce state-of-the-art results compared to model based approaches such as [12], [13]. しかし、グラフィカルなアプローチは、[12],[13]のようなモデルに基づくアプローチと比較して、最先端の結果が得られることをまだ示していない。 0.61
In our work, we present a graphical approach which surpasses the performance of model based approaches, demonstrating that graphical approaches have a lot of promise for practical applications. 本研究では,モデルベースアプローチの性能を上回るグラフィカルアプローチを提案し,実用的なアプリケーションに対してグラフィカルアプローチが有望であることを示す。 0.75
III. PROPOSED TECHNIQUE This section details our proposed semi-supervised method. III。 提案技術 本項では,提案手法について詳述する。 0.62
We cover the generation of pseudo-labels, the optimisation of the model alongside a full algorithm and we explore our multi-sample augmentation approach. 我々は疑似ラベルの生成、モデルの最適化、完全なアルゴリズムとともに、マルチサンプル拡張アプローチを探求する。 0.69
A. Problem Statement: A。 問題ステートメント: 0.74
i=1 and a unlabelled part Zu = {xi}n i=1 と未約部分 Zu = {xi}n 0.89
From a joint distribution Z = (X ,Y) we have a dataset Z of size n = nl + nu comprised of a labelled part of joint samples Zl = {xi, yi}nl i=nl+1 of single samples on X . 結合分布 Z = (X , Y) から、X 上の単一サンプルの Zl = {xi, yi}nl i=nl+1 のラベル付き部分からなる大きさ n = nl + nu のデータセット Z が得られる。 0.79
The labels come from a discrete set of size C y ∈ {1, 2, .., C}. ラベルは、C y ∈ {1, 2, .., C} の離散的な集合に由来する。
訳抜け防止モード: ラベルは、C y ∈ { 1 の離散的な集合に由来する。 2 , .. , C } .
0.79
Our task is to train a classifier f, modelled by a neural network with parameter vector θ, which can accurately predict the labels of unseen data samples from the same distribution X . 我々の課題は、パラメータベクトルθを持つニューラルネットワークでモデル化された分類器fを訓練し、同じ分布Xから未知のデータサンプルのラベルを正確に予測することである。 0.75
The classifier f can be viewed as the composition of two functions z and g such that f (x) = g(z(x)). 分類器 f は、f(x) = g(z(x)) となる2つの函数 z と g の合成と見なすことができる。 0.77
z : X → Rdp is the embedding function mapping our data input to some dp dimensional feature space and g : Rdp → RC projects from the feature space to the classification space. z : X → Rdp は、データ入力をある dp 次元の特徴空間にマッピングする埋め込み関数であり、g : Rdp → RC は特徴空間から分類空間へ射影する。 0.85
B. Pseudo-labels Generation 3 B.擬似ラベル生成 3 0.75
As a pseudo-label based approach, we iteratively assign a pseudo-label ˆy to all data points in Zu once per epoch. 擬ラベルベースのアプローチとして、エポック毎に1回ずつZu内のすべてのデータポイントに擬ラベルを反復的に割り当てる。 0.58
In this work, we generate hard pseudo-labels using a graph based approach first proposed by Zhou et al [26] and first adapted to deep networks by Iscen et al [33] which has been thoroughly studied in the classical machine learning literature. 本研究では,Zhou et al [26] が最初に提案したグラフベースアプローチと,Iscen et al [33] によるディープネットワークへの適応を用いて,古典的機械学習文学において徹底的に研究されている硬い擬似ラベルを生成する。 0.78
We first extract the feature representation of the dataset V by using the embedding function of the neural network z so that V = {z(x1), .., z(xn)}. まず、ニューラルネットワークzの埋め込み関数を用いてデータセットVの特徴表現を抽出し、V = {z(x1), .., z(xn)} とする。
訳抜け防止モード: まず、ニューラルネットワークzの埋め込み関数を用いてデータセットVの特徴表現を抽出し、V = { z(x1) となるようにする。 .. , z(xn ) } .
0.89
Unlike other works we do not apply augmentation to the data whilst producing the pseudo-labels. 他の作品とは異なり、擬似ラベルを生成しながらデータに拡張を適用しない。 0.61
Using V and a similarity metric d, we use d(vi, vj) = (cid:104)vi, vj(cid:105), we construct a symmetric weighted adjacency matrix W ∈ Rn×n. V と類似度計量 d を用いて d(vi, vj) = (cid:104)vi, vj(cid:105) を用い、対称重み付き隣接行列 W ∈ Rn×n を構成する。 0.81
The elements wij ∈ W are given by Wij = d(vi, vj) and represent the pairwise similarities between data points. 要素 wij ∈ W は Wij = d(vi, vj) で与えられる。
訳抜け防止モード: W の元 wij ∈ W は Wij = d(vi, vj ) で与えられる。 データポイント間のペアの類似性を表現します。
0.72
We then sparsify W using the following nearest neighbour approach, which reads: 次に、次の近接アプローチを用いてWをスパース化する。 0.62
d(vi, vj), ~d(vi, vj) 0.71
0 Wij = if i is one of the k nearest neighbor of j, or vice versa. 0 Wij = i が j の最も近い k の近傍の 1 である場合、またはその逆である。 0.79
otherwise. (3) We then construct the degree matrix D := diag(W 1n) and use this to normalise the affinity matrix W = D−1/2W D−1/2, which prevent nodes with high degree having a large global impact. さもないと (3) 次数行列 D := diag(W 1n) を構築し、これを用いて親和性行列 W = D−1/2W D−1/2 を正規化する。
訳抜け防止モード: さもないと (3 ) 次数行列 D : = diag(W 1n ) を構成する。 これを使って親和性行列 W = D−1/2W D−1/2 を正規化する。 グローバルな影響が大きいノードを 防ぎます
0.60
Finally, we use the initial label information to create the labelled matrix Y ∈ Rn×C 最後に、初期ラベル情報を用いてラベル付き行列 Y ∈ Rn×C を作成する。 0.79
(cid:40) Yij = (cid:40) Yij = 0.82
1, 0 if yi = j, otherwise. 1, 0 yi = j ならば、そうでなければ。 0.77
(4) We can then propagate the information contained in Y across the graph structure W by minimising the graphical Laplacian of the prediction matrix F ∈ Rn×C plus a fidelity term to the supplied labelled data: (4) すると、予想行列 F ∈ Rn×C のグラフィカルラプラシアンと、供給されたラベル付きデータへの忠実項を最小化することにより、グラフ構造 W を横切る Y に含まれる情報を伝播することができる。 0.80
n(cid:88) i,j=1 n(cid:88) i,j=1 0.81
Wij (cid:12)(cid:12)(cid :12)(cid:12)(cid:12) ウィジ (cid:12)(cid:12)(cid :12)(cid:12) 0.67
(cid:12)(cid:12)(cid :12)(cid:12)(cid:12) Fi√ (cid:12)(cid:12)(cid :12)(cid:12) fi) 0.82
Dii − Fj(cid:112)Djj 井 -Fj(cid:112)Djj 0.71
(cid:12)(cid:12)(cid :12)(cid:12)(cid:12) (cid:12)(cid:12)(cid :12)(cid:12) 0.89
(cid:12)(cid:12)(cid :12)(cid:12)(cid:12) 2 (cid:12)(cid:12)(cid :12)(cid:12)2 0.90
n(cid:88) i=1 n(cid:88) i=1 0.71
+ µ 2 Q(F ) = + µ 2 Q(F ) = 0.85
1 2 ||Fi−Yi||2, (5) 1 2 ||Fi−Yi||2, (5) 0.70
where µ is a scalar weight. μはスカラーの重さです 0.55
The first term enforces points which are close according to the metric d to share a similar label whilst the second term encourages initially labelled points to keep their label. 第1の項は距離dに従って近い点を強制して類似のラベルを共有し、第2の項は最初にラベル付けされた点にラベルを付けることを奨励する。 0.63
To side-step the computationally infeasible closed form solution, we use the conjugate gradient approach to solve the linear system (I − γW) F = Y , where γ(1 + µ) = 1. 計算不能な閉形式解を横に進めるために、共役勾配法を用いて線形系 (I − γW) F = Y を解き、そこで γ(1 + μ) = 1 となる。 0.84
Using F the pseudo-labels ˆyi are given by F を用いて、擬ラベルの yyi は与えられる。 0.51
ˆyi = arg max syi = arg max 0.56
j Fij. (6) j Fij! (6) 0.80
A common problem in label propogation is that the psuedolabels produced by the graph may be unbalanced over the classes and Iscen et al [33] attempted to weight the optimisation problem to avoid this possibility. ラベルのプロポーゲーションにおける一般的な問題は、グラフが生成するpsuedolabelsがクラスに対して不均衡である可能性があり、Iscen et al [33] はこの可能性を避けるために最適化問題を重み付けしようとしたことである。 0.68
We found that the weighting approach of Iscen et al actually made the performance of the model worse than leaving the predictions as is. We found that the weighting approach of Iscen et al actually made the performance of the model than leave the predictions as。 0.71
An alternate approach to counter class in-balances is distribution alignment [14], which enforces the distribution of the pseudolabel predictions to match some given prior distribution. 逆クラスインバランスに対する別のアプローチは、与えられた事前分布にマッチするように擬似ラベル予測の分布を強制する分散アライメント[14]である。 0.85
The 0.31
英語(論文から抽出)日本語訳スコア
Algorithm 1 Smooth Distribution Alignment 1: Input: Pseudo-label Prediction F ∈ Rn×C, Prior Distribution D ∈ RC, labelled and unlabelled indexes L = {li}nl and U = {ui}nu 2: Output: Adjusted Pseudo-label Prediction F ∈ Rn×C 3: for ti = 1, ti++, while ti < T do 4: DU ∈ RC ← Initialise with zeros アルゴリズム 1 Smooth Distribution Alignment 1: Input: Pseudo-label Prediction F ∈ Rn×C, Prior Distribution D ∈ RC, labeled and unlabelled indexs L = {li}nl and U = {ui}nu 2: Output: Adjusted Pseudo-label Prediction F ∈ Rn×C 3: for ti = 1, ti++, while ti < T do 4: DU ∈ RC ? 0.83
i=1 and max iteration T i=1 と max iteration T 0.87
i=1 Get the pseudo-label distribution: for ui ∈ U do i=1 擬似ラベル分布を得る: ui ∈ u do 0.65
DU [arg maxj F [ui]] += 1 nu DU[arg maxj F [ui]] += 1 nu 0.84
5: 6: 7: 8: R = D/Du 5: 6: 7: 8: r = d/du 0.92
end for Clip values for smooth deformation: 終止符 滑らかな変形のためのクリップ値: 0.66
9: R[R > 1.01] = 1.01 and R[R < 0.99] = 0.99 # 9: R[R > 1.01] = 1.01, R[R < 0.99] = 0.99 # 0.84
Deform the current predictions: for ci = 1, ci++, while ci < C do 現在の予測をデフォームする: ci = 1, ci++ に対して ci < C は 0.78
F [U, ci] ∗= R[ci] F[U, ci] ∗ = R[ci] 0.90
end for Row normalise F to give valid distributions. end for row normalise f は有効な分布を与える。 0.83
10: 11: 12: 13: 14: end for 10:11:12:13:14:終了 0.55
implementation of this idea by ReMixMatch focused on applying this idea to the network predictions and wasn’t optimal for a graph based framework. ReMixMatchによるこのアイデアの実装は、このアイデアをネットワーク予測に適用することに重点を置いており、グラフベースのフレームワークには最適ではなかった。 0.70
Instead we propose a novel smoother version of distribution alignment which can be applied during or just after the conjugate gradient approach. 代わりに、共役勾配のアプローチ中または直後に適用できる分布アライメントの新しいスムーズなバージョンを提案する。 0.74
We give a full algorithm for this in Algorithm 1. アルゴリズム1では、これを完全なアルゴリズムで表現する。 0.72
The algorithm is an iterative approach which smoothly deforms the pseudo-label predictions F by the ratio R between the prior distribution D and the pseudo-label distribution of the unlabelled points DU . このアルゴリズムは、先行分布Dと未競合点DUの擬似ラベル分布との比Rで擬似ラベル予測Fを円滑に変形させる反復的アプローチである。 0.77
Thereby promoting the prediction of underrepresented classes and vice versa. これにより、未表現クラスの予測とその逆の予測が促進される。 0.51
To ensure the deformation is smooth we clip the range of R values to be close to one. 変形が滑らかであることを保証するために、R値の範囲を1に近づける。
訳抜け防止モード: 変形が滑らかであることを保証する 我々はR値の範囲を to be close to one―be close to one.
0.70
We show in the experimental section that this approach improves the performance of the model. 実験では,本手法がモデルの性能を向上させることを示す。 0.80
C. Semi-Supervised Loss In the deep semi-supervising setting, particularly in the current SOTA [12] [19], several works seek to minimise a semisupervised loss ˆLssl composed of two or more terms, one each for the labelled and unlabelled data points and potentially others covering entropy minimisation etc., which has the following form: C.半監督損失 深層半監督設定、特に現在のSOTA[12][19]において、いくつかの研究は、2つ以上の項からなる半教師付き損失を最小化しようと試みている。
訳抜け防止モード: C.半監督損失 深部半監督設定, 特に現在のSOTA [12 ] [19 ]において いくつかの著作は、2つ以上の用語からなる半教師付き損失 >Lssl を最小化しようとする。 1つはラベル付きデータポイント、もう1つはエントロピーの最小化などをカバーする。 以下の形があります
0.59
labelled loss unlabelled loss ラベル付き損失 unlabelled~ 0.65
other terms ˆLssl = 言い換えれば ~Lssl = 0.66
1 nl ls(f (x), y) + η 1nl ls(f(x), y) + η 0.77
1 nu ls(f (x), ˆy) + ....., 1 nu ls(f(x), sy) + .... 0.85
(7) where η is a balancing parameter. (7) ここでηはバランスパラメータである。 0.80
For our approach we wanted to strip away as much complexity from the loss function as possible in an effort to see what elements are required for good performance. 私たちのアプローチでは、優れたパフォーマンスのためにどの要素が必要なのかを確認するために、できるだけ多くの複雑さを損失関数から取り除きたかったのです。 0.70
We move away from using a composite loss and instead only use the standard supervised loss which has worked so well in supervised image classification. 我々は複合的損失から脱却し、代わりに教師付き画像分類においてうまく機能した標準的な教師付き損失のみを使用する。 0.63
To include our unlabelled data we use composite batches of size b which are made up of bl labelled samples and bu unlabelled 無ラベルデータを含めるために、blラベル付きサンプルとbuラベル付きサンプルからなるbサイズの複合バッチを使用します。 0.66
nl(cid:88) nl(cid:88) 0.84
i=1 nu(cid:88) i=1 nu(cid:88) 0.71
i=1 samples to which we have assigned a pseudo-label ˆy. i=1 サンプルには疑似ラベルが割り当てられています。 0.65
Our semi-supervised loss, Lssl, is given by: 我々の半監督的損失 Lssl は以下の通りである。 0.61
b(cid:88) i=1 b(cid:88) i=1 0.71
Lssl = 1 b ls(f (xi), yi). Lssl = 1b ls(f(xi), yi) である。 0.81
(8) 4 Note that in (8) yi may be a ground truth label or a pseudolabels. (8) 4 注意: (8) yi は、基礎的な真理ラベルまたは擬似ラベルである。 0.79
What is remarkable about this loss is its simplicity. この損失で注目すべきは、単純さだ。 0.61
There is no confidence thresholding of the pseudo-labels, additional weighting parameters, no consistency based terms or other regularisations. 疑似ラベルの信頼度閾値、追加の重み付けパラメータ、一貫性に基づく条件、その他の規則化はない。 0.61
Instead we rely upon the strength of the combination of an a energy based graphical approach to pseudolabels estimation and the clever use of strong augmentation to increase generalisation. その代わり、擬似ラベル推定に対するエネルギーベースのグラフィカルなアプローチと、一般化を促進するために強増強を巧みに利用することの組み合わせの強みに依存しています。
訳抜け防止モード: 代わりに、擬ラベル推定に対するエネルギーベースのグラフィカルアプローチの組み合わせの強さに依存する。 一般化を促進するために 強力な増強の巧妙な利用
0.76
D. Training the model D.モデルのトレーニング 0.94
For initialisation purposes, we quickly extract some baseline knowledge from the dataset by minimising a supervised loss Lsup, for one hundred passes through Zl. 初期化目的のために、Zlを100回通過する制御損失Lsupを最小化することにより、データセットからベースライン知識を迅速に抽出する。 0.74
This supervised loss reads: この教師付き損失読みは: 0.65
b(cid:88) i=1 b(cid:88) i=1 0.71
Lsup = 1 b ls(f (xi), yi), Lsup = 1b ls(f(xi), yi) 0.76
(9) where b is the batch size and ls is the cross entropy loss. (9) bはバッチサイズ、lsはクロスエントロピー損失である。 0.70
We emphasis that (9) uses only the tiny labelled set Zl, and is performed once before the main semi-supervised optimisation. 9) は小さなラベル付き集合 Zl のみを使用し、主半教師付き最適化の前に一度実行されることを強調する。 0.60
We then begin our main learning loop which alternates between updating the pseudo-label predictions and minimising the semisupervised loss Lssl for one epoch, where we define one epoch to be one pass through the unlabelled data Zu. 次に、擬似ラベル予測の更新と半教師付き損失Lsslの最小化を交互に行うメインラーニングループを開始し、1エポックを1つのエポックを非ラベルデータZuを通る1つのパスと定義する。 0.57
This cycle then runs for a total of S optimisation steps and the fully trained model is then tested on the relevant testing set. このサイクルはSの最適化ステップ全体で実行され、完全にトレーニングされたモデルは関連するテストセットでテストされる。 0.73
Note that we do use Mixup [22] on both Lsup and Lssl with a beta distribution parameters α. ベータ分布パラメータ α で Lsup と Lssl の両方で Mixup [22] を使っていることに注意。 0.81
In Algorithm 2, we give an overview of training our model for S optimisation steps. アルゴリズム2では、Sの最適化ステップに対するモデルのトレーニングについて概説する。 0.78
E. Multi-Sampling Augmentation E.マルチサンプリング強化 0.66
Since the work of [13], several approaches have implemented the use of strong augmentations [12], [14], [18] to the problem of semi-supervised learning, with each work having a different way of including augmentation to their framework. 13] の作業以降, 半教師あり学習の問題に対して, 強強化[12], [14], [18] を用いたアプローチがいくつか実施されている。
訳抜け防止モード: 13 ] の作業以来、いくつかのアプローチが強化 [12 ] の使用を実装している。 [14 ] [18 ] 半教師あり学習の問題 それぞれの作業には、それぞれのフレームワークへの拡張を含む、別の方法があります。
0.76
Very recent works [14], [18] have begun using multiple augmented versions of the same unlabelled image. 非常に最近の作品[14], [18]は、同じラベルのない画像を複数の拡張バージョンで使用し始めた。 0.73
As yet there is no motivation for why this multiple sampling idea is preferable to alternatives such as larger batch sizes or running the code for more steps. とはいえ、この多重サンプリングのアイデアが、より大きなバッチサイズやより多くのステップでコードを実行するといった代替案よりも好まれる理由はない。 0.66
In this section we offer a theoretical motivation for why multi-sampling improves generalization along with a mathematically bound on its performance gain. この節では、マルチサンプリングが一般化を改善する理由と、その性能向上に数学的に結びついた理由を理論的に示します。 0.52
With this knowledge in mind we provide a simple method for including augmentation averaging into our SSL framework and demonstrate this approach increases accuracy and reduces the sensitivity of the model to data augmentation. この知識を念頭に置いて、SSLフレームワークに平均化を組み込む簡単な方法を提供し、このアプローチが正確性を高め、データ拡張に対するモデルの感度を低下させることを示す。 0.71
We view an augmentation strategy A as a set T of transformations t : X → X and denote it as T = {t1, t2, .., tδ}. 拡大戦略 A を変換 t : X → X の集合 T とみなし、T = {t1, t2, .., tδ} と表す。 0.72
The current standard approach, that the majority of existing 現在の標準的アプローチは,既存の大部分がそうである 0.75
英語(論文から抽出)日本語訳スコア
Algorithm 2 Training Scheme for LaplaceNet 1: Input: labelled data Zl = {xi, yi}nl アルゴリズム2 LaplaceNet 1のトレーニングスキーム:入力:ラベル付きデータZl = {xi, yi}nl 0.76
i=1, unlabelled data Zu = {xi}n i=nl+1, untrained model f with trainable parameters θ and embedding function z. Hyper-parameters: Number of optimisation steps S # Initialisation: i=1, unlabelled data Zu = {xi}n i=nl+1, untrained model f with trainable parameters θ and embedded function z. Hyper-parameters: number of optimization steps S # initialization: 0.91
optimise Lsup over Zl Zl 上で Lsup を最適化する 0.57
2: for i = 1 to 100 do 3: 4: end for 5: Set current step to zero si = 0 # Main Optimisation Process: 2: for i = 1 to 100 do 3: 4: end for 5: Set current step to zero si = 0 # Main Optimisation Process: 0.85
i=1 Extract features: V = {z(xi)}n Construct Graph Matrix W Degree Normalisation W = D Propagate Information via Q(F ) Distributed Alignment on F ˆyi = arg max Fi ∀ nl + 1 ≤ i ≤ n for i = 1 to (cid:98) nu BL = {xi, yi}bl Composite Batch B = BL ∪ Bu Optimise Lssl , si + + i=1 V = {z(xi)}n Construct Graph Matrix W Degree Normalisation W = D Propagate Information via Q(F ) Distributed Alignment on F syi = arg max Fi > nl + 1 ≤ i ≤ n for i = 1 to (cid:98) nu BL = {xi, yi}bl Composite Batch B = BL > Butimise Lssl , si + 0.67
6: while si < S do 7: 8: 9: 10: 11: 12: 13: 14: 15: 16: end for 17: 18: end while 6: while si < S do 7: 8: 9: 10: 11: 12: 13: 14: 15: 16: end for 17: 18: end while 0.85
bu −1 2 W D 武 −1 2 W D 0.69
−1 2 (cid:99) do i=1 ⊂ Zl , Bu = {xi, ˆyi}bu −1 2 (cid:99) do i=1 s zl , bu = {xi, syi}bu 0.89
i=1 ⊂ Zu techniques follow, is to simply sample t ∼ T once for each data point and compute some augmented loss LAug: i=1 > Zu 次に示すテクニックは、各データポイントに対して1回だけ t > T をサンプリングし、拡張された損失 LAug を計算することである。
訳抜け防止モード: i=1 > Zu 技術は 各データポイントに対して1回だけ t > T をサンプリングし、拡張損失 LAug を計算する。
0.69
LAug = 1 n n(cid:88) LAug = 1n n(cid:88) 0.81
i=1 ls(f (t(xi)), yi). i=1 ls(f(t(xi)), yi) である。 0.68
(10) However, we argue that such a simple implementation, might not extract the full information present in the augmentation. (10) しかし、このような単純な実装は、拡張時に存在する全情報を抽出しないかもしれないと論じる。 0.70
If we want to encourage our model output to be more resistant to data augmentations from T , and as a result produce a more generalisable model, we need to perform a multi-sample approach. モデルアウトプットを t からのデータ拡張に対してより耐性を持たせたい場合、その結果、より一般化可能なモデルを生成するためには、マルチサンプルアプローチを行う必要があります。 0.77
To justify this, we consider the following loss LT : これを正当化するために、次の損失 LT を考える。 0.68
n(cid:88) i=1 n(cid:88) i=1 0.71
LT = 1 n Et∼T [l(f (t(xi)), y)], LT = 1n t>T [l(f(t(xi)), y)] 0.70
(11) 5 (cid:12)(cid:12)(cid :12)(cid:12)(cid:12) (cid:12) >   (11) 5 (cid:12)(cid:12)(cid :12)(cid:12)(cid:12) (cid:12) > である。 0.80
(cid:12)(cid:12)(cid :12)(cid:12)(cid:12) (cid:12) 1 (cid:12)(cid:12)(cid :12)(cid:12)(cid:12) (cid:12) 1 0.74
na na(cid:88) いや na(cid:88) 0.73
j=1 P We can rewrite (12) in context of the previously defined augmentation loss where we replace Z1, .., , Zna with na samples from T : f (t1(x)), f (t2(x)), .., f (tna (x)) j=1 P 前述した拡張損失の文脈で (12) を書き換えることができ、t : f (t1(x)), f (t2(x)), f (tna (x)) のnaサンプルを z1, . , zna に置き換える。
訳抜け防止モード: j=1 P Z1 を置き換えた前に定義された拡張損失の文脈で (12 ) を書き直すことができる。 T : f ( t1(x ) ) の Na サンプルを持つ Zna である。 f ( t2(x ) ) , . , f ( tna ( x ) )
0.74
l(f (t(xi)), yi) − Et∼T [l(f (t(xi)), yi)] l(f(t(xi)), yi) − Et\T[l(f(t(xi)), yi)] 0.73
≤ 2exp(−2na2/b2). ≤ 2exp(−2na)2/b2)。 0.50
(13) As we increase na, we converge in probability to the desired loss Et∼T [l(f (t(xi)), y)] for each data point. (13) na を増加させると,各データ点に対する所望の損失 (et) [l(f(t(xi)), y)] に確率収束する。 0.75
Subsequently, we should optimise to a lower of LT meaning that the model output will fluctuate less over the augmentation set T for the used training data, and in the process make our model more generalisable. その後、使用中のトレーニングデータに対する拡張セットtよりもモデルの出力が変動しにくくなるというltの低さに最適化し、その過程でモデルをより一般化するべきです。 0.75
Furthermore, we can see that the probability is bounded by an exponent whose power is ∝ −na. さらに、確率は、パワーが > −na である指数によって有界であることが分かる。 0.73
Therefore, as we increase na the rate of decrease for the bound also decreases, maxing the first few samples far more important than later ones. したがって,Naの増加に伴い,境界値の減少率も減少し,最初の数試料はその後のものよりもはるかに重要となる。 0.74
This result explains prior behaviours reported but not reasoned in past papers such as [14]. この結果は[14]のような過去の論文で報告されているが推論されていない以前の行動を説明する。 0.54
When using a na sample the computational complexity increases as O(na) but as there should be dimishing returns for increasing na it should only be necessary to use na values slightly above one. naサンプルを使用する場合、計算複雑性は O(na) として増加するが、Na を増加させるためにダイミッシングリターンがある必要があるため、Na を少し上まで使う必要がある。 0.67
As we have shown that a multi-sample approach should offer generic performance increases for suitable T we change (8) and (9) to a multi-sample version. 示すように、マルチサンプルアプローチは、(8)と(9)をマルチサンプルバージョンに変更する適切なTに対して、汎用的なパフォーマンス向上を提供するべきである。
訳抜け防止モード: 示すように、マルチサンプルアプローチは、適切なTに対して汎用的なパフォーマンス向上を提供するべきである。 and (9 ) to a multi- sample version.
0.78
For (8) this becomes Lssl = 8 の場合、これは Lssl = 0.70
1 b 1 na b(cid:88) 1b 1名 b(cid:88) 0.76
na(cid:88) na(cid:88) 0.84
i=1 j=1 ls(f (tj(xi)), yi). i=1 j=1 ls(f(tj(xi)), yi) である。 0.65
(14) where the index j represents repeated samples from T . (14) ここで、インデックス j は T からの繰り返しのサンプルを表す。 0.75
In the ablation section, we perform a thorough experimental evaluation to test the theoretical predictions we have made in this section. アブレーションセクションでは,本セクションで行った理論予測をテストするために,徹底的な実験的評価を行う。 0.82
Augmentation Implementation Similarly to other approaches we use two different augmentation strategies: one for labelled data and another for unlabelled data. 拡張実装 他のアプローチと同様に、ラベル付きデータには1つ、ラベル付きデータには別の2つの拡張戦略を使用します。 0.55
However, we apply strong augmentations to both labelled and unlabelled data, unlike past approaches [12] which reported divergences using this approach. しかし, ラベル付きデータと非ラベル付きデータの両方に強い拡張を加え, 従来のアプローチ [12] と異なり, このアプローチによる相違を報告している。 0.65
For strong augmentations we make use of RandAugment [16], and CutOut augmentation [17]. 強い増強のために、我々はrandaugment [16] と cutout additionation [17] を使用する。 0.68
For completeness we list the full data transformations for labelled and unlabeld data in Table I and the implementation of RandAugment and CutOut in the supplementary material. 完全性については、テーブルIにおけるラベル付きおよびラベルなしデータの完全なデータ変換と補足資料におけるRandAugmentとCutOutの実装をリストアップします。 0.66
TABLE I: The augmentation transformations used for labelled and unlabelled data. TABLE I:ラベル付きおよび非ラベル付きデータに使用される拡張変換。 0.72
For normalisation we use the official channel 正規化には公式チャンネルを使い 0.70
labelled Transform Unlabelled Transform ラベル付き変換 Unlabelled Transform 0.73
Random Horizontal Flip Random Crop and Pad ランダム水平フリップ・ランダム・クロップとパッド 0.69
RandAugment Sample RandAugment サンプル 0.79
- RandAugment Sample RandAugment Sample - RandAugmentサンプルRandAugmentサンプル 0.82
CutOut Normalisation CutOut 正規化 0.73
which measures the risk of the model over the entire augmentation set. 拡張セット全体に対するモデルのリスクを測定します。 0.63
If we want to minimise (11) then we must minimise the expected augmentation error over the entire transformation set for each data point Et∼T [l(f (t(xi)), y)]. (11) を最小化したい場合、各データ点 Et\T [l(f(t(xi)), y)] の変換集合全体に対して期待される増大誤差を最小化しなければならない。 0.81
To see how a multi-sample approach helps us do just that we use Hoeffding’s inequality which provides us with a probability bound that the sum of bounded independent random variables deviates from its expected value by more than a certain amount. マルチサンプルアプローチがいかに役に立つかを見るために、我々はhoeffdingの不等式を使い、有界独立確率変数の和が、その期待値から一定の量以上逸脱する確率を与える。 0.67
Let Z1, .., , Zna be a sequence of i.i.d random variables. Z1, .., , Zna を i.i.d 変数の列とする。 0.86
Assume that E[Z] = µ and P[a ≤ Zi ≤ b] = 1 for every i. E[Z] = μ と P[a ≤ Zi ≤ b] = 1 をすべての i に対して仮定する。 0.94
Then, by Hoeffding’s inequality, for any  > 0, one has: すると、ホーフディングの不等式によって、任意の > 0 に対して、 0.58
(cid:34)(cid:12)(cid :12)(cid:12)(cid:12) (cid:12) 1 (cid:34)(cid:12)(cid :12)(cid:12)(cid:12) 1 0.87
na na(cid:88) いや na(cid:88) 0.73
i=1 P (cid:12)(cid:12)(cid :12)(cid:12)(cid:12) >  (cid:35) i=1 P (cid:12)(cid:12)(cid :12)(cid:12) > (cid:35) 0.78
Zi − µ ≤ 2exp(−2m2/(b − a)2). Zi − μ ≤ 2exp(−2m)2/(b − a)2)。 0.78
(12) In this section we detail the implementation of LaplaceNet, including hyper parameter values and training schemes, and (12) 本稿では、ハイパーパラメータ値とトレーニングスキームを含むLaplaceNetの実装について詳述する。 0.78
IV. IMPLEMENTATION AND EVALUATION IV。 実施と評価 0.66
英語(論文から抽出)日本語訳スコア
TABLE II: List of hyperparameters used in the paper across the CIFAR-10/100 and Mini-Imagenet datasets. TABLE II: CIFAR-10/100とMini-Imagenetデータセットにまたがる論文で使用されるハイパーパラメータのリスト。 0.68
PARAMETER CIFAR-10 パラメータ CIFAR-10 0.48
CIFAR-100 Mini-ImageNet CIFAR-100ミニイメージネット 0.45
α µ k S b bl lr nm ω na α μ k s b bl lr nm ω na 0.84
1.0 0.01 50 1.0 0.01 50 0.59
300 48 0.03 0.9 300 48 0.03 0.9 0.65
3 0.5 0.01 50 3 0.5 0.01 50 0.72
100 50 0.03 0.9 100 50 0.03 0.9 0.65
3 2.5 × 105 3 2.5 × 105 0.82
2.5 × 105 2.5 × 105 2.5 × 105 2.5 × 105 0.78
5 × 10−4 5 × 10−4 5 × 10−4 5 × 10−4 0.78
5 × 10−4 0.5 0.01 50 5 × 10−4 0.5 0.01 50 0.69
100 50 0.1 0.9 100 50 0.1 0.9 0.65
3 the evaluation protocol we used to measure our model’s performance and compare against the current state-of-the-art. 3 私たちが使用した評価プロトコルは、モデルのパフォーマンスを測定し、現在の最先端と比較します。
訳抜け防止モード: 3 モデルの性能測定に使用した評価プロトコル そして、現在の----アートの状況と比較します。
0.80
A. Dataset Description a. データセット記述 0.67
We use three image classification datasets: CIFAR-10 and CIFAR-100 [39] and Mini-ImageNet [40]. CIFAR-10とCIFAR-100[39]とMini-ImageNet[40]の3つの画像分類データセットを使用する。 0.65
Following standard protocol, we evaluate our method’s performance on differing amounts of labelled data for each datasets. 標準プロトコルに従って,各データセットのラベル付きデータの異なる量に対して,提案手法の性能を評価する。 0.79
(a) CIFAR-10,CIFAR-100 Containing 50k training images and 10k test images, these datasets contain 10 and 100 classes respectively. (a)50kのトレーニング画像と10kのテスト画像を含むcifar-10,cifar-100はそれぞれ10と100のクラスを含む。 0.70
The image size is small at 32 by 32 pixels. 画像サイズは32×32ピクセルで小さい。 0.59
We perform experiments using 500,1k,2k and 4k labels for CIFAR10 and 4k and 10k labels for CIFAR-100. CIFAR10では500,1k,2k,4kラベル,CIFAR-100では4kラベル,10kラベルを用いて実験を行った。 0.49
(b) Mini-ImageNet A subset of the popular ImageNet dataset, containing 100 classes each with 500 training and 100 test images. (b) Mini-ImageNet 人気のあるImageNetデータセットのサブセットで、それぞれ500のトレーニングと100のテストイメージを備えた100のクラスを含む。 0.75
The resolution of the images is 84× 84 pixels and represents a much harder challenge than the CIFAR-10/CIFAR100 datasets. 画像の解像度は84×84ピクセルであり、CIFAR-10/CIFAR100データセットよりもはるかに難しい。 0.70
We use 4k and 10k labels in our experiment. 実験では4kと10kのラベルを使用します。 0.68
B. Implementation Details Architectures For a fair comparison to older works we use the ”13-CNN” architecture [32] and for comparison to recent state-of-the-art works we use a WideResNet (WRN) 28-2 and a WRN-28-8 [41] architecture. B。 実施内容 アーキテクチャ 13-CNN” アーキテクチャ [32] と最近の最先端の作業と比較して、私たちは WideResNet (WRN) 28-2 と WRN-28-8 [41] アーキテクチャを使っています。 0.63
We additional use a ResNet-18 [5] for Mini-Imagenet. ミニイメージネットにはResNet-18[5]も使用しています。 0.56
For all models we set the drop-out rate to 0. すべてのモデルでドロップアウトレートを0に設定しました。 0.72
For the ”13-CNN” we add a l2-normalisation layer to the embedding function. 13-CNN”には、埋め込み関数にl2正規化層を追加します。 0.63
Infrastructure For all experiments, we use 1-2 Nvidia P100 GPUs. インフラストラクチャ すべての実験では、1-2 Nvidia P100 GPUを使用します。 0.68
Training Details: We train with stochastic gradient descent (SGD) using Nesterov momentum nm with value 0.9 and weight decay ω with value 0.0005. トレーニング詳細:ネステロフ運動量 nm の値 0.9 とウェイト崩壊 ω の値 0.0005 を用いて確率勾配降下 (SGD) で訓練する。 0.77
We use an initial learning rate of lr = 0.3 and use S = 250000 optimisation steps in total. 初期学習レートは lr = 0.3 であり、合計 S = 250000 の最適化ステップを使用する。 0.82
We utilise a cosine learning rate decay such that the learning rate decays to zero after 255000 steps. 学習速度が255,000ステップ後にゼロになるように,コサイン学習率減衰を利用する。 0.68
We do not make use of any EM A model averaging. emをモデル平均化として使用しません。 0.63
Parameters We list the parameter values used in Table II. パラメータ 表IIで使用されるパラメータ値をリスト化する。 0.81
Most parameter values are common parameter settings from the deep learning field and are not fine-tuned to our application. ほとんどのパラメータ値は、ディープラーニングフィールドからの共通パラメータ設定であり、アプリケーションに微調整されていない。 0.69
Being able to work with reasonably generic parameters is well suitable to the task of SSL where using fine-tuning over validation sets is often impossible in practical applications. 合理的にジェネリックなパラメータで動作できることは、検証セットを微調整することで現実的なアプリケーションでは不可能なSSLのタスクに適しています。 0.72
C. Evaluation Protocol C. 評価プロトコル 0.88
We evaluate the performance of LaplaceNet on the CIFAR10/CIFAR-100 and Mini-Imagenet datasets and compare against CIFAR10/CIFAR-100およびMini-ImagenetデータセットにおけるLaplaceNetの性能を評価し,比較した。 0.61
6 the current SOTA models for semi-supervised learning. 6 半教師付き学習のための現在のSOTAモデル。 0.70
For ease of comparison, we split the current SOTA into two groups. 比較を容易にするため、現在のSOTAを2つのグループに分けた。 0.59
1) Methods which used the 13-CNN architecture [32]: ΠModel [30], Mean Teacher(MT) [32], Virtual Adversarial Training (VAT) [31], Label Propogation for Deep SemiSupervised Learning (LP) [33], Smooth Neighbors on Teacher Graphs (SNTG) [42], Stochastic Weight Averaging(SWA) [43], Interpolation Consistency Training (ICT) [21], Dual Student [44], Transductive Semi-Supervised Deep Learning(TSSDL) [35], Density-Aware Graphs (DAG) [38] and Pseudo-Label Mixup [20]. 1) 13-cnnアーキテクチャ [32]: πmodel [30], mean teacher(mt) [32], virtual adversarial training (vat) [31], label propogation for deep semisupervised learning (lp) [33], smooth neighbors on teacher graphs (sntg) [42], stochastic weight averaging (swa) [43], interpolation consistency training (ict) [21], dual student [44], transductive semi-supervised deep learning (tsdl) [35], density-aware graphs (dag) [38], pseudo-label mixup [20]。 0.71
Unfortunately, due to the natural progress in the field, each paper has different implementation choices which are not standardised. 残念ながら、この分野の自然な進歩により、各論文には標準化されていない異なる実装選択がある。 0.66
Despite this, comparisons to this group are still useful as a barometer for model performance. これにもかかわらず、この群との比較はモデル性能のバロメーターとして有用である。 0.63
2) Recent methods which used the WRN [41] (MixMatch [19], FixMatch (RandAugment variant) [12] and UDA [13]). 2) WRN [41] (MixMatch [19], FixMatch (RandAugment variant) [12], UDA [13]) を使用した最近の方法。 0.74
To guarantee a fair comparison to these techniques, and as suggested by [45], we used a shared code-base for UDA and FixMatch which reimplemented the original baselines. これらのテクニックと公正な比較を保証するため、[45] が提案したように、私たちは UDA と FixMatch の共有コードベースを使用して、元のベースラインを再実装しました。 0.60
Additionally we then ensured UDA and FixMatch used the same model code, the same optimiser with the same parameters, the same number of optimisation steps and the same RandAugment implementation as our approach. さらに、UDAとFixMatchが同じモデルコード、同じパラメータを持つ同じオプティマイザ、同じ最適化ステップの数、そして我々のアプローチと同じRandAugment実装を使っていることを保証しました。 0.72
Evaluation Protocol For each dataset we use the official train/test partition and use the Top-1 error rate as the evaluation metric. 各データセットの評価プロトコル 公式のトレイン/テストパーティションを使用して、評価メトリクスとしてtop-1エラー率を使用します。 0.67
For each result we give the mean and standard deviation over five label splits. それぞれの結果に対して、5つのラベル分割の平均と標準偏差を与えます。 0.69
V. RESULTS AND DISCUSSION In this section, we discuss the experiments we performed to evaluate and compare our model against the state-of-the-art (SOTA). V.回答と告知 本稿では,我々のモデルと最先端技術(SOTA)を比較するために行った実験について述べる。 0.71
Additionally, we detail several ablation experiments which explore the benefits of graph-based pseudo-labels, the effect of augmentation averaging and evaluating the importance of individual components. さらに,グラフに基づく擬似ラベルの利点,加算平均化の効果,個々の成分の重要性について検討するいくつかのアブレーション実験について詳述する。 0.70
A. Comparison to SOTA A。 SOTAとの比較 0.80
Firstly, we test our model on the less complex CIFAR-10 and CIFAR-100 datasets. まず、より複雑でないCIFAR-10とCIFAR-100データセットでモデルを検証した。 0.66
In Table III, we compare LaplaceNet against the first group of methods using the 13-CNN network. 表IIIでは,13-CNNネットワークを用いた最初の手法群とLaplaceNetを比較した。 0.75
Our approach, by some margin, produces the best results on CIFAR-10 and CIFAR-100 and represents a new SOTA for pseudo-labels methods. 提案手法は, CIFAR-10 と CIFAR-100 において最適であり, 擬似ラベル法のための新しい SOTA を示す。 0.82
We obtain a lower error rate using 500 labels than the recent work of Arazo et al [20] obtain using 4000 labels. 我々は,Arazoらによる最近の研究よりも500ラベルを用いた誤り率を低くし,[20]は4000ラベルを用いた。 0.75
For CIFAR-100 LaplaceNet is a full 6% more accurate than any other approach and the first method to achieve an error rate below 30% on CIFAR-100 using 10k labels. CIFAR-100では、LaplaceNetは他のどのアプローチよりも6%正確であり、10kラベルを使用してCIFAR-100で30%未満のエラー率を達成する最初の方法である。
訳抜け防止モード: CIFAR-100 LaplaceNetは他のどのアプローチよりも6%精度が高い 最初の方法は 10kラベルを用いてCIFAR-100で30%未満の誤差率を達成する。
0.87
In Table IV we compare against the second group of methods using the WRN-28-2 network. 表IVでは、WRN-28-2ネットワークを用いた第2の手法群と比較する。 0.68
LaplaceNet is again the best performing method, outperforming the recent works of UDA [13] and FixMatch [12]. LaplaceNetは再び最高のパフォーマンスの方法であり、UDA[13]とFixMatch[12]の最近の成果よりも優れています。 0.67
In particular we find a significant increase in performance on the more complex CIFAR-100 dataset and beat the other considered methods by more than 3% with 10k labels. 特に、より複雑なCIFAR-100データセットのパフォーマンスが大幅に向上し、10kラベルで他の検討されたメソッドを3%以上上回った。 0.75
英語(論文から抽出)日本語訳スコア
TABLE III: Top-1 error rate on the CIFAR-10/100 datasets for our method and other methods using the 13-CNN architecture. TABLE III: CIFAR-10/100データセット上のトップ1エラー率と13-CNNアーキテクチャを用いた他の手法について検討した。 0.65
We denote with † experiments we have ran. 実行した実験は、以下で示します。 0.52
7 DATASET METHOD 7 データセット方法 0.65
SUPERVISED BASELINE 教師付きベースライン 0.38
500 37.12 ± 0.89 500 37.12 ± 0.89 0.72
Π-Model MT† VAT MT-LP SNTG MT-fast-SWA MT-ICT Dual Student TSSDL† LP† DAG Pseudo-Label Mixup LaplaceNet † VAT MT-LP SNTG MT-fast-SWA MT-ICT Dual Students TSSDL LP LP LP DAG Pseudo-Label Mixup LaplaceNet 0.65
27.45 ± 2.64 24.02 ± 2.44 27.45 ± 2.64 24.02 ± 2.44 0.55
- - –– - 32.40 ± 1.80 9.30 ± 0.73 8.80 ± 0.45 5.68 ± 0.08 - - –– - 32.40 ± 1.80 9.30 ± 0.73 8.80 ± 0.45 5.68 ± 0.08 0.77
CIFAR-10 1000 CIFAR-10 1000 0.72
2000 4000 - 2000 4000 - 0.85
- - - 19.53 ± 0.12 - - - 19.53 ± 0.12 0.78
26.60 ± 0.22 CONSISTENCY BASED APPROACHES 21.55 ± 1.48 16.93 ± 0.70 18.41±0.52 15.58 ± 0.12 15.48 ± 0.78 14.17±0.38 PSEUDO-LABELLING APPROACHES 21.13 ± 1.17 22.02 ± 0.88 7.42 ± 0.41 6.85 ± 0.15 5.33 ± 0.02 26.60 ± 0.22 CONSISTENCY BASED APPROACHES 21.55 ± 1.48 16.93 ± 0.70 18.41±0.52 15.58 ± 0.12 15.48 ± 0.78 14.17±0.38 PSEUDO-LABELLING APPROACHES 21.13 ± 1.17 22.02 ± 0.88 7.42 ± 0.41 6.85 ± 0.15 5.33 ± 0.02 0.49
15.73 ± 0.31 13.22 ± 0.29 13.64±0.32 11.02 ± 0.12 9.26 ± 0.09 10.72±0.19 14.65 ± 0.33 15.66 ± 0.35 7.16 ± 0.38 4.99 ± 0.12 15.73 ± 0.31 13.22 ± 0.29 13.64±0.32 11.02 ± 0.12 9.26 ± 0.09 10.72±0.19 14.65 ± 0.33 15.66 ± 0.35 7.16 ± 0.38 4.99 ± 0.12 0.45
14.02 ± 0.10 12.36 ± 0.31 12.31 ± 0.20 11.36 ± 0.34 10.61 ± 0.28 9.89±0.34 9.05 ± 0.21 7.29 ± 0.02 8.89±0.09 10.90 ± 0.23 12.69 ± 0.29 6.13 ± 0.15 5.97 ± 0.15 4.64 ± 0.07 14.02 ± 0.10 12.36 ± 0.31 12.31 ± 0.20 11.36 ± 0.34 10.61 ± 0.28 9.89±0.34 9.05 ± 0.21 7.29 ± 0.02 8.89±0.09 10.90 ± 0.23 12.69 ± 0.29 6.13 ± 0.15 5.97 ± 0.15 4.64 ± 0.07 0.46
- CIFAR-100 - CIFAR-100 0.72
4000 53.10 ± 0.34 4000 53.10 ± 0.34 0.72
45.36 ± 0.49 43.73 ± 0.20 45.36 ± 0.49 43.73 ± 0.20 0.55
- - –– 10000 - - –– 10000 0.83
36.59 ± 0.47 39.19 ± 0.36 36.08 ± 0.51 35.92 ± 0.47 37.97±0.29 34.10 ± 0.31 32.77±0.24 36.59 ± 0.47 39.19 ± 0.36 36.08 ± 0.51 35.92 ± 0.47 37.97±0.29 34.10 ± 0.31 32.77±0.24 0.42
- - - 46.20 ± 0.76 37.38 ± 0.64 37.55 ± 1.09 31.64 ± 0.02 - - - 46.20 ± 0.76 37.38 ± 0.64 37.55 ± 1.09 31.64 ± 0.02 0.77
- 38.43 ± 1.88 32.50 ± 0.21 32.15 ± 0.50 26.60 ± 0.23 - 38.43 ± 1.88 32.50 ± 0.21 32.15 ± 0.50 26.60 ± 0.23 0.69
TABLE IV: Top-1 error rate for CIFAR-10/100. TABLE IV: CIFAR-10/100のTop-1エラー率。 0.68
All methods, except MixMatch, are tested using the same code-base and use the same model code, the same optimiser (SGD) with the same optimisation parameters, the same number of optimisation steps and the same RandAugment implementation. MixMatchを除くすべてのメソッドは、同じコードベースを使用してテストされ、同じモデルコード、同じ最適化パラメータを持つ同じオプティマイザ(SGD)、同じ最適化ステップの数、同じRandAugment実装を使用する。 0.79
We denote with † experiments we have ran. 実行した実験は、以下で示します。 0.52
DATASET METHOD MixMatch UDA † FixMatch(RA) † LaplaceNet † データセット方法 MixMatch UDA は FixMatch(RA) である。 0.52
500 9.65 ± 0.94 6.88 ± 0.74 5.92 ± 0.11 5.57 ± 0.60 500 9.65 ± 0.94 6.88 ± 0.74 5.92 ± 0.11 5.57 ± 0.60 0.69
CIFAR-10 2000 OTHER METHODS CIFAR-10 2000年 0.50
4000 SAME CODEBASE 4000 同じコードベース 0.66
7.03 ± 0.15 5.61 ± 0.16 5.42 ± 0.11 4.71 ± 0.05 7.03 ± 0.15 5.61 ± 0.16 5.42 ± 0.11 4.71 ± 0.05 0.53
6.34 ± 0.06 5.40 ± 0.19 5.30 ± 0.08 4.35 ± 0.10 6.34 ± 0.06 5.40 ± 0.19 5.30 ± 0.08 4.35 ± 0.10 0.53
CIFAR-100 4000 CIFAR-100 4000 0.72
10000 — — 36.19 ± 0.39 34.87 ± 0.17 33.16 ± 0.22 10000 — — 36.19 ± 0.39 34.87 ± 0.17 33.16 ± 0.22 0.77
31.49 ± 0.19 30.89 ± 0.18 27.49 ± 0.22 31.49 ± 0.19 30.89 ± 0.18 27.49 ± 0.22 0.53
TABLE V: Top-1 error rate for Mini-ImageNet. TABLE V: Mini-ImageNetのTop-1エラー率。 0.76
We compare against methods which have used an identical ResNet-18 architecture. 同一のresnet-18アーキテクチャを用いた手法と比較する。 0.72
TABLE VI: The effect on Top-1 error rate by scaling up the neural network in size from a WRN-28-2 to a WRN-28-8 on the CIFAR-10/100 datasets. TABLE VI: CIFAR-10/100データセット上で、ニューラルネットワークをWRN-28-2からWRN-28-8にスケールアップすることで、トップ1エラー率に与える影響。 0.71
METHOD Supervised Baseline 方法 監督ベースライン 0.56
MT MT-LP Consistency Regularisation Methods MT MT-LP 一貫性規則化法 0.66
4000 66.04 ± 0.32 72.51 ± 0.22 72.78 ± 0.15 Pseudo-Label Methods 70.29 ± 0.81 56.49 ± 0.51 46.32 ± 0.27 4000 66.04 ± 0.32 72.51 ± 0.22 72.78 ± 0.15 Pseudo-Label Methods 70.29 ± 0.81 56.49 ± 0.51 46.32 ± 0.27 0.69
10000 52.89 ± 0.33 57.55 ± 1.11 57.35 ± 1.66 57.58 ± 1.47 46.08 ± 0.11 39.43 ± 0.09 10000 52.89 ± 0.33 57.55 ± 1.11 57.35 ± 1.66 57.58 ± 1.47 46.08 ± 0.11 39.43 ± 0.09 0.68
LP Pseudo-Label Mixup LaplaceNet LP擬似ラベル混合ラプラスネット 0.59
To test the performance of LaplaceNet on a more complex dataset, we evaluate our model on the Mini-ImageNet dataset, which is a subset of the well known ImageNet dataset and in Table V we compare our results against all others methods which have used this dataset. より複雑なデータセット上でLaplaceNetの性能をテストするために、よく知られたImageNetデータセットのサブセットであるMini-ImageNetデータセットでモデルを評価し、テーブルVでは、このデータセットを使用した他のすべてのメソッドと比較する。 0.82
Once again, we find our method performs very well, producing an error rate a 10% and 7% better than any other method on 4k and 10k labelled images respectively. 繰り返しになるが、この手法は非常によく機能し、4kと10kのラベル付き画像上の他のどの手法よりも10%と7%の誤差率が得られる。 0.70
Demonstrating our approach can be applied to complex problems in the field. このアプローチの実証は、この分野の複雑な問題に適用できる。 0.68
Additionally, we are more than 20% more accurate that the nearest graphical approach (LP). さらに、最も近いグラフィカルアプローチ(LP)よりも20%以上正確です。 0.60
To test the effect of increasing network size on our performance we also ran our model on CIFAR-10/100 using an WRN28-8(26 million parameters) architecture and and compared that to the WRN-28-2(1.6 million parameters) architecture in Table VI. ネットワークサイズの増加が性能に与える影響をテストするため、我々はWRN28-8(26万パラメータ)アーキテクチャを用いてCIFAR-10/100上でモデルを実行し、テーブルVIのWRN28-2(1.6万パラメータ)アーキテクチャと比較した。 0.75
Unsurprisingly, we achieved a large performance improvement using a WRN-28-8 on both CIFAR-10 and CIFAR-100, with an 2.87 error rate on CIFAR-10 using 4k CIFAR-10 と CIFAR-100 の WRN-28-8 を用いて,4k を用いた CIFAR-10 の2.87 エラー率で大幅な性能向上を実現した。 0.68
DATASET MODEL WRN-28-2 WRN-28-8 データセットモデル WRN-28-2 WRN-28-8 0.43
CIFAR-10 500 CIFAR-10 500 0.72
5.57 ± 0.60 3.81 ± 0.37 5.57 ± 0.60 3.81 ± 0.37 0.55
4000 4.35 ± 0.10 2.87 ± 0.18 4000 4.35 ± 0.10 2.87 ± 0.18 0.70
CIFAR-100 4000 CIFAR-100 4000 0.72
33.16 ± 0.22 26.61 ± 0.10 33.16 ± 0.22 26.61 ± 0.10 0.55
10000 27.49 ± 0.22 22.11 ± 0.23 10000 27.49 ± 0.22 22.11 ± 0.23 0.70
labels and an 22.11% error rate on CIFAR-100 using 10k labels. 10kラベルを使用したCIFAR-100のラベルと22.11%のエラー率。 0.63
B. Graph Based Pseudo-Labels B.グラフに基づく擬似ラベル 0.64
Many pseudo-label based techniques [12] [20] have produced state-of-the-art results using pseudo-labels generated directly by the network rather than using an energy based approach such as label propogation on a constructed graph, which is computationally more complex. 多くの擬似ラベルベース手法[12][20]は、計算が複雑である構築グラフ上のラベルプロポーテーションのようなエネルギーベースのアプローチを用いるのではなく、ネットワークによって直接生成される擬似ラベルを用いて、最先端の結果を生成する。 0.71
Therefore, in this section we examine whether there is any advantage in using a graph based approach? したがって、この節では、グラフベースのアプローチに利点があるかどうかを検討する。 0.72
To test the importance of graph based pseudo-labels, we created two variants of LaplaceNet, both without distribution alignment and with na = 1. グラフベースの擬似ラベルの重要性をテストするために、分布アライメントのないlaplacenetとna = 1の2つの変種を作成した。 0.71
1) The pseudo-labels are generated directly from the net- 1)擬似ラベルはネットから直接生成される。 0.79
2) The pseudo-labels are generated from the graph, as in 2)擬似ラベルは、例えばグラフから生成される。 0.74
work predictions: ˆyi = argmax f (xi) ∀ i > l Equation 6, ˆyi = argmaxj Fij ∀ i > l 作業予測: _yi = argmax f (xi) _i>l方程式 6, _yi = argmaxj fij _i>l 0.79
We then compared the Top-1 error rate of these two variants on the CIFAR-100 dataset, see Fig 1. 次に、CIFAR-100データセット上のこれらの2つの変種のトップ1エラー率を比較した。 0.69
The graph-variant greatly outperformed the direct prediction variant, emphasising the clear advantage that graphically produced pseudo-labels have. グラフ不変量は直接予測の変種を大きく上回り、グラフィカルに生成された擬似ラベルが持つ明確な利点を強調した。 0.63
What is contributing to this advantage? このメリットには何が貢献していますか? 0.54
As an energy-based エネルギー基盤として 0.71
英語(論文から抽出)日本語訳スコア
8 (a) 4k labels 8 (a)4kラベル 0.82
(b) 10k labels Fig. (b)10kラベル フィギュア。 0.63
1: Experimental comparison of the effect of using pseudo-labels produced in a graphical framework versus pseudo-labels generated by the neural network on the Top-1 error rate on the CIFAR-100 dataset ((a) 4k and (b) 10k labelled images) with the 13-CNN network. 1: CIFAR-100データセット((a)4kおよび(b)10kラベル付き画像)のTop-1エラーレートに対するニューラルネットワークが生成した擬似ラベルと13-CNNネットワークで生成した擬似ラベルとを比較検討した。 0.79
Using graphically produced pseudo-labels we achieve a much higher accuracy than using the network predictions. グラフィカルに生成された擬似ラベルを用いることで,ネットワーク予測よりも精度が向上する。 0.69
approach, propogation on the graph incorporates information on the global structure of the data, whilst the network is making a purely local decision at each point. アプローチでは、グラフ上のプロポーゲーションはデータのグローバル構造に関する情報を取り込み、一方、ネットワークは各点で純粋に局所的な決定をしている。 0.81
Arazo et al [20] showed that naive network based pseudo-label approach could not generate an accurate solution for the ”two moons” toy dataset, despite the fact that this problem has been solved by graphical methods for some time [25]. Arazoら[20]は,この問題をグラフィカルな手法で解き明かしたにも関わらず,ネットワークベースの擬似ラベルアプローチでは「2つの月」のおもちゃデータセットの正確な解が得られないことを示した[25]。 0.82
Thus demonstrating that purely local decisions are detrimental to accuracy when the global structure of data isn’t taken into account. したがって、データのグローバルな構造を考慮していない場合、純粋にローカルな決定は正確さに有害であることを示す。 0.74
C. Augmentation Averaging C. Augmentation Averaging 0.94
In this paper we justify a multiple augmentation approach to further improve semi-supervised models. 本稿では、半教師付きモデルをさらに改善するための多重拡張アプローチを正当化する。 0.63
In this section, we present the experimental verification of our theoretical predictions about augmentation averaging as well as comparing its effect to potential alternative techniques. 本稿では,拡張平均化に関する理論的予測を実験的に検証するとともに,その効果を潜在的代替技術と比較する。 0.86
To test the effect of augmentation averaging we ran our approach on the CIFAR100 dataset using the 13-CNN network for a range of values na = [1, 3, 5]. 拡張平均化の効果をテストするために、13-CNNネットワークを用いてCIFAR100データセット上で、Na = [1, 3, 5]の値の範囲でアプローチを実行しました。 0.68
Additionally we compared the changed caused by augmentation averaging to the more common approaches of scaling the batch size b and labelled batch size bl by [1, 3, 5] and scaling the number of optimisation steps S by [1, 3, 5] さらに,拡張平均化による変化を,バッチサイズbとラベル付きバッチサイズblを[1, 3, 5]でスケーリングし,最適化ステップsを[1, 3, 5]でスケーリングするという,より一般的なアプローチと比較した。 0.82
To quantify the effect of a given change we use two measures: the augmentation invariance of the classifier, which we define in this paper, and Top-1 error. 与えられた変化の効果を定量化するために、本論文で定義する分類器の強化不変性とtop-1誤差という2つの尺度を用いる。 0.77
Augmentation invariance measures the extent to which the classifier’s performance changes under data augmentation. 拡張不変性(augmentation invariance)は、データ拡張の下で分類器のパフォーマンスがどの程度変化するかを測定する。 0.55
Given an augmenation function u : X → X and a classifier fθ the augmentation invariance V with respect to a dataset Z made up of n point-label pairs Z = {xi, yi}n i=1 is given by 加法関数 u : X → X と分類器 fθ が与えられたとき、n 個の点ラベル対 Z = {xi, yi}n i=1 からなるデータセット Z に対する加法不変量 V が与えられる。 0.81
1arg max fθ(u(xi))=yi 1arg max fθ(u(xi))=yi 0.92
i=1 1arg max fθ(xi)=yi i=1 1arg max fθ(xi)=yi 0.72
, (15) (cid:80)n (cid:80)n , (15) (cid:80)n (cid:80)n 0.84
i=1 1 n VZ = i=1 1n VZ = 0.73
1 n model’s invariance, but we still only use a subset of the labelled data for training. 1n モデルの不変性はありますが、トレーニングにはラベル付きデータのサブセットのみを使用します。 0.72
TABLE VII: The effect of removing individual components from the baseline model on Top-1 error rate for CIFAR-100 on the 13-CNN network. TABLE VII: CIFAR-100の13-CNNネットワークにおけるTop-1エラーレートに対するベースラインモデルからの個々のコンポーネント除去の効果。 0.82
MODEL Baseline COMPONENT REMOVED RandAugment Distribution Alignment MixUp モデルベースライン成分除去ランドオーグメント分布アライメントミックスアップ 0.75
CIFAR-100 4k CIFAR-100 4k 0.69
32.41 ± 0.25 44.43 ± 0.66 33.26 ± 0.24 33.74 ± 0.26 32.41 ± 0.25 44.43 ± 0.66 33.26 ± 0.24 33.74 ± 0.26 0.53
10k 27.37 ± 0.20 34.75 ± 0.23 29.07 ± 0.07 28.02 ± 0.20 10k 27.37 ± 0.20 34.75 ± 0.23 29.07 ± 0.07 28.02 ± 0.20 0.66
In Fig 2 we present our findings. 図2では、この結果を示します。 0.64
We found that naively scaling the number of optimisation steps without changing the hyperparameters led to the model diverging as we spent too many epochs at a high learning rate. ハイパーパラメータを変更することなく最適化ステップの数を自然に拡大することで、学習率の高いエポックに多すぎる時間を費やしたモデルが多様化したことが分かりました。
訳抜け防止モード: 過度パラメータを変更せずに最適化ステップ数を鼻で拡大することを発見した。 モデルに変化をもたらしました 非常に多くのエポックを 高い学習率で過ごしました
0.64
Therefore, we provide results for the other two considered techniques which can be directly compared. そこで本研究では, 比較可能な他の2つの手法について結果を提供する。 0.67
As theorised in Section III we find that increasing the number of augmentation samples decreased the sensitivity of the model’s predictions to augmentation on both the training and test data.An almost identical effect was found by scaling the batch size. 第3節で論じられたように、増量サンプルの増加は、トレーニングデータとテストデータの両方で、モデルの予測の感度を低下させ、バッチサイズをスケーリングすることでほぼ同じ効果が得られた。 0.72
However, the major difference between the two is their effect on Top-1 error rate. しかし、両者の主な違いは、Top-1エラーレートへの影響である。 0.83
We found scaling the batch size offered no improvement to Top-1 error, in-fact the largest batch size offered the worst outcome, whilst increasing the number of augmentation samples noticeably improved the model’s accuracy. バッチサイズをスケールしてもtop-1エラーは改善されなかったが、最大のバッチサイズが最悪の結果をもたらした一方で、拡張サンプルの数の増加によってモデルの精度が著しく向上した。 0.71
Additionally as theorised in Section III, we see that the gain in performance from na = 1 → 3 is much greater than na = 3 → 5, supporting our statements regarding the exponential bound in probability. さらに、第iii節で理論化されているように、na = 1 → 3 からのパフォーマンスのゲインは na = 3 → 5 よりも大きく、確率の指数境界に関するステートメントを支持する。 0.73
These results suggests that scaling the number of augmentation samples could be a great option for semi-supervised models using suitable strong augmentations. これらの結果から, 拡張サンプルのスケーリングは, 適切な強度増強を用いた半教師付きモデルに最適な選択肢となる可能性が示唆された。
訳抜け防止モード: これらの結果は 増量サンプルの数を 適切な強力な拡張を使って、半教師付きモデルに最適な選択肢になり得る。
0.67
which can be viewed as the performance ratio with and without data augmentation. データ拡張と無関係のパフォーマンス比と見なすことができます。 0.72
We consider both the augmentation invariance of our model with respect to the fully labelled training and test data in order to give a full picture of the 完全なラベル付きトレーニングとテストデータに関して,モデルの拡張不変性について検討し,その全体像を示す。
訳抜け防止モード: 我々は、完全なラベル付きトレーニングとテストデータの順序に関するモデルの拡張不変性について検討する。 全体像を全体像に写す
0.75
D. Component Evaluation As LaplaceNet combines several different techniques, we tested the importance of strong augmentation, distribution d. 部品評価 LaplaceNetはいくつかの異なるテクニックを組み合わせて、強力な拡張、分散の重要性をテストした。 0.66
英語(論文から抽出)日本語訳スコア
9 Fig. 2: A comparison on the effect of increasing batch size versus increasing the number of augmentation samples on Top-1 error rate, test data augmentation invariance and training data augmentation invariance for the CIFAR-100 dataset. 9 フィギュア。 2: CIFAR-100データセットにおけるバッチサイズの増加と,Top-1エラー率,テストデータ拡張不変性,トレーニングデータ拡張不変性への影響の比較を行った。 0.68
Increasing the amount of augmentation averaging decreased the error rate whilst also decreasing the sensitivity of the model’s output predictions to augmented data. 加算平均量の増加は誤差率を減少させ、一方でモデルの出力予測を拡張データに対する感度を低下させた。 0.85
Increasing the batch size had a similar effect on the model’s sensitivity, but it offered no improvement to model accuracy. バッチサイズの増加はモデルの感度に同様の影響を与えるが、モデルの精度は改善されなかった。 0.78
alignment and MixUp to the overall accuracy of the model. モデルの全体的な精度に対するアライメントとミックスアップ。 0.85
We created a baseline model (na = 1) and then remove each component one at a time and tested the performance on the CIFAR-100 dataset, see Table VII. ベースラインモデル(na = 1)を作成し、各コンポーネントを一度に削除し、CIFAR-100データセットのパフォーマンスをテストしました。 0.64
Whilst the removal of each component decreased the performance of the model, it is clear the most crucial component to model performance is strong augmentation and removing it drastically reduces model accuracy. 各部品の除去はモデルの性能を低下させるが, モデル性能の最も重要な要素は強化が強く, モデル精度を大幅に低下させることは明らかである。 0.88
However, unlike other works [20] we find that whilst MixUp [22] offers a small advantage is it not critical for composite batch pseudo-label approaches. しかし、他の作品 [20] とは異なり、MixUp [22] は小さなアドバンテージを提供するが、複合バッチの擬似ラベルアプローチには重要でない。 0.75
This may be due to the advantages of graph-based approaches overcoming the flaws of naive neural network predictions. これはおそらく ナイーブニューラルネットワーク予測の欠点を克服するグラフベースのアプローチの利点を得る。 0.62
VI. CONCLUSION We propose a new graph based pseudo-label approach for semi-supervised image classification, LaplaceNet, that outperforms the current state-of-the-art on several datasets whilst having a much lower model complexity. VI。 結論 本稿では,半教師付き画像分類のための新しいグラフベース擬似ラベル手法laplacenetを提案する。
訳抜け防止モード: VI。 結論 半教師付き画像分類のためのグラフベース擬似ラベル手法を提案する。 LaplaceNetは、モデルの複雑さをはるかに低くしながら、いくつかのデータセットで現在の --- アートを上回ります。
0.63
Our model utilises a simple single term loss function without the need for additionally complexity whilst additionally avoiding the need 我々のモデルは、余分な複雑さを伴わずに単純な単一項損失関数を利用する。
訳抜け防止モード: 我々のモデルは、複雑さを増すことなく単純な単項損失関数を利用する さらに必要を回避し
0.82
英語(論文から抽出)日本語訳スコア
for confidence thresholding or temperature sharpening which was thought to be essential for state-of-the-art performance. 最先端性能に不可欠と考えられた信頼しきい値や温度のシャープ化について。 0.49
We instead generate accurate pseudo-labels through a graph based technique with distribution alignment. その代わりに,分布アライメントを用いたグラフベース手法により,正確な擬似ラベルを生成する。 0.61
We also explore the role that augmentation plays in semi-supervised learning and justify a multi-sampling approach to augmentation which we demonstrate through rigorous experimentation improves both the generalisation of the network as well as the model’s sensitivity to augmented data. また、半教師付き学習において強化が果たす役割についても検討し、厳密な実験を通じて、ネットワークの一般化と、拡張データに対するモデルの感度を改善するマルチサンプリングアプローチを正当化する。 0.76
ACKNOWLEDGMENT PS thanks the UK Engineering and Physical Sciences Research Council (EPSRC) and the National Physical Laboratory (NPL) for supporting this work. 承認 psは英国工学物理科学研究評議会(epsrc)と国立物理学研究所(npl)にこの研究を支援してくれた。 0.50
AIAR gratefully acknowledges the financial support of the CMIH and CCIMI University of Cambridge. AIARはケンブリッジ大学のCMIHとCCIMIの財政的支援に感謝している。 0.73
CBS acknowledges support from the Philip Leverhulme Prize, the Royal Society Wolfson Fellowship, the EPSRC grants EP/S026045/1 and EP/T003553/1, EP/N014588/1, EP/T017961/1, the Wellcome Innovator Award RG98755, the Leverhulme Trust project Unveiling the invisible, the European Union Horizon 2020 research and innovation programme under the Marie Skodowska-Curie grant agreement No. CBSはPhilip Leverhulme Prize, the Royal Society Wolfson Fellowship, EPSRC grants EP/S026045/1 and EP/T003553/1, EP/N014588/1, EP/T017961/1, the Wellcome Innovator Award RG98755, the Leverhulme Trust Project Unveiling the invisible, the European Union Horizon 2020 research and Innovation Program under the Marie Skodowska-Curie grant agreement No. を承認している。 0.78
777826 NoMADS, the Cantab Capital Institute for the Mathematics of Information and the Alan Turing Institute. 777826 NoMADS, Cantab Capital Institute for the Mathematics of Information and the Alan Turing Institute 0.72
APPENDIX A appendIX A 0.49
AUGMENTATION POOL In this work we use RandAugment [16] rather than a learnt augmentation strategy such as AutoAugment [15] which has a large computational cost. 拡張プール 本研究では,AutoAugment [15]のような計算コストの高い学習的拡張戦略ではなく,RandAugment [16]を使用する。 0.61
In Table IX we detail the augmentation pool used. 表9では、使用する拡張プールについて詳述する。 0.59
Additionally, we apply CutOut [17] augmentation after RandAugment sampling. さらに,RandAugment サンプリング後に CutOut [17] 拡張を適用した。 0.67
We use two different augmentation strategies in our work: one for labelled data and one for unlabelled data. 1つはラベル付きデータ、もう1つはラベルなしデータです。 0.32
We use ”strong” augmentations, RandAugment and CutOut, on both labelled and unlabelled data with the only difference being that we sample once from RandAugment for labelled data and twice for unlabelled data. ラベル付きデータとラベル付きデータの両方に、”strong”拡張、randaugment、cutoutを使用し、唯一の違いは、randaugmentからラベル付きデータのために1回、ラベル付きデータで2回サンプルすることです。 0.60
Given a pre-selected list of transformations, RandAugment randomly samples from the list with each transformation having a magnitude parameter. 予め選択された変換のリストが与えられたとき、RandAugmentは各変換が大きさパラメータを持つリストからランダムにサンプリングする。 0.68
Rather than optimising this parameter on a validation set, which may not exist in typical semi-supervised applications, we sample a random magnitude from a pre-set range. 一般的な半教師付きアプリケーションでは存在しない検証セットでこのパラメータを最適化する代わりに、事前に設定した範囲からランダムな等級をサンプリングする。 0.68
This is same as is done in FixMatch [12] and UDA [13]. これは FixMatch [12] と UDA [13] で行われているのと同じです。 0.85
We list the transformation pool for RandAugment and the implementation of CutOut in Table IX. RandAugment の変換プールと Table IX における CutOut の実装をリストアップする。 0.77
APPENDIX B appendIX B 0.58
COMPUTATIONAL TIME To give clarity on the how long our code takes to run we provide the computational run times of LaplaceNet on the CIFAR-100 dataset using the 13-CNN model for a variety of settings, see Table VIII. 計算時間 13-CNNモデルを使用したCIFAR-100データセット上でのLaplaceNetの計算実行時間について、コードが実行に要する時間を明確にするために、Table VIIIを参照してください。 0.63
Each experiment was run on one P100 NVIDIA GPU. 各実験は1つのP100 NVIDIA GPU上で実行された。 0.67
From Table VIII, we see that the time increased caused by increasing the batch size or increasing the number of samples is very similar. 表8より, バッチサイズの増加やサンプル数の増加による時間の増加は, 非常に類似していることがわかった。 0.80
Component-wise, removing strong augmentation gives the largest decrease in computational time whilst removing the graphical propogation saved just over an hour on CIFAR-100. CIFAR-100で1時間以上保存されたグラフィカルなプロポーゲーションを除去する一方で、成分的にも強力な拡張を除去することで、計算時間が最大に減少する。
訳抜け防止モード: コンポーネント - 賢い。 強い増強を取り除く 計算時間を最大に減らし グラフィカルなプロポーゲーションを取り除き CIFAR-100で1時間以上節約した。
0.73
This represent a very small time trade off given the advantages present in using graphical pseudo-labels. これは、グラフィカルな擬似ラベルを使用する際の利点を考えると、非常に小さなトレードオフである。 0.50
TABLE VIII: Computational time taken for our approach using 4k labelled images on the CIFAR-100 dataset using the 13CNN architecture. TABLE VIII: 13CNNアーキテクチャを用いたCIFAR-100データセット上の4kラベル付き画像を用いたアプローチの計算時間。 0.75
We provide the time taken for a number of different settings used in the results section. 私たちは、結果セクションで使われるさまざまな設定に要する時間を提供します。 0.77
All experiments were performed using one NVIDIA P100 GPU. すべての実験はNVIDIA P100 GPUを用いて行われた。 0.76
10 MODEL BASELINE 10 モデルベースライン 0.77
COMPUTATIONAL TIME (HOURS) COMPONENT REMOVAL 計算時間(時間) コンポーネントの除去 0.46
No Distribution Alignment No Strong Augmentation No Graphical Propogation 分布アライメントなし 強い拡張なし 図形プロポーゲーションなし 0.68
MODEL SCALING 3×-Batch-size 5×-Batch-size 3×-Samples 5×-Samples モデルスケーリング 3×バッチサイズ5×バッチサイズ3×サンプル5×サンプル 0.47
7.52 ± 0.04 6.18 ± 0.01 5.84 ± 0.03 6.32 ± 0.01 12.28 ± 0.03 17.23 ± 0.06 12.88 ± 0.01 18.14 ± 0.11 7.52 ± 0.04 6.18 ± 0.01 5.84 ± 0.03 6.32 ± 0.01 12.28 ± 0.03 17.23 ± 0.06 12.88 ± 0.01 18.14 ± 0.11 0.52
REFERENCES [1] K. Simonyan and A. Zisserman, “Very deep convolutional networks for large-scale image recognition,” arXiv preprint arXiv:1409.1556, 2014. 参考 [1] K. Simonyan, A. Zisserman, “Very deep convolutional network for large-scale image recognition” arXiv preprint arXiv:1409.1556, 2014 0.71
[2] A. Krizhevsky, I. Sutskever, and G. E. Hinton, “Imagenet classification with deep convolutional neural networks,” in Advances in Neural Information Processing Systems (NIPS), 2012, pp. [2] A. Krizhevsky, I. Sutskever, G. E. Hinton, “Imagenet classification with Deep Convolutional Neural Network” in Advances in Neural Information Processing Systems (NIPS), 2012. pp。 0.84
1097–1105. 1097–1105. 0.71
[3] K. He, X. Zhang, S. Ren, and J. [3]K.He,X.Zhang,S. Ren,J. 0.79
Sun, “Deep residual learning for image recognition,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2016, pp. the ieee conference on computer vision and pattern recognition, 2016 pp. ^ “deep residual learning for image recognition” を参照。 0.62
770–778. [4] J. Hu, L. Shen, and G. Sun, “Squeeze-and-excitati on networks,” in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018, pp. 770–778. J. Hu, L. Shen, and G. Sun, “Squeeze-and-excitati on network” in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018, pp。
訳抜け防止モード: 770–778. [4 ]J. Hu, L. Shen, G. Sun IEEE Conference on Computer Vision の "Squeeze - and - Excitation network, " and Pattern Recognition (CVPR ) , 2018 , pp。
0.79
7132–7141. 7132–7141. 0.71
[5] F. Wang, M. Jiang, C. Qian, S. Yang, C. Li, H. Zhang, X. Wang, and X. Tang, “Residual attention network for image classification,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2017, pp. F. Wang, M. Jiang, C. Qian, S. Yang, C. Li, H. Zhang, X. Wang, X. Tang, “Residual attention network for image classification” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2017 pp。 0.85
3156–3164. 3156–3164. 0.71
[6] S. Ren, K. He, R. Girshick, and J. [6]S. Ren, K. He, R. Girshick, J. 0.90
Sun, “Faster r-cnn: Towards real-time object detection with region proposal networks,” in Advances in neural information processing systems, 2015, pp. Sun, “Faster r-cnn: toward real-time object detection with region proposal network” in Advances in Neural Information Processing system, 2015 pp. 0.88
91–99. [7] R. Girshick, “Fast r-cnn,” in Proceedings of the IEEE international 91–99. [7]R.Girshick, “Fast r-cnn”, in Proceedings of the IEEE International 0.81
conference on computer vision, 2015, pp. コンピュータビジョン研究会、2015年、p。 0.54
1440–1448. 1440–1448. 0.71
[8] J. Redmon, S. Divvala, R. Girshick, and A. Farhadi, “You only look once: Unified, real-time object detection,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2016. 8] j. redmon, s. divvala, r. girshick, a. farhadi, “you only look once: unified, real-time object detection” in the proceedings of the ieee conference on computer vision and pattern recognition, 2016 (英語) 0.81
[9] J. Long, E. Shelhamer, and T. Darrell, “Fully convolutional networks for semantic segmentation,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2015, pp. 9] J。 Long, E. Shelhamer, T. Darrell, “Fully convolutional network for semantic segmentation” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2015 pp。 0.67
3431–3440. 3431–3440. 0.71
[10] O. Ronneberger, P. Fischer, and T. Brox, “U-net: Convolutional networks for biomedical image segmentation,” in International Conference on Medical Image Computing and Computer-Assisted Intervention (MICCAI), 2015, pp. 10] o. ronneberger, p. fischer, t. brox, “u-net: convolutional networks for biomedical image segmentation” in international conference on medical image computing and computer-assisted intervention (miccai), 2015 pp. 0.81
234–241. [11] L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L. Yuille, “Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs,” IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI), vol. 234–241. 11] L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, A. L. Yuille, “Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs”, IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI), vol. 0.81
40, no. 4, pp. 40だ 4, pp。 0.60
834–848, 2017. 834–848, 2017. 0.84
[12] K. Sohn, D. Berthelot, C.-L. Li, Z. Zhang, N. Carlini, E. D. Cubuk, A. Kurakin, H. Zhang, and C. Raffel, “Fixmatch: Simplifying semisupervised learning with consistency and confidence,” Advances in neural information processing systems, 2020. K. Sohn, D. Berthelot, C.-L. Li, Z. Zhang, N. Carlini, E.D. Cubuk, A. Kurakin, H. Zhang, C. Raffel, “Fixmatch: Simplify semisupervised learning with consistency and confidence”, 神経情報処理システムの進歩, 2020。 0.87
[13] Q. Xie, Z. Dai, E. Hovy, M.-T. Luong, and Q. V. Le, “Unsupervised data augmentation for consistency training,” Neural Information Processing Systems, 2020. Q.Xie, Z. Dai, E. Hovy, M.-T. Luong, Q. V. Le, “Unsupervised data augmentation for consistency training” Neural Information Processing Systems, 2020。 0.85
[14] D. Berthelot, N. Carlini, E. Cubuk, A. Kurakin, H. Zhang, and C. Raffel, “Remixmatch: Semi-supervised learning with distribution matching and augmentation anchoring,” in Eighth International Conference on Learning Representations, 2020. D. Berthelot, N. Carlini, E. Cubuk, A. Kurakin, H. Zhang, and C. Raffel, “Remixmatch: Semi-supervised learning with distribution matching and augmentation anchoring”. 8th International Conference on Learning Representations, 2020. 0.90
[15] E. D. Cubuk, B. Zoph, D. Mane, V. Vasudevan, and Q. V. Le, “Autoaugment: Learning augmentation policies from data,” arXiv preprint arXiv:1805.09501, 2018. E.D. Cubuk, B. Zoph, D. Mane, V. Vasudevan, Q. V. Le, “Autoaugment: Learning augmentation Policy from data”, arXiv preprint arXiv:1805.09501, 2018. 0.95
[16] E. D. Cubuk, B. Zoph, J. Shlens, and Q. V. Le, “Randaugment: Practical automated data augmentation with a reduced search space,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, 2020, pp. [16] e. d. cubuk, b. zoph, j. shlens, q. v. le, “randaugment: practical automated data augmentation with a reduced search space” in the proceedings of the ieee/cvf conference on computer vision and pattern recognition workshops, 2020, pp. 0.88
702–703. 702–703. 0.71
英語(論文から抽出)日本語訳スコア
Autocontrast Brightness 自己コントラスト輝度 0.68
Color Contrast Equalise Identity Posterise Rotate 色コントラスト等化アイデンティティロータネート 0.42
Sharpness Shear X Shear Y Solarize シャープネスせん断x シェールy ソーラーライズ 0.68
Translate X Translate Y RandAugment Transformations 翻訳 X 翻訳 Y RandAugment Transformations 0.78
Maximises the image contrast by setting the darkest (lightest) pixel to black (white) Adjusts the brightness of the image. 最も暗い(明るい)ピクセルを黒(白い)に設定することで、画像のコントラストを最大化する。 0.70
where B = 0 returns a black image. ここで B = 0 は黒画像を返す。 0.89
image Adjusts the colour balance of the image. 画像は画像の色バランスを調整する。 0.74
Cl = 0 returns a black and white image. Cl = 0 は白黒の画像を返します。 0.85
Controls the contrast of the image. 画像のコントラストを制御する。 0.73
Co = 0 returns a gray image. Co = 0 はグレーの画像を返す。 0.86
Equalises the image histogram. 画像ヒストグラムを等化する。 0.65
Returns the original image. 元のイメージを返す。 0.66
Reduces each pixel to B bits. 各ピクセルをBビットに縮小する。 0.79
Rotates the image by θ degrees. 画像をθ度回転させる。 0.76
Adjusts the sharpness of the image, where S = 0 returns a blurred image Shears the image along the horizontal axis with rate R. Shears the image along the vertical axis with rate R Inverts all pixels above a threshold value of T Translates the image horizontally by (λ×image width) pixels. S = 0 は画像のシャープさを調整し、S = 0 は画像のぼやけた部分をレート R で水平軸に沿ってせん断し、R で画像を縦軸に沿ってせん断し、T のしきい値の上のすべてのピクセルを(λ×image width) ピクセルで水平に変換する。 0.83
Translates the image vertically by (λ×image height) pixels λ×image height)ピクセルで画像を垂直に変換する 0.89
CutOut Augmentation Range CutOutの拡張 範囲 0.70
—– B ∈ [0.05, 0.95] Cl ∈ [0.05, 0.95] Co ∈ [0.05, 0.95] —– B ∈ [0.05, 0.95] Cl ∈ [0.05, 0.95] Co ∈ [0.05, 0.95] 0.77
—– —– B ∈ [4, 8] θ ∈ [−30, 30] S ∈ [0.05, 0.95] R ∈ [−0.3, 0.3] R ∈ [−0.3, 0.3] λ ∈ [−0.3, 0.3] λ ∈ [−0.3, 0.3] L ∈ [0, 0.5] —– —– B ∈ [4, 8] θ ∈ [−30, 30] S ∈ [0.05, 0.95] R ∈ [−0.3, 0.3] R ∈ [−0.3, 0.3] λ ∈ [−0.3, 0.3] λ ∈ [−0.3, 0.3] L ∈ [0, 0.5] 0.78
T ∈ [0, 1] T ∈ [0, 1] 0.85
TABLE IX: List of Transformations used in our application of RandAugment as well their description and magnitude range. TABLE IX: RandAugmentの適用に使用される変換のリストと、その記述と大きさ範囲。 0.78
Additionally, we list the CutOut transformation used at the end of RandAugment sampling. さらに、RandAugmentサンプリングの最後に使用されるCutOut変換をリストアップする。 0.60
11 Transformation Description CutOut 11 変遷 解説 CutOut 0.73
Sets a random square patch of side-length (L×image width) pixels to grey 横長(L×image width)ピクセルのランダムな正方パッチをグレーに設定する 0.83
[17] T. DeVries and G. W. Taylor, “Improved regularization of convolutional neural networks with cutout,” arXiv preprint arXiv:1708.04552, 2017. arXiv preprint arXiv:1708.04552, 2017[17] T. DeVries, G. W. Taylor, “Improved regularization of convolutional neural network with cutout”. arXiv preprint arXiv:1708.04552, 2017 0.67
[18] Z. Hu, Z. Yang, X. Hu, and N. R, “Simple: Similar pseudo label exploitation for semi-supervised classification,” in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2021. [18] Z. Hu, Z. Yang, X. Hu, N. R, “Simple: pseudo label exploitation for semi-supervised classification” in IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2021。 0.82
[19] D. Berthelot, N. Carlini, I. Goodfellow, N. Papernot, A. Oliver, and C. A. Raffel, “Mixmatch: A holistic approach to semi-supervised learning,” in Advances in Neural Information Processing Systems, 2019. D. Berthelot, N. Carlini, I. Goodfellow, N. Papernot, A. Oliver, and C. A. Raffel, “Mixmatch: A holistic approach to semi-supervised learning” in Advances in Neural Information Processing Systems, 2019。 0.89
[20] E. Arazo, D. Ortego, P. Albert, N. E. O’Connor, and K. McGuinness, “Pseudo-labeling and confirmation bias in deep semi-supervised learning,” arXiv preprint arXiv:1908.02983, 2019. E. Arazo, D. Ortego, P. Albert, N. E. O’Connor, K. McGuinness, “Pseudo-labeling and confirmed bias in Deep semi-supervised learning” arXiv preprint arXiv:1908.02983, 2019. 0.93
[21] V. Verma, A. Lamb, J. Kannala, Y. Bengio, and D. Lopez-Paz, “Interpolation consistency training for semi-supervised learning,” International Joint Conference on Artificial Intelligence (IJCAI), 2019. 21] v. verma, a. lamb, j. kannala, y. bengio, d. lopez-paz, “interpolation consistency training for semi-supervised learning”, international joint conference on artificial intelligence (ijcai), 2019。 0.82
[22] H. Zhang, M. Cisse, Y. N. Dauphin, and D. Lopez-Paz, “mixup: Beyond empirical risk minimization,” arXiv preprint arXiv:1710.09412, 2017. H. Zhang, M. Cisse, Y. N. Dauphin, D. Lopez-Paz, “mixup: Beyond empirical risk minimization” arXiv preprint arXiv:1710.09412, 2017 0.93
[23] M. Belkin, P. Niyogi, and V. Sindhwani, “Manifold regularization: A geometric framework for learning from labeled and unlabeled examples,” Journal of machine learning research, vol. M. Belkin, P. Niyogi, and V. Sindhwani, “Manifold regularization: a geometry framework for learning from labeled and unlabeled example”, Journal of machine learning research, vol。 0.76
7, 2006. [24] M. Belkin, I. Matveeva, and P. Niyogi, “Regularization and semisupervised learning on large graphs,” in International Conference on Computational Learning Theory. 7, 2006. 24] m. belkin, i. matveeva, p. niyogi, “regularization and semisupervised learning on large graphs” in international conference on computational learning theory (英語) 0.80
Springer, 2004, pp. スプリンガー、2004年、p。 0.58
624–638. [25] X. Zhu, Z. Ghahramani, and J. D. Lafferty, “Semi-supervised learning using gaussian fields and harmonic functions,” in P International conference on Machine learning (ICML), 2003, pp. 624–638. [25] X. Zhu, Z. Ghahramani, J. D. Lafferty, “Seemi-supervised learning using Gaussian field and harmonic function” in P International conference on Machine Learning (ICML, 2003, pp。 0.79
912–919. [26] D. Zhou, O. Bousquet, T. N. Lal, J. Weston, and B. Sch¨olkopf, “Learning with local and global consistency,” in Advances in Neural Information Processing Systems (NIPS), 2004, pp. 912–919. D. Zhou, O. Bousquet, T. N. Lal, J. Weston, and B. Sch solkopf, “Learning with local and global consistency” in Advances in Neural Information Processing Systems (NIPS, 2004, pp。 0.77
321–328. [27] Y. Grandvalet and Y. Bengio, “Semi-supervised learning by entropy minimization,” in Advances in neural information processing systems, 2005, pp. 321–328. [27]y. grandvalet,y. bengio, “semi-supervised learning by entropy minimization” in advances in neural information processing systems, 2005, pp。 0.77
529–536. [28] K. I. Kim, F. Steinke, and M. Hein, “Semi-supervised regression using hessian energy with an application to semi-supervised dimensionality reduction,” in Advances in Neural Information Processing Systems (NIPS), 2009, pp. 529–536. [28] k.i. kim, f. steinke, m. hein, “半教師付き次元減少への応用を伴うヘッセンエネルギーを用いた半教師付き回帰” in advances in neural information processing systems (nips), 2009 pp。 0.73
979–987. [29] O. Chapelle, A. Zien, and B. Sch¨olkopf, Semisupervised learning. 979–987. 29] o. chapelle, a. zien, b. sch solkopf, semisupervised learning。 0.73
MIT Press, 2006. MIT 2006年出版。 0.73
[30] S. Laine and T. Aila, “Temporal ensembling for semi-supervised learning,” 30] S. Laine, T. Aila, “Temporal ensembling for semi-supervised learning” 0.87
International Conference on Learning Representations (ICLR), 2017. ICLR(International Conference on Learning Representations) 2017年。 0.75
[31] T. Miyato, S.-i. [31]T. Miyato, S.-i。 0.76
Maeda, M. Koyama, and S. Ishii, “Virtual adversarial training: a regularization method for supervised and semi-supervised learning,” IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI), vol. Maeda, M. Koyama, S. Ishii, “Virtual adversarial training: a regularization method for supervised and semi-supervised learning”, IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI), vol。 0.83
41, no. 8, pp. 41、ノー。 8, pp。 0.78
1979–1993, 2018. 1979–1993, 2018. 0.84
[32] A. Tarvainen and H. Valpola, “Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results,” in Advances in neural information processing systems (NIPS), 2017, pp. 32] a. tarvainen, h. valpola, “mean teachers are better role models: weight-averaged consistency targets improve semi-supervised deep learning results” in advances in neural information processing systems (nips), 2017 pp。 0.78
1195–1204. 1195–1204. 0.71
[33] A. Iscen, G. Tolias, Y. Avrithis, and O. [33] A. Iscen, G. Tolias, Y. Avrithis, O. 0.91
Chum, “Label propagation for Chum, “Label propagation for” 0.92
deep semi-supervised learning,” IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019. とIEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2019。 0.50
[34] D.-H. Lee, “Pseudo-label: The simple and efficient semi-supervised learning method for deep neural networks,” in Workshop on Challenges in Representation Learning, ICML, 2013. D.H. Lee, “Pseudo-label: The Simple and efficient semi-supervised learning method for Deep Neural Network”. Workshop on Challenges in Representation Learning, ICML, 2013. 0.85
[35] W. Shi, Y. Gong, C. Ding, Z. MaXiaoyu Tao, and N. Zheng, “Transductive semi-supervised deep learning using min-max features,” in European Conference on Computer Vision (ECCV), 2018, pp. [35] w. shi, y. gong, c. ding, z. maxiaoyu tao, and n. zheng, “transductive semi-supervised deep learning using min-max features” in european conference on computer vision (eccv), 2018, pp。 0.83
299–315. [36] S. Thulasidasan, G. Chennupati, J. Bilmes, T. Bhattacharya, and S. Michalak, “On mixup training: Improved calibration and predictive uncertainty for deep neural networks.” in In 33rd Conference on Neural Information Processing Systems., 2019. 299–315. 936] S. Thulasidasan, G. Chennupati, J. Bilmes, T. Bhattacharya, S. Michalak, “On mixup training: Improved calibration and predictive uncertainty for Deep Neural Network” in 33rd Conference on Neural Information Processing Systems. 2019. 0.78
[37] A. I. Aviles-Rivero, N. Papadakis, R. Li, S. M. Alsaleh, R. T. Tan, and C.-B. [37]A.I. Aviles-Rivero, N. Papadakis, R. Li, S. M. Alsaleh, R. T. Tan, C.-B. 0.79
Schonlieb, “Beyond supervised classification: Extreme minimal supervision with the graph 1-laplacian,” arXiv:1906.08635, 2019. Schonlieb, “Beyond supervised classification: Extreme minimal supervision with the graph 1-laplacian”, arXiv:1906.08635, 2019。 0.91
[38] S. Li, B. Liu, D. Chen, Q. Chu, L. Yuan, and N. Yu, “Density-aware graph for deep semi-supervised visual recognition,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020, pp. [38]s. li, b. liu, d. chen, q. chu, l. yuan, and n. yu, “density-aware graph for deep semi-supervised visual recognition” in the proceedings of the ieee/cvf conference on computer vision and pattern recognition, 2020, pp。 0.81
13 400–13 409. 13 400–13 409. 0.84
[39] A. Krizhevsky and G. Hinton, “Learning multiple layers of features from 39] A. Krizhevsky, G. Hinton, “複数の機能のレイヤを学習する” 0.80
tiny images.” 2009. ちっちゃい画像」2009年。 0.71
[40] O. Vinyals, C. Blundell, T. Lillicrap, and D. e. a. Wierstra, “Matching [40]O. Vinyals, C. Blundell, T. Lillicrap, D. e. Wierstra, “Matching” 0.96
networks for one shot learning.” NIPS, 2016. network for one shot learning.”. nips, 2016年4月1日閲覧。 0.52
[41] S. Zagoruyko and N. Komodakis, “Wide residual networks,” in Proceed- [41] S. Zagoruyko, N. Komodakis, “Wide residual network” in Proceed- 0.89
ings of the British Machine Vision Conference, 2016. ings of the british machine vision conference 2016(英語) 0.80
[42] Y. Luo, J. Zhu, M. Li, Y. Ren, and B. Zhang, “Smooth neighbors on teacher graphs for semi-supervised learning,” in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018, pp. Y. Luo, J. Zhu, M. Li, Y. Ren, B. Zhang, “Smooth neighbors on teacher graphs for semi-supervised learning” in IEEE Conference on Computer Vision and Pattern Recognition (CVPR, 2018, pp。 0.80
8896–8905. 8896–8905. 0.71
[43] B. Athiwaratkun, M. Finzi, P. Izmailov, and A. G. Wilson, “There are many consistent explanations of unlabeled data: Why you should average,” International Conference on Learning Representations (ICLR), 2019. b. athiwaratkun氏、m. finzi氏、p. izmailov氏、a. g. wilson氏は、"ラベルのないデータには一貫性のある説明がたくさんあります: why you should average", international conference on learning representations (iclr), 2019。 0.71
[44] Z. Ke, D. Wang, Q. Yan, J. Ren, and R. W. Lau, “Dual student: Breaking the limits of the teacher in semi-supervised learning,” in Proceedings of the IEEE International Conference on Computer Vision, 2019. Z. Ke, D. Wang, Q. Yan, J. Ren, R. W. Lau, “Dual student: Breaking the limit of the teacher in semi-supervised learning” in the Proceedings of the IEEE International Conference on Computer Vision, 2019”. 2019年3月1日閲覧。
訳抜け防止モード: [44 ]Z. Ke, D. Wang, Q. Yan, J. Ren, and R. W. Lau, “Dual student : Breaking the limit of the teacher in semi-supervised learning” In Proceedings of the IEEE International Conference on Computer Vision, 2019 に参加して
0.94
[45] A. Oliver, A. Odena, C. Raffel, E. Cubuk, and I. Goodfellow, “Realistic evaluation of deep semi-supervised learning algorithms,” in Advances in Neural Information Processing Systems (NeurIPS), 2018. a. oliver, a. odena, c. raffel, e. cubuk, i. goodfellow, “realistic evaluation of deep semi-supervised learning algorithms” in advances in neural information processing systems (neurips), 2018” (英語) 0.76
                       ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。