論文の概要、ライセンス

# (参考訳) 分布入力検出のための疑似ベイズ型ニューラルネットワーク [全文訳有]

pseudo-Bayesian Neural Networks for detecting Out of Distribution Inputs ( http://arxiv.org/abs/2102.01336v1 )

ライセンス: CC BY-SA 4.0
Gagandeep Singh, Deepak Mishra(参考訳) 従来のベイジアンニューラルネットワーク(BNN)は、単一の入力に対して複数の出力を提供できることが知られており、そのバリエーションは分布アウト(OOD)入力を検出するために利用することができる。 BNNは、優先順位の選択に対する感度のために訓練が困難である。 そこで本研究では,重みに対する分布を学習する代わりに,推定時に点推定と摂動重みを用いる擬似BNNを提案する。 従来のBNNのコスト関数を変更し、ポイント推定によりニューラルネットワークの重みのそれぞれにランダムな摂動の適切な量を注入する目的でパラメータを学習する。 In Distribution(ID)入力から複数の出力を用いてOOD入力を効果的に分離するために、確率分布の分散とエントロピーの指標から導出した2つの尺度を提案し、提案した擬似BNNと組み合わせる。 全体として、この組み合わせは推論時にOODサンプルを検出する原則化された技術をもたらす。 本手法は,多種多様なニューラルネットワークアーキテクチャと画像分類データセット上で評価する。 提案手法は, 95%TPR, AUROC, AUPR, Detection ErrorにおけるFPR, 95%TPR, 95%TPR, 95%TPR, 95%TPR, および2~5重みのサンプルを用いて, 従来の手法よりも優れていることを示す。

Conventional Bayesian Neural Networks (BNNs) are known to be capable of providing multiple outputs for a single input, the variations in which can be utilised to detect Out of Distribution (OOD) inputs. BNNs are difficult to train due to their sensitivity towards the choice of priors. To alleviate this issue, we propose pseudo-BNNs where instead of learning distributions over weights, we use point estimates and perturb weights at the time of inference. We modify the cost function of conventional BNNs and use it to learn parameters for the purpose of injecting right amount of random perturbations to each of the weights of a neural network with point estimate. In order to effectively segregate OOD inputs from In Distribution (ID) inputs using multiple outputs, we further propose two measures, derived from the index of dispersion and entropy of probability distributions, and combine them with the proposed pseudo-BNNs. Overall, this combination results in a principled technique to detect OOD samples at the time of inference. We evaluate our technique on a wide variety of neural network architectures and image classification datasets. We observe that our method achieves state of the art results and beats the related previous work on various metrics such as FPR at 95% TPR, AUROC, AUPR and Detection Error by just using 2 to 5 samples of weights per input.
公開日: Tue, 2 Feb 2021 06:23:04 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
pseudo-Bayesian Neural Networks for detecting Out of Distribution Inputs 分布入力検出のための疑似ベイズ型ニューラルネットワーク 0.81
Gagandeep Singh Gagandeep Singh 0.85
singh.23@iitj.ac.in singh.23@iitj.ac.in 0.47
Deepak Mishra Deepak Mishra 0.85
dmishra@iitj.ac.in dmishra@iitj.ac.in 0.59
Indian Institute of Technology, Jodhpur インドの技術研究所、Jodhpur。 0.74
Rajasthan, India インド、ラジャスターン 0.69
Indian Institute of Technology, Jodhpur インドの技術研究所、Jodhpur。 0.74
Rajasthan, India インド、ラジャスターン 0.69
1 2 0 2 b e F 2 1 2 0 2 b e F 2 0.85
] G L . ] G L。 0.79
s c [ 1 v 6 3 3 1 0 sc [ 1 v 6 3 3 1 0 0.68
. 2 0 1 2 : v i X r a . 2 0 1 2 : v i X r a 0.85
Abstract Conventional Bayesian Neural Networks (BNNs) are known to be capable of providing multiple outputs for a single input, the variations in which can be utilised to detect Out of Distribution (OOD) inputs. 概要 従来のベイジアンニューラルネットワーク(BNN)は、単一の入力に対して複数の出力を提供できることが知られており、そのバリエーションは分布アウト(OOD)入力を検出するために利用することができる。 0.63
BNNs are difficult to train due to their sensitivity towards the choice of priors. BNNは、優先順位の選択に対する感度のために訓練が困難である。 0.77
To alleviate this issue, we propose pseudo-BNNs where instead of learning distributions over weights, we use point estimates and perturb weights at the time of inference. そこで本研究では,重みに対する分布を学習する代わりに,推定時に点推定と摂動重みを用いる擬似BNNを提案する。 0.77
We modify the cost function of conventional BNNs and use it to learn parameters for the purpose of injecting right amount of random perturbations to each of the weights of a neural network with point estimate. 従来のBNNのコスト関数を変更し、ポイント推定によりニューラルネットワークの重みのそれぞれにランダムな摂動の適切な量を注入する目的でパラメータを学習する。 0.76
In order to effectively segregate OOD inputs from In Distribution (ID) inputs using multiple outputs, we further propose two measures, derived from the index of dispersion and entropy of probability distributions, and combine them with the proposed pseudoBNNs. In Distribution(ID)入力から複数の出力を用いてOOD入力を効果的に分離するために、確率分布の分散とエントロピーの指標から導出した2つの尺度を提案し、提案した擬似BNNと組み合わせる。 0.87
Overall, this combination results in a principled technique to detect OOD samples at the time of inference. 全体として、この組み合わせは推論時にOODサンプルを検出する原則化された技術をもたらす。 0.61
We evaluate our technique on a wide variety of neural network architectures and image classification datasets. 本手法は,多種多様なニューラルネットワークアーキテクチャと画像分類データセット上で評価する。 0.80
We observe that our method achieves state of the art results and beats the related previous work on various metrics such as FPR at 95% TPR, AUROC, AUPR and Detection Error by just using 2 to 5 samples of weights per input. 提案手法は, 95%TPR, AUROC, AUPR, Detection ErrorにおけるFPR, 95%TPR, 95%TPR, 95%TPR, 95%TPR, および2~5重みのサンプルを用いて, 従来の手法よりも優れていることを示す。 0.64
1. Introduction Neural networks have been shown to perform well when the testing data is sampled from a distribution which is same or approximately similar to the training data distribution [16, 25, 9, 5, 30]. 1. はじめに ニューラルネットワークは、トレーニングデータ分布 [16, 25, 9, 5, 30] と同じまたはほぼ類似した分布からテストデータがサンプリングされると、うまく機能することが示されています。 0.76
However, the performance drops by a large margin when the testing data comes from a distribution which is far away from that of the training data [22, 10], also called as Out of Distribution (OOD) data. しかし、テストデータがトレーニングデータ [22, 10] から遠く離れた分布から来ると、その性能は大幅に低下する(out of Distribution (OOD) データとも呼ばれる)。 0.68
Therefore, in real world systems there is no guarantee on how a network will behave because, it is often difficult to ensure the similarity of training and test data distributions [1]. したがって、実世界のシステムでは、トレーニングとテストデータの分布の類似性を保証することはしばしば困難であるため、ネットワークがどのように振る舞うかを保証する保証がない。 0.81
Thus, it is important to make neural networks less prone to failure i.e., confidently making wrong predictions for OOD inputs. ですから、それは ニューラルネットワークが故障しにくくすること、すなわち、OOD入力の誤った予測を確実に行うこと。 0.77
Conventional BNNs facilitate the detection of OOD inputs as they allow sampling of weights at the time of inference from the distributions (Gaussian) learned during training and provide multiple outputs for individual inputs. 従来のBNNは、トレーニング中に学んだ分布(ガウス)から推論時に重みをサンプリングし、個々の入力に複数の出力を提供するため、OOD入力の検出を容易にします。 0.77
Large variations in the outputs of a single input reflects OOD instance. 単一の入力の出力に大きな変化はOODインスタンスを反映します。 0.78
However, BNNs are sensitive to the choice of prior distribution over their weights, leading to difficulties in training. しかし、BNNは体重よりも事前分布の選択に敏感であり、トレーニングの難しさにつながります。 0.67
Hence, to reduce the training effort, we propose to re-use already trained frequentist neural networks or simply Artificial Neural Networks (ANNs) with point estimate and learn parameters to inject random perturbations (Gaussian) to their weights for obtaining multiple weight samples during inference. そこで本研究では,すでにトレーニング済みの高頻度ニューラルネットワークや,ポイント推定を伴うニューラルネットワーク(anns)を再利用し,その重みにランダム摂動(gaussian)を注入し,推論中に複数の重みサンプルを得るためのパラメータを学習することを提案する。 0.79
For this purpose, we use a modified version of the traditional cost function of BNNs. この目的のために、BNNsの従来のコスト関数の修正版を使用します。 0.80
We call the networks so obtained as pseudo-BNNs because, their training methods are different from conventional BNNs but their inference algorithms are the same i.e., for each input multiple samples of weights are drawn and the average of all the different outputs obtained from each of those samples is used as the final output. なぜなら、それらの訓練方法は従来のBNNと異なっているが、それらの推論アルゴリズムは同じであるからである。つまり、各入力の重みの複数のサンプルが描画され、それらのサンプルから得られたすべての異なる出力の平均が最終的な出力として使用される。 0.77
Specifically, a pseudo-BNN has two parameters (µ, σ) and each of it’s weight is sampled as µ + σ ◦ ,  ∼ N (0, 1) which is the same as reparametrization trick [13] where µ is taken from a point estimation of ANN and σ is optimised over our proposed cost function. 具体的には、擬BNNは2つのパラメータ (μ, σ) を持ち、その各々の重みはμ + σ > > , > N (0, 1) としてサンプリングされるが、これはANN の点推定から μ を取り、σ を我々のコスト関数上で最適化する再パラメータ化トリック [13] と同じである。 0.86
It is note worthy that since µ is already optimised over the training data, hence by clever use of initializers, the training effort for σ can be reduced significantly. μ が既にトレーニングデータ上で最適化されているので、初期化器を巧みに利用することで、σ のトレーニング労力を大幅に削減できる点に注目すべきである。 0.67
Since, multiple weight samples lead to different final outputs, a posterior distribution in case of classifier neural networks, we quantify the variations in these outputs to flag OOD inputs. 複数の重みのサンプルが異なる最終出力、すなわち分類器ニューラルネットワークの場合の後方分布をもたらすため、これらの出力の変動を定量化し、ood入力をフラグする。 0.75
In order to do so, we propose two measures of disagreements derived from index of dispersion and entropy of probability distributions. そこで本研究では,分散の指標と確率分布のエントロピーから導かれる2つの不一致尺度を提案する。 0.82
We evaluate our technique on four classifier neural network architectures, simple convolution neural networks (CNN) [4], VGG-10 [25], ResNet-20 [9] and DenseNet-100 本稿では, 4つの分類器ニューラルネットワークアーキテクチャ, simple convolution neural networks (cnn) [4], vgg-10 [25], resnet-20 [9], densenet-100について評価する。 0.78
1 1 0.85
英語(論文から抽出)日本語訳スコア
[11]. We use MNIST [17], CIFAR10 [14], SVHN [21], CIFAR100 [15] as ID datasets and Fashion-MNIST [28], CIFAR100 [28], CMATERDB [7], Gaussian images, where each pixel is sampled from N (0, 1), as OOD datasets. [11]. 我々は、IDデータセットとしてMNIST [17], CIFAR10 [14], SVHN [21], CIFAR100 [15], Fashion-MNIST [28], CIFAR100 [28], CMATERDB [7], Gaussianイメージを使用し、それぞれのピクセルをN(0, 1)からサンプリングする。
訳抜け防止モード: [11]. MNIST [17 ], CIFAR10 [14 ] を使っています。 IDデータセットとしてのSVHN [21 ], CIFAR100 [15 ] Fashion - MNIST [28 ], CIFAR100 [28 ], CMATERDB [ 7 ], Gaussian image, where each pixel are sampled from N ( 0, 1 ) OODデータセットとして。
0.78
We observed that our technique considerably improvises on previous works related to OOD input detection. 提案手法はood入力検出に関する先行研究にかなり即効性があることを確認した。 0.51
For example, the False Positive Rate at 95% True Positive Rate, for MNIST as ID and Fashion-MNIST as OOD data, was found to be 1.72% by using just 2 to 5 samples of weights as compared to 27.48% from the baseline method [10]. 例えば、False Positive Rate at 95% True Positive Rate, for MNIST as ID and Fashion-MNIST as OOD dataは、ベースライン法[10]の27.48%と比較して、わずか2から5の重みのサンプルを使用することで1.72%であることが判明した。 0.80
We have presented a principled analysis of our approach by taking ideas from Bernstein et al. 我々はbernsteinらからアイデアを得て、我々のアプローチを原理的に分析した。 0.67
[2]. In summary our main contributions are as follows, [2]. まとめると、我々の主な貢献は以下の通りである。 0.65
• We have modified the cost function used in the training of Gaussian BNNs, in order to learn a second parameter for the purpose of injecting random perturbations to the weights of an ANN with point estimate at the time of inference for obtaining multiple outputs for an input without compromising on test accuracy. ガウスBNNの訓練に用いられるコスト関数を修正し、テスト精度を損なうことなく入力の複数の出力を得るための推論時にポイント推定でANNの重みにランダムな摂動を注入する目的で第2のパラメータを学習した。 0.70
We call the resulting network as pseudo-BNN. 得られたネットワークを擬似BNNと呼ぶ。 0.77
• We propose measures of disagreement to quantify the variations in the outputs of a pseudo-BNN to effectively flag OOD inputs. • OOD入力を効果的にフラグする擬似BNNの出力の変動を定量化する不一致の尺度を提案する。 0.81
• We have presented a principled analysis of our tech- •当社の技術の原理分析を提示しました。 0.81
nique in order to explain the results obtained. 得られた結果を説明するためにニケ。 0.68
The rest of the paper is organised as follows. 残りの論文は以下の通り整理される。 0.65
In Section 2 we have formalised the problem of OOD input detection and explained the mathematical aspects of our technique. 第2節ではOOD入力検出の問題を定式化し,その数学的側面を解説した。 0.57
In Section 3, we have briefly explained the related previous work and wherever possible we have also presented a comparison with ours. 第3節では、関連する以前の作業と、可能ならば、私たちのものとの比較も行なっています。 0.65
In Section 4, we have described about the details of our experiments and showcased our results and comparisons with the state of the art methods. 第4節では,実験の詳細について解説し,その結果と技術の現状との比較を行った。 0.69
In Section 5, we have discussed the principles behind our technique and hence, explained the results obtained. 第5節では,本手法の背景にある原則について論じ,その結果を解説した。 0.70
In the last section, we conclude the paper by presenting some advantages in disguise of our work. 最後のセクションでは、私たちの仕事を偽装するいくつかの利点を提示することによって、論文を締めくくります。 0.54
2. Problem Formulation and Proposed Solu- 2. 問題定式化とsulの提案- 0.72
tion Let C be a classifier neural network, Tr and Te be the training and test data distributions respectively, X be a sample from one of Tr and Te, M be a real valued measure and δ be a real number, then the problem of OOD input detection can be defined as follows, tion C を分類器ニューラルネットワークとし、Tr と Te をそれぞれ訓練および試験データ分布とし、X をTr と Te のどちらか一方のサンプルとし、M を実値測度とし、δ を実数とし、OOD 入力検出の問題を次のように定義する。 0.77
OOD Input Detection - If C is trained on data which is sampled from Tr and receives X sampled from Te then M < δ should hold. OOD入力検出 - C が Tr からサンプルされたデータに基づいてトレーニングされ、Te からサンプルされた X を受け取ると、M < δ が保持される。
訳抜け防止モード: OOD入力検出 - if CはTrからサンプリングされたデータに基づいて訓練される Te からサンプル X を受け取ると、M < δ が成り立つ。
0.76
We have attempted to solve the special case of the above problem, where C applies softmax activation on its outputs 我々は、cが出力にソフトマックスアクティベーションを適用するような、上記の問題の特別な場合を解こうとした。 0.74
2 and Tr and Te are defined on image space. 2 Tr と Te は画像空間上で定義される。 0.85
As a first step, we developed pseudo-BNN which are described in detail below. 最初のステップとして、以下に詳述した擬似BNNを開発した。 0.72
2.1. pseudo-BNN In principle, conventional BNNs optimize their parameters over the following cost function which is also known as variational free energy [20, 29, 8] or the expected lower bound [24, 29, 12], 2.1 擬似BNN 原則的に、従来のBNNは、変動自由エネルギー[20, 29, 8]または期待される下限[24, 29, 12]としても知られている以下のコスト関数を介してパラメータを最適化する。 0.66
F (D, θ) = KL[q(w|θ)||P (w)] F(D, θ) = KL[q(w|θ)||P(w)] 0.96
− Eq(w|θ)[log P (D|w)] − Eq(w|θ)[log P (D|w)] 0.96
(1) In (1), D denotes the training data, q(w|θ) and P (w) are the posterior distribution and prior over the weights respectively, where θ is the tuple of parameters of the posterior distribution, −Eq(w|θ)[log P (D|w)] is the negative log likelihood over the data given the weights. 1)Dはトレーニングデータを表し、q(w|θ) と P(w) はそれぞれ重量の後方分布と先行分布であり、θ は後方分布のパラメータのタプル、−Eq(w|θ)[log P(D|w)] は重量の与えられたデータに対する負の対数である。
訳抜け防止モード: ( 1 ) in ( 1 ) D はトレーニングデータを表します。 q(w|* ) と P(w ) は後分布である そして、それぞれ重みを上回る。ここでは、後分布のパラメータのタプルです。 −Eq(w|*)[log P (D|w ) ] は、重みが与えられたデータに対する負のログの可能性です。
0.84
It is basically the sum of two parts, the data dependent part which is called as likelihood cost and the prior dependent part which is called as complexity cost [3]. 基本的には2つの部分の合計であり、データ依存部は確率コストと呼ばれ、それ以前の依存部は複雑性コスト [3] と呼ばれる。 0.82
In practice, the cost function in (1) is intractable and hence, the following approximated cost function is used [3], 実際には(1)のコスト関数は難易度が高く、従って以下の近似コスト関数が用いられる[3]。 0.77
F (D, θ) ≈ n(cid:88) F(D, θ) = n(cid:88) 0.94
log q(w(i)|θ) − log P (w(i)) log q(w(i)|θ) − log P(w(i)) 0.89
i=1 − log P (D|w(i)) i=1 − log P (D|w(i)) 0.78
(2) In (2), w(i) is the ith Monte Carlo sample of weights drawn from the posterior q(w(i)|θ). (2) (2) において、w(i) は後方の q(w(i)|θ) から引き出された重みの ithモンテカルロ標本である。 0.80
We consider the case when q(w|θ) is N (µ, σ) and P (w) is chosen as N (0, σp). q(w|θ) が N (μ, σ) であり、P(w) が N (0, σp) として選ばれる場合を考える。 0.85
w is computed using the reparametrization trick [13] as, µ+ σ ◦ ,  ∼ N (0, 1). w は再パラメータ化トリック [13] を用いて計算され、μ+ σ {\displaystyle \,} は μ+ σ {\displaystyle μ\,} である。
訳抜け防止モード: w はreparametrization trick[13 ] を使って計算されます。 µ+ σ ◦ ,  ∼ N ( 0, 1 ) .
0.81
Therefore, for this we can analyse the summand in (2) as follows, そのため、(2)の要約を次のように分析することができる。 0.82
√ 1 2π σ exp(− 1 √ 1 2π σ exp(− 1) 0.90
2 ( w−µ • log q(w|θ) - When posterior distribution is N (µ, σ), then q(w|θ) can be written as, σ )2). 2 ( w-μ) • log q(w|θ) - 後続分布が N (μ, σ) の場合、q(w|θ) は σ )2) と書くことができる。 0.76
Since, w is µ + σ◦ , hence the term in the exponential part reduces to a constant, exp(2). ゆえに、w は μ + σ であるから、指数的部分の項は定数 exp(*2) に還元される。 0.72
The only variable in q(w|θ) is therefore, 1 σ , hence the variable part of log q(w|θ) will be, −log(σ). したがって、q(w|θ) の唯一の変数は 1 σ であり、したがって log q(w|θ) の変数部分は −log(σ) となる。 0.83
• log P (w) - When the prior distribution is chosen as N (0, σp) then P (w) can be written as )2). • log P (w) - 前の分布が N (0, σp) として選択されると、P (w) は ) として書くことができる。 0.89
As we have explained above, w is µ + σ ◦  and the variables are only present in the exponential part, hence, log P (w) can be rew2. 上述したように、w は μ + σ {\displaystyle w} であり、変数は指数部分のみに存在するため、対数 P (w) は rew2 となる。 0.73
Further, w2 will be translated to placed with 1 σ2 (µ2 + σ2 ◦ 2 + 2µ◦ σ ◦ ). さらに、w2 は 1 σ2 (μ2 + σ2 s s s s s s s s) に翻訳される。 0.77
The interesting observap 1 σ2 tion that can be made here is that when |µ◦σ◦| << 1, p then log P (w) acts as a L2-regulariser for µ and σ. ここで得られる興味深いオブザーバップ 1 σ2 の割当は |μ\σ\| <<1, p のとき、log p (w) は μ と σ の l2-レギュラリザーとして作用する。 0.78
In addition, when µ reaches near to an optimal or suboptimal point, σ tends to 0, so that the approximated さらに、μ が最適点または最適点に近い場合、σ は 0 になる傾向があり、近似される。 0.82
exp(− 1 2 ( w σp exp(− 1) 2 (w σp) 0.85
√ 1 σp 2π √ 1 σp 2π 0.81
英語(論文から抽出)日本語訳スコア
cost in (2) is minimised and the output of the BNN is very close to the expected output [27]. コストは(2)を最小化し、BNNの出力は期待される出力に非常に近い[27]。 0.75
Hence, the assumption |µ ◦ σ ◦ | << 1 will hold true in this case. したがって、仮定 |μ , σ , | < < 1 は、この場合真となる。 0.68
• − log P (D|w) - This is simply the negative log likelihood of data given the weights. • − log P (D|w) - これは単に重みが与えられたデータの負の対数である。 0.80
We observed from the above analysis that, if µ is taken as pre-trained weights of an ANN with point estimate, then the prior distribution over weights is acting as a L2-regulariser for µ and if the weights of the previous ANN were already regularised during training then the prior isn’t required for learning σ. 以上の結果から, μ を点推定値付き ANN の事前学習重みとして捉えた場合,μ の事前分布は μ のL2-正則値として作用し,前回の ANN の重みがトレーニング中に既に正規化されていた場合, σ の学習には事前の学習が不要であることがわかった。 0.80
Therefore, we modified the cost in (2) as follows, そこで, (2) のコストを次のように修正した。 0.72
Fmod(D, θ) = − π1 log(σ) + π2E[− log P (D|w)] + π3s2 (3) The cost function in (3) takes µ as the weights of an ANN with point estimate and is kept unchanged during training. Fmod(D, θ) = − π1 log(σ) + π2E[- log P (D|w)] + π3s2 (3) (3) のコスト関数は、点推定で μ を ANN の重みとして取り、訓練中に変化しない。 0.89
The only parameter which is optimised is σ. 最適化される唯一のパラメータはσです。 0.83
It can be well explained when broken into the following three components, 以下の3つの構成要素に分解するとよく説明できます。 0.74
• −π1 log(σ) - This component ensures that σ > 0 during training. • −π1 log(σ) - この成分は σ > 0 を訓練中に保証する。 0.79
The purpose of this is to make sure that σ ◦  in µ + σ ◦  is never zero or the perturbation added to µ is never zero. その目的は、μ + σ で σ が 0 でないこと、μ に付加された摂動が決して 0 ではないことを保証することである。 0.80
π1 is the importance of this component in Fmod. π1 は fmod におけるこの成分の重要性である。 0.73
• π2E[− log P (D|w)] - This is simply the negative loglikelihood of the data given the weights. • π2E[− log P (D|w)] - これは単に重みを与えられたデータの負のログ類似性である。 0.79
The importance of this component is controlled by the value of π2. この成分の重要性は π2 の値によって制御される。 0.80
• π3s2 - This is the sum of variances of the softmax scores of each class in different outputs obtained from multiple samples of weights. • π3s2 - これは、重みの複数のサンプルから得られた異なる出力における各クラスのソフトマックススコアの分散の合計です。 0.79
Specifically if there are c classes and we took n Monte Carlo samples of weights, then there will be n softmax scores and in each of these, the softmax score of kth class will be different. 具体的には、cクラスがあり、重量のnモンテカルロのサンプルを取った場合、nソフトマックススコアがあり、これらのそれぞれで、kthクラスのソフトマックススコアは異なります。 0.65
We take the variance of the scores of each of the c classes and sum them together to obtain s2. 我々は、各cクラスのスコアのばらつきを取り、s2を取得するためにそれらを合計します。 0.67
In other words, this component reflects the disagreement between the outputs for different samples of weights. 言い換えると、この成分は異なる重みのサンプルの出力間の不一致を反映している。 0.75
π3 is the importance of this component in Fmod. π3 は fmod におけるこの成分の重要性である。 0.73
In short, Fmod in (3) ensures that the perturbations added to the weights of an ANN with point estimate will always be non-zero and will be optimised in such a way that the disagreement between multiple samples of w is minimised for the given data without compromising on the test accuracy of the ANN whose weights are being used to learn σ. Optimising σ on Fmod by keeping µ fixed will result in pseudoBNN with µ, σ as its parameters. 簡単に言うと、Fmod in (3) の Fmod は、点推定で ANN の重みに加わった摂動が常にゼロではないことを保証し、そのパラメータとして μ の固定を保ったまま Fmod 上の σ を最適化すると、μ, σ の擬BNN が μ, σ のパラメータとして得られることによる ANN のテスト精度を損なうことなく、与えられたデータに対して w の複数のサンプル間の不一致が最小化されるように最適化される。 0.74
Now we propose two measures of disagreement which use multiple outputs from pseudo-BNN to effectively segregate OOD and ID inputs. そこで本研究では,疑似BNNからの複数の出力を用いてOOD入力とID入力を効果的に分離する2つの不一致対策を提案する。 0.56
2.2. Measures of Disagreement 2.2. 不一致の措置 0.67
Suppose that n Monte Carlo samples of weights were drawn using pseudo-BNN’s parameters for classifying the input to c classes, therefore giving us n softmax scores for each of the c classes. nモンテカルロの重みのサンプルが、cクラスへの入力を分類するために擬BNNのパラメータを使って描画されたと仮定すると、各cクラスに対してnソフトマックススコアが得られる。 0.72
Further suppose that, the mean softmax score and it’s standard deviation for kth class is µk and σk respectively. さらに、平均 Softmax スコアと kth クラスの標準偏差はそれぞれ μk と σk であると仮定する。 0.74
We define the first measure of disagreement as follows, 意見の一致の最初の尺度を次のように定義します。 0.59
M1 = − log( M1 = − log( 0.99
σk µk ) (4) σk μk ) (4) 0.80
c(cid:88) k=1 c(cid:88) k=1 0.71
In (4), σk µk (4), σk μk 0.79
is the index of dispersion of the n softmax scores for the kth class. k番目のクラスのnソフトマックススコアの分散の指標です。 0.63
Therefore, in words the measure in (4), attains large values when the sum of index of dispersions for all the classes is low because − log is a decreasing function. したがって、すなわち (4) の測度は、-log が減少する関数であるため、すべてのクラスに対する分散の指数の合計が低くなると、大きな値となる。 0.85
In the second measure, we have also included the entropy of the average softmax scores of all the classes as shown below, 第2の尺度では、以下に示すように、すべてのクラスの平均ソフトマックススコアのエントロピーも含んでいる。 0.72
M2 = π1 1(cid:80)c M2 = π1 1(cid:80)c 0.83
k=1 (cid:80)c k=1 −µk log µk k=1 (cid:80)c k=1 −μk log μk 0.62
1 + π2 σk µk 1 + π2 σk μk 0.81
(5) As it can be observed in (5), the second part of the sum is simply the inversion of the entropy of average softmax scores of all the classes because it can be interpreted as a probability distribution. (5) (5)で見ることができるように、和の第二部は、確率分布として解釈することができるので、単にすべてのクラスの平均ソフトマックススコアのエントロピーの反転である。 0.81
To ensure that M2 doesn’t becomes inf, a small value close to but greater than zero can be added M2 が inf にならないことを保証するため、0 に近いが 0 より大きい小さな値を追加することができる。 0.79
to(cid:80)c to(cid:80)c 0.88
k=1 σk µk and(cid:80)c k=1 σk μk および(cid:80)c 0.71
k=1 −µk log µk. k=1 −μk log μk。 0.61
3. Related Work The methods used for OOD input detection can be divided into two broad categories, generative methods which use generative models to flag OOD inputs and classifier methods which use softmax scores for the same task. 3. 関連作品 OOD入力検出に用いる手法は、生成モデルを用いてOOD入力をフラグする生成方法と、同じタスクにソフトマックススコアを使用する分類器方法の2つに分けることができる。 0.77
Our technique belongs to the second category. 我々の技術は第二のカテゴリーに属する。 0.77
In this section we have highlighted the previous work from both the categories and wherever possible we have also mentioned how our approach differs from the previous ones. このセクションでは、カテゴリと可能な場所の両方からの以前の作業を強調し、また、アプローチが以前のものとどのように異なるかについても触れました。 0.64
• A Baseline For Detecting Missclassified And Out-OfDistribution Examples In Neural Networks [10] - This method is a classifier based method, which aims to utilise the low softmax scores produced by a neural network for misclassified and OOD inputs. • ニューラルネットワークにおけるミス分類およびアウトオフ分布の検出のためのベースライン [10] - この手法は、ニューラルネットワークが生成する低ソフトマックススコアを誤分類およびOOD入力に活用することを目的とした分類器ベースの手法である。 0.74
It has been shown to work with a variety of datasets and neural networks on diverse sets of tasks including computer vision, natural language processing and automatic speech recognition. コンピュータビジョン、自然言語処理、自動音声認識など、さまざまなタスクセットにおいて、さまざまなデータセットやニューラルネットワークと連携することが示されている。 0.75
This approach differs from このアプローチは異なる。 0.77
3 3 0.85
英語(論文から抽出)日本語訳スコア
ours in the sense that it only uses the softmax scores produced by a single ANN estimate, where as in ours, we learn a second parameter for injecting random perturbations to the weights of the ANN. 私たちは、単一のANN推定値によって生成されるソフトマックススコアのみを使用するという意味で、ANNの重みにランダムな摂動を注入するための第2のパラメータを学びます。 0.70
• Enhancing The Reliability Of Out-Of-Distribution Image Detection In Neural Networks [19] - This work is also a classifier based method which builds on top of Hendrycks [10]. The Reliability of Out-Of-Distribution Image Detection In Neural Networks [19] - この研究はHendrycks [10]の上に構築された分類器ベースの手法でもある。 0.81
It uses temperature scaling and adds small directed perturbations to the inputs, based on the gradient of maximum softmax scores with respect to the input, to effectively separate the softmax scores for ID and OOD inputs. 温度スケーリングを使用し、入力に対する最大ソフトマックススコアの勾配に基づいて、入力に小さな方向の摂動を加え、IDとOOD入力のソフトマックススコアを効果的に分離する。 0.71
Our approach differs from this work because it doesn’t require gradient computation, an expensive operation, to detect OOD inputs. 私たちのアプローチは、ood入力を検出するために勾配計算や高価な演算を必要としないため、この作業と異なります。 0.69
• A Simple Unified Framework for Detecting Out-ofDistribution Samples and Adversarial Attacks [18]This work is a generative classifier based method and assumes a multivariate Gaussian distribution over the class conditional distribution. • A Simple Unified Framework for Detecting Out-ofDistribution Samples and Adversarial Attacks [18] この研究は生成型分類器に基づく手法であり、クラス条件分布上の多変量ガウス分布を仮定する。 0.90
It proposes to use Mahalanobis distance based confidence scores by computing a covariance matrix for each layer and then adding small amount of directed perturbations to the input and then computing their proposed confidence scores, which at the end are fed to a logistic regressor. マハラノビス距離に基づく信頼度スコアを各層に共分散行列を計算し、入力に少量の指向的摂動を加え、提案した信頼度スコアを計算し、最後にロジスティック回帰器に供給することを提案する。
訳抜け防止モード: 各層に対する共分散行列を計算し,マハラノビス距離に基づく信頼度スコアの利用を提案する。 入力に少量の指向性摂動を加えると そして 提案された信頼度を計算し 最後はロジスティック回帰器に 供給されます
0.78
The logistic regressor is trained with the help of validation samples. logistic regressorは検証サンプルの助けを借りてトレーニングされる。 0.82
Our approach doesn’t assume anything about the distributions of the outputs from any layer and relies completely on the final predictions made by the pseudo-BNN. このアプローチでは、任意のレイヤからの出力の分布については何も想定せず、擬似BNNによる最終的な予測に完全に依存しています。 0.65
• Likelihood Ratios for Out-of-Distribution Detection [23] - This method assumes that an input is composed of two components, a background component and a semantic component and trains two models, pθ on ID data and pθo is a background model which captures background statistics. • 分布外検出の確率比 [23] - 入力は背景成分と意味成分の2つの成分で構成され、idデータ上でpθを訓練し、pθoは背景統計をキャプチャする背景モデルである、と仮定する。 0.81
Then a likelihood ratio statistic defined as log pθ(x) pθo (x) to detect OOD inputs by comparing it with a threshold. 次に、対数 pθ(x) pθo (x) として定義される確率比統計により、OOD入力をしきい値と比較することで検出する。 0.68
It has been shown to work with image and genomic datasets. 画像およびゲノムデータセットで動作することが示されています。 0.63
• For OOD detection, ensemble based techniques which use predictions from more than one neural networks to classify an input as OOD. • OOD検出では、複数のニューラルネットワークからの予測を使用して入力をOODに分類するアンサンブルベースの手法。 0.84
However, scaling this technique to large networks is difficult due to its high memory requirements. しかし,この手法を大規模ネットワークに拡張することは,メモリの要求量が大きいため困難である。 0.69
In addition, entropy of the softmax scores have also been used previously to detect OOD inputs. さらに、OOD入力を検出するためにソフトマックススコアのエントロピーも以前使用されていた。 0.62
There have also been attempts to use an ensemble of generative models and evaluating E[log pθ(x)] − V ar[log pθ(x)] [6]. また、生成モデルのアンサンブルを使用し、E[log p'(x)] − V ar[log p'(x)] [6]を評価する試みも行われている。 0.69
Our approach though measures disagreement between multiple outputs but they are obtained from multiple samples of weights from a single neural network. 提案手法は複数の出力間の不一致を計測するが、単一のニューラルネットワークから複数の重みのサンプルから得られる。 0.76
4. Experiments and Results We first trained an ANN on a dataset to obtain point estimate and then trained a pseudo-BNN by reusing the weights of the previously trained ANN as µ and optimising the cost function in (3) over σ for the same dataset. 4. 実験と結果 筆者らはまず,データセット上でANNを訓練して点推定を行い,その上で,以前トレーニングしたANNの重みをμとして再利用し,同じデータセットに対して σ 上 σ 上のコスト関数を最適化することにより,擬似BNNを訓練した。 0.77
We used the following combination of architectures and ID datasets in our experiments, 実験では、以下のアーキテクチャとIDデータセットを組み合わせました。 0.72
• C1 - A simple CNN architecture with first two layers of Convolution layers with a common kernel size of (5, 5) and number of channels as 32 and 64 and a stride of 1 with SAME padding. • C1 - 一般的なカーネルサイズ(5, 5)と32と64のチャンネルの数とSAMEパディングを備えた1のストライドを持つコンボリューション層の最初の2つの層を持つシンプルなCNNアーキテクチャ。 0.85
We used max pooling of window size (2, 2) and with a stride of 2, after each convolution layer. ウィンドウサイズ(2,2)の最大プールと,各畳み込み層の後に2段のストライドを用いた。 0.77
The last two layers were fully connected with 1024 and 10 output units respectively. 最後の2層はそれぞれ1024と10の出力ユニットと完全に接続されていた。 0.70
All but last layer used ReLU activation. 最後のレイヤ以外はすべて、ReLUアクティベーションを使用した。 0.51
The dataset used for training was MNIST database of handwritten digits. トレーニングに使用されるデータセットは、手書き桁のMNISTデータベースでした。 0.72
We trained pseudo-BNN for 1708 iterations with a batch size of 256. バッチサイズ256の1708イテレーションで擬似BNNをトレーニングしました。 0.66
• C2 - VGG-10 was trained on CIFAR10 dataset. • C2 - VGG-10はCIFAR10データセットで訓練された。 0.61
For training pseudo-BNN, we used 1712 iterations with a batch size of 64. 擬似BNNのトレーニングには、バッチサイズ64の1712のイテレーションを使用しました。 0.62
• C3 - ResNet-20 was trained on CIFAR10 dataset. • C3 - ResNet-20はCIFAR10データセットで訓練されました。 0.58
Here, for pseudo-BNN, we ran 802 iterations with a batch size of 128. ここでは、擬似BNNでは、128のバッチサイズで802回のイテレーションを実行しました。 0.61
• C4 - A simple CNN architecture was trained on SVHN dataset. C4 - SVHNデータセットでトレーニングされた単純なCNNアーキテクチャ。 0.68
It had a sequence of ConvolutionBatch Normalisation-Convol ution-Max Pool-Dropout blocks. ConvolutionBatch Normalisation-Convol ution-Max Pool-Dropoutブロックのシーケンスを持っていた。 0.58
There were three such blocks with 32, 64 and 128 channels in the Convolution layers. コンボリューション層には32, 64, 128チャンネルの3つのブロックがあった。 0.73
The kernel size of all the Convolution layers was (3, 3) with a stride of 1 and SAME padding. すべての畳み込み層のカーネルサイズは (3, 3) であり、1 と SAME のパディングが連続していた。 0.69
The window size for Max Pool was (2, 2) with a stride of 1. Max Pool のウィンドウサイズは (2, 2) でストライドは1。 0.65
The Dropout rate was 0.3. ドロップアウト率は0.3。 0.69
The last two layers were fully connected with 128 and 10 output units. 最後の2層は128と10の出力ユニットと完全に接続されていた。 0.67
For pseudo-BNN, we ran 315 iterations with a batch size of 128. 擬似BNNでは、バッチサイズが128の315回のイテレーションを実行しました。 0.63
• C5 - DenseNet-100 with a growth rate of 12 was trained on CIFAR100 dataset. • C5 - 成長率12のDenseNet-100はCIFAR100データセットで訓練されました。 0.71
For pseudo-BNN model of this architecture, we used 120 iterations with a batch size of 64. このアーキテクチャの擬似BNNモデルでは、バッチサイズ64の120のイテレーションを使用しました。 0.68
Instead of learning σ, we also tried another approach where we added small random perturbations to the weights of a frequentist ANN but we observed that this approach results in degradation of test accuracy if the strength of perturbations is high and if it is low then test accuracy is preserved but the performance of OOD input detection degrades. σを学習する代わりに、我々はまた、頻繁なANNの重みに小さなランダムな摂動を追加した別のアプローチを試しましたが、このアプローチは摂動の強度が高く、それが低い場合はテスト精度が維持され、OOD入力検出のパフォーマンスが低下するとテスト精度の低下をもたらすことを観察しました。 0.75
For example, when we added perturbations sampled from N (0, 1) to the weights ANN model of C1 architecture, the test accuracy on MNIST dataset [17] reduced from ≈ 98% to ≈ 10% and when we sampled the perturbations 例えば、N (0, 1) からサンプリングした摂動を C1 アーキテクチャの重み付け ANN モデルに付加すると、MNIST データセット [17] の検定精度は 98% から 10% に低下し、摂動をサンプリングした。
訳抜け防止モード: 例えば、いつ 我々は、N (0, 1 ) からサンプリングされた摂動を C1 アーキテクチャの重み付け ANN モデルに追加した。 MNISTデータセット[17 ]の検定精度は 98 % から 10 % に低下する 摂動のサンプルを採取すると
0.83
4 4 0.85
英語(論文から抽出)日本語訳スコア
Architecture ID/OOD C1 建築 ID/OOD C1 0.71
C2 C2 C3 C3 C2 C2 C3 C3 0.78
C4 C4 C4 C5 C4 C4 C4 C5 0.78
C5 MNIST/ Fashion-MNIST C5 MNIST/ ファッションMNIST 0.76
CIFAR10/ CMATERDB CIFAR10/ CMATERDB 0.72
CIFAR10/ CIFAR100 CIFAR10/CIFAR100 0.58
CIFAR10/ CMATERDB CIFAR10/ CMATERDB 0.72
CIFAR10/ CIFAR100 CIFAR10/CIFAR100 0.58
SVHN/ CIFAR10 SVHN/CIFAR10 0.70
SVHN/ CMATERDB SVHN/ CMATERDB 0.82
SVHN/ GAUSSIAN SVHN/ ガウジアン 0.64
CIFAR100/ CIFAR10 CIFAR100/CIFAR10 0.59
CIFAR100/ CMATERDB CIFAR100/CMATERDB 0.70
Method Ours (M1) Method Ours (M1) 0.99
Hendrycks [10] ヘンドリックス[10] 0.63
ODIN MHB LLR(µ)∗ LLR(µ, λ)∗ ODIN MHB LLR(μ)∗ LLR(μ, λ)∗ 0.85
WAIC(5 models)∗ WAIC(5モデル)! 0.72
Ours (M2) Hendrycks [10] 我ら(M2) ヘンドリックス[10] 0.67
ODIN MHB Ours (M2) ODIN MHB 我ら(M2) 0.79
Hendrycks [10] ヘンドリックス[10] 0.63
ODIN MHB Ours (M2) ODIN MHB 我ら(M2) 0.79
Hendrycks [10] ヘンドリックス[10] 0.63
ODIN MHB Ours (M2) ODIN MHB 我ら(M2) 0.79
Hendrycks [10] ヘンドリックス[10] 0.63
ODIN MHB Ours (M2) ODIN MHB 我ら(M2) 0.79
Hendrycks [10] ヘンドリックス[10] 0.63
ODIN MHB Ours (M2) ODIN MHB 我ら(M2) 0.79
Hendrycks [10] ヘンドリックス[10] 0.63
ODIN MHB Ours (M2) ODIN MHB 我ら(M2) 0.79
Hendrycks [10] ヘンドリックス[10] 0.63
ODIN MHB Ours (M2) ODIN MHB 我ら(M2) 0.79
Hendrycks [10] ヘンドリックス[10] 0.63
ODIN MHB Ours (M2) ODIN MHB 我ら(M2) 0.79
Hendrycks [10] ヘンドリックス[10] 0.63
ODIN MHB FPR at 95 % TPR ↓ AUPR ↑ AUROC ↑ Detection Error ↓ ODIN MHB FPRは95%のTPR、AUPR、AUPR、AUROC、検出エラーです。 0.71
1.72 27.48 27.088 30.31 NA NA NA 54.80 61.48 56.80 100.0 67.41 71.35 71.39 99.86 48.18 58.88 59.03 75.63 64.37 70.74 71.6 99.71 37.00 43.80 43.18 88.50 51.00 49.00 52.59 87.083 1.61 19.95 19.97 95.08 89.62 87.77 87.98 98.45 81.7 82.80 82.60 0.43 1.72 27.48 27.088 30.31 NA NA NA 54.80 61.48 56.80 100.0 67.41 71.35 71.39 99.86 48.18 58.88 59.03 75.63 64.37 70.74 71.6 99.71 37.00 43.80 43.18 88.50 51.00 49.00 52.59 87.083 1.61 19.95 19.97 95.08 89.62 87.77 87.98 98.45 81.7 82.80 82.60 0.43 0.42
99.44 97.00 96.92 96.49 95.10 99.30 40.10 95.98 92.58 93.11 62.008 88.92 82.56 82.88 40.89 92.41 90.68 90.10 90.60 98.82 85.89 85.63 50.74 94.85 93.12 93.02 92.70 87.73 84.93 84.49 87.68 98.51 98.00 97.92 91.41 73.00 70.99 70.65 47.32 82.73 80.81 81.41 99.65 99.44 97.00 96.92 96.49 95.10 99.30 40.10 95.98 92.58 93.11 62.008 88.92 82.56 82.88 40.89 92.41 90.68 90.10 90.60 98.82 85.89 85.63 50.74 94.85 93.12 93.02 92.70 87.73 84.93 84.49 87.68 98.51 98.00 97.92 91.41 73.00 70.99 70.65 47.32 82.73 80.81 81.41 99.65 0.40
99.32 96.06 96.00 95.31 97.30 99.40 22.10 91.53 91.82 92.48 47.32 87.45 88.65 88.70 34.36 92.62 90.13 89.71 87.64 91.36 85.96 85.87 44.36 93.01 94.04 94.00 89.06 92.06 92.34 92.04 84.84 98.85 96.88 96.85 86.45 70.20 70.88 70.71 43.48 77.68 77.07 77.52 99.53 99.32 96.06 96.00 95.31 97.30 99.40 22.10 91.53 91.82 92.48 47.32 87.45 88.65 88.70 34.36 92.62 90.13 89.71 87.64 91.36 85.96 85.87 44.36 93.01 94.04 94.00 89.06 92.06 92.34 92.04 84.84 98.85 96.88 96.85 86.45 70.20 70.88 70.71 43.48 77.68 77.07 77.52 99.53 0.40
3.36 16.24 16.05 17.65 NA NA NA 29.87 33.23 30.89 52.52 36.21 38.17 38.19 52.447 26.58 31.94 32.02 40.32 34.69 37.87 38.30 52.36 21.00 24.44 24.09 46.75 28.00 27.00 28.80 40.02 3.31 12.48 12.48 50.04 47.33 46.38 46.5 51.72 43.36 43.89 43.81 2.71 3.36 16.24 16.05 17.65 NA NA NA 29.87 33.23 30.89 52.52 36.21 38.17 38.19 52.447 26.58 31.94 32.02 40.32 34.69 37.87 38.30 52.36 21.00 24.44 24.09 46.75 28.00 27.00 28.80 40.02 3.31 12.48 12.48 50.04 47.33 46.38 46.5 51.72 43.36 43.89 43.81 2.71 0.42
Table 1. The performance of various methods on OOD input detection using various neural network architectures and datasets. 表1。 ニューラルネットワークアーキテクチャとデータセットを用いたOOD入力検出における各種手法の性能 0.76
C1 and C4 are simple convolution architectures. C1とC4は単純な畳み込みアーキテクチャである。 0.64
C2 is VGG-10, C3 is ResNet-20 and C5 is DenseNet-100 with growth rate of 12. C2はVGG-10、C3はResNet-20、C5はDenseNet-100で成長率は12。 0.69
Ours denotes our proposed technique, ODIN refers to Lieang et al. 私たちの技術は提案技術であり、odinはlieang et alを指します。 0.45
[19], MHB refers to Lee et al. [19]mhbはleeらを指す。 0.49
[18], LLR refers to Ren et al. [18]、LLRはRen et alを指す。 0.58
[23], and WAIC refers to Choi et al. [23] と waic は choi et al を指す。 0.54
[6]. The best results for each ID/OOD dataset and architecture combination is highlighted in bold. [6]. ID/OODデータセットとアーキテクチャの組み合わせの最良の結果は、大胆に強調される。 0.68
* denotes the directly reported results. ※直接報告された結果。 0.72
We tried both M1 and M2 for our technique and show the best results here. 我々はM1とM2の2つの手法を試し、最も良い結果を示しました。 0.69
from N (0, 0.01), the FPR at 95% TPR for Fashion-MNIST was ≈ 55%. N(0,0.01)から、ファッションMNISTの95%TPRにおけるFPRは55%であった。 0.79
By learning σ, we were able to achieve, 1.72% σ を学習することで 1.72%の確率で 0.70
FPR at 95% TPR as shown in Table 1. 表1に示すように、95% TPRでのFPR。 0.85
In fact, handcrafting the strength of perturbations is nearly impossible because 実際 摂動の強さを 手作りするのは ほとんど不可能です なぜなら 0.49
5 5 0.85
英語(論文から抽出)日本語訳スコア
Architecture C1 C2 C3 C4 C5 アーキテクチャ C1 C2 C3 C4 C5 0.64
Dataset MNIST CIFAR10 CIFAR10 SVHN データセットMNIST CIFAR10 CIFAR10 SVHN 0.74
CIFAR100 Test Accuracy of ANN (in %) Test Accuracy of pseudo-BNN (in %) CIFAR100 ANNの試験精度(%)と擬似BNNの試験精度(%) 0.77
98.53 93.54 91.68 95.93 68.099 98.53 93.54 91.68 95.93 68.099 0.44
98.49 93.66 91.44 94.43 68.08 98.49 93.66 91.44 94.43 68.08 0.44
Table 2. The test accuracy of an ANN with point estimate and the associated pseudo-BNN for various architectures. 表2。 点推定を用いたANNのテスト精度と、様々なアーキテクチャに対する準擬似BNN。 0.77
C1 and C4 are simple convolution architectures. C1とC4は単純な畳み込みアーキテクチャである。 0.64
C2 is VGG-10, C3 is ResNet-20 and C5 is DenseNet-100 with growth rate of 12. C2はVGG-10、C3はResNet-20、C5はDenseNet-100で成長率は12。 0.69
ANNs with point estimate and pseudo-BNN for the above architectures. 上記のアーキテクチャに対する点推定と擬似BNNを備えたANN。 0.69
Only one sample of weights was drawn for computing these test accuracy. これらのテスト精度を計算するために、重みのサンプルが1つだけ描かれた。 0.57
It can be observed that the change in test accuracy is negligible as compared to their counterparts. テスト精度の変化は、それと比較して無視可能であることが観察できます。 0.72
In Table 1, we show the results from our technique for OOD input detection and compare it with previous work on metrics such as False Positive Rate at 95 % True Positive Rate (FPR at 95 % TPR), Area Under the Precision Recall Curve (AUPR), Area Under the Receiver Operating Characteristic Curve (AUROC) and Detection Error. 表1では、OOD入力検出のための当社の技術からの結果を示し、95%の偽陽性率(95%のTPR)、精度リコール曲線(AUPR)下の領域、受信者操作特性曲線(AUROC)下の領域、および検出エラーにおける偽陽性率(95%のTPR)などの指標に関する以前の研究と比較します。 0.81
These metrics have been used for evaluation in [10, 19, 18, 23]. これらの指標は[10, 19, 18, 23]で評価に使用されています。 0.75
For ODIN [19], we picked T for temperature scaling from, {10, 100, 1000} and  from {0.0001, 0.00625, 0.025, 0.05, 0.1}. ODIN [19] では, {10, 100, 1000} および {0.0001, 0.00625, 0.025, 0.05, 0.1} から T を温度スケーリングとして選択した。 0.81
In Mahalanobis Distance [18], we used the outputs from the second last and last layer. マハラノビス距離[18]では、第2層と最後の層からの出力を使いました。 0.73
It is to be noted that, no method, including ours, was adapted to OOD data beforehand for better performance, because at the time of deployment, OOD examples can come from any distribution and fine tuning a method for one distribution may not guarantee performance for other distributions. デプロイ時に、OODの例は任意のディストリビューションから来ることができ、あるディストリビューションのメソッドを微調整することは、他のディストリビューションのパフォーマンスを保証できないため、我々のものを含むメソッドは、事前にOODデータに適合していなかったことに注意する必要がある。 0.61
It can be seen that, our method beats the previous work on most of the datasets and neural network architectures and achieves comparable results in other cases. この手法は,従来のデータセットやニューラルネットワークのアーキテクチャよりも優れており,他のケースでも同等の結果が得られる。 0.70
Mahalanobis distance [18] is observed to perform well when CIFAR100 is ID dataset and CMATERDB is OOD dataset and the architecture used is DenseNet-100 with a growth rate of 12. cifar100 が id データセットで cmaterdb が ood データセットで、アーキテクチャが densenet-100 で成長速度が 12 の場合に、マハラノビス距離 [18] が良好に機能する。
訳抜け防止モード: CIFAR100がIDデータセットである場合、マハラノビス距離 [18 ] が良好に観測される CMATERDBはOODデータセットです 使用するアーキテクチャはDenseNet-100で,成長率は12。
0.79
The reason behind poor performance of other techniques, including ours might be due to poor training of the model, which is a solvable issue. 私たちの技術を含む他の技術の悪いパフォーマンスの背後にある理由は、モデルのトレーニングが悪いためかもしれません。 0.69
In Fig. 2, it can be seen that using M1 (4) on the outputs of pseudo-BNN model of C1 architecture, the MNIST and Fashion-MNIST are almost clearly segregated from each and hence verifying the results. 図1。 C1アーキテクチャの擬似BNNモデルの出力にM1(4)を使用することで、MNISTとFashion-MNISTはそれぞれからほぼ明確に分離され、その結果が検証されることが分かる。 0.69
In addition, for the the same setup, Fig. また、同じ設定の場合、図1に示します。 0.69
3, the FPR at 95% TPR is the least for ours among all the methods. 3つはすべての方法間の私達のために95% TPRのFPR最低です。 0.80
5. Principled Analysis In pseudo-BNN, at the time of inference, we compute, w using µ + σ ◦ ,  ∼ N (0, 1). 5. 原理分析 擬-BNNでは、推測の際、μ + σ > N (0, 1) を用いて w を計算する。 0.76
We can interpret this as σ◦  amount of perturbation added to µ. これを μ に加えられた摂動量 σ σ と解釈できる。 0.70
On the basis of this interpretation, we learn σ by optimising the cost function in (3) by keeping µ as the weights of a pre-trained ANN. この解釈に基づいて、3のコスト関数を事前に訓練されたANNの重みとしてμを維持することにより、σを学習する。 0.72
Figure 1. log Fmod (3) vs Iteration for C4 architecture with SVHN as training data. 図1.ログFmod (3) vs SVHNをトレーニングデータとしてC4アーキテクチャの反復。 0.85
in complex neural network architectures it is very difficult to predict the effect of perturbing weights on the outputs if done manually. 複雑なニューラルネットワークアーキテクチャでは、手動で行うと出力に対する摂動重みの影響を予測することは非常に難しい。 0.77
Our proposed cost function automates this process and σ is learnt in such a way that both the requirements of OOD input detection and test accuracy are satisfied. 提案されたコスト機能は、このプロセスを自動化し、OOD入力検出とテスト精度の両方の要件が満たされるようにσが学習されます。
訳抜け防止モード: 提案するコスト関数はこのプロセスを自動化する σはこのような方法で学習され OOD入力検出の要件とテスト精度の両方を満たす。
0.89
To ensure that σ > 0 during optimisation of (3), we parametrise it using ρ as, σ = log 1 + exp ρ. (3) の最適化中に σ > 0 となるように、ρ を σ = log 1 + exp ρ としてパラメトリクスする。 0.83
The optimizer used for all but last architecture was RM Sprop [26] with a learning rate of 0.01. 最後のアーキテクチャで使用されるオプティマイザはRM Sprop[26]で,学習率は0.01であった。 0.69
We used SGD with a learning rate of 0.01 for the DenseNet-100 architecture. 我々はDenseNet-100アーキテクチャの学習率0.01のSGDを使用した。 0.67
The values of π1 and π3 in (3) were always 1 and that of π2 was adjusted th of − log σ. such that it attains values approximately 1 10 We stopped the training when either the negative log likelihood, cross entropy for image classification tasks, started to increase or there wasn’t any further decrease in π3s2 (third component in (3)). (3) における π1 と π3 の値は常に 1 であり、π2 の値は − log σ の th に調整されていた。
訳抜け防止モード: 3 ) における π1 と π3 の値は、常に 1 であった。 そして π2 の値は − log σ の th を調整した。 約1 10の値が得られるようにトレーニングを中止しました 負の対数確率 画像分類タスクのクロスエントロピー が増加し始めました あるいは、π3s2 (3 ) のさらなる減少はない。
0.83
The intuition behind this is that optimising σ in further iterations won’t be beneficial because, increasing σ will either fluctuate the outputs for ID data too much and decreasing σ will increase − log σ. この背景にある直感は、さらなる反復でσを最適化することは有益ではない、なぜなら、σの増加はIDデータの出力を過度に変動させ、σの減少は−log σを増加させるからである。
訳抜け防止モード: その背後にある直感は 更なるイテレーションでσを最適化する woは役に立たない。 σ の増加 id データの出力を過大に変動させ、σ を減少させると − log σ が増加する。
0.82
In Fig. 1 we show how the total cost decreases while training pseudoBNN model of C4 architecture with SVHN as training data. 図1。 SVHNをトレーニングデータとして,C4アーキテクチャの擬似BNNモデルをトレーニングしながら,総コストがいかに低下するかを示す。
訳抜け防止モード: 図1。 1 総コストの低下を示す。 SVHNをトレーニングデータとするC4アーキテクチャの擬似BNNモデルのトレーニング。
0.69
It can be seen that initially the cost decreases but towards the end the fluctuations in the cost increases and hence we stopped the training for further iterations. 当初、コストは減少するが、最終的にはコストの変動が増加するので、さらなるイテレーションのトレーニングを中止しました。
訳抜け防止モード: ご覧の通り 当初、コストは減少するが、最終的にコストの変動は増加する。 そのため、さらなるイテレーションのトレーニングを停止しました。
0.72
In Table 2, we show the differences in test accuracy of 表2では、テストの正確性の違いを示す。 0.76
6 6 0.85
英語(論文から抽出)日本語訳スコア
Figure 2. Segragation of MNIST (ID) and Fashion-MNIST (OOD) images using pseudo-BNN model of architecture C1 and measure of disagreement M1 (4). 図2。 建築C1の擬似BNNモデルを用いたMNIST(ID)とFashion-MNIST(OOD)画像の分離と不一致の尺度M1(4)。 0.73
Figure 3. True Positive Rate v/s False Positive Rate curves of different methods for MNIST as ID and Fashion-MNIST as OOD data using C1 architecture. 図3。 True Positive Rate v/s False Positive Rate curves of different method for MNIST as ID and Fashion-MNIST as OOD data using C1 architecture。 0.83
The red curve is our method, green curve is Baseline [10], blue curve is ODIN [19] and the violet curve is Mahalanobis Distance [18]. 赤い曲線は私たちの方法であり、緑色の曲線はベースライン[10]、青色の曲線はODIN[19]、紫色の曲線はマハラノビス距離[18]です。 0.69
It can be seen that the False Positive Rate at 95 % True Positive Rate is least for our method. 正正率95パーセントの偽陽性率は、我々の方法としては最低であることがわかる。 0.70
µ is kept fixed during the whole training process. μはトレーニングプロセス全体において固定される。 0.81
If the loss function, categorical cross entropy for classifier neural networks, is denoted as L(w), the gradient with respect to the weights and their perturbations in the kth layer as g(wk) and ∆wk and if there are l layers in the neural network, then by fundamental theorem of calculus the following holds [2], 分類器ニューラルネットワークの分類的クロスエントロピーであるロス関数が L(w) として表されるならば、g(wk) および ywk として kth 層の重みとその摂動に関する勾配であり、ニューラルネットワークに l 層がある場合、次は計算の基本定理によって [2] を保持する。 0.77
L(w + ∆w) − L(w) = L(w + sw) − L(w) = 0.81
l(cid:88) (cid:90) 1 l(cid:88) (cid:90)1 0.82
g(wk + t∆wk)T ∆wk dt g(wk + t\wk)T >wk dt 0.74
(6) Using (6) we can derive the lower and upper bounds for L(w + ∆w) as shown in (7), (8) and empirically in Fig. (6) (6) を用いて (7, (8) で示されるような l(w + ) の下界と上界を fig で経験的に導出することができる。 0.78
4. k=1 0 7 4. k=1 0 7 0.78
Figure 4. The change in the loss for OOD data (bottom) due to addition of ∆w to w. red line is maxt mint L(w). 図4。 OODデータ (bottom) の損失の変化は、w.w. の赤線への添加による最大ミントL(w) である。 0.76
ID data (top) and (cid:80)l The k=1 g(wk + t∆wk)T ∆wk, violet line is k=1 g(wk +t∆wk)T ∆wk and blue line is L(w+∆w)− id data (top) と (cid:80)l k=1 g(wk + t wk)t swk, violet line は k=1 g(wk + t wk)t swk, blue line は l(w+ww)− である。 0.75
(cid:80)l L(w + ∆w) − L(w) ≤ max (cid:80)l L(w + sw) − L(w) ≤ max 0.83
t l(cid:88) t l(cid:88) 0.85
k=1 g(wk + t∆wk)T ∆wk k=1 g(wk + t\wk)T >wk 0.67
(7) l(cid:88) (7) l(cid:88) 0.85
t k=1 min g(wk + t∆wk)T ∆wk ≤ L(w + ∆w) − L(w) (8) The significance of (7) and (8) is that the change in the loss due to perturbations added to the weights of a neural network is bounded from above and below by the maxmimum and the minimum values of sum of the dot products of the strength of the gradients and the perturbations in weights of all layers. t k=1 分 g(wk + t)wk ≤ L(w + tw) − L(w) (8) (7) と (8) の意義は、(7) と (8) ニューラルネットワークの重みに加わった摂動による損失の変化は、最大値と、勾配の強さと全ての層の重みの摂動のドット積の最小値によって上下に制限されていることである。 0.69
If the perturbations are the same, then for OOD input the gradients will be higher because the neural network was never optimised for it but for ID input, the gradient will be low because, it is the ID dataset on which the neural network was trained. 摂動が同じならば、OOD入力では、ニューラルネットワークが最適化されていないため勾配が高くなりますが、ID入力では、ニューラルネットワークがトレーニングされたIDデータセットであるため、勾配が低くなります。 0.63
This intuitively explains the これは直感的に説明します 0.49
英語(論文から抽出)日本語訳スコア
References [1] Dario Amodei, Chris Olah, Jacob Steinhardt, Paul Christiano, John Schulman, and Dan Man´e. 参照 [1] Dario Amodei、Chris Olah、Jacob Steinhardt、Paul Christiano、John Schulman、Dan Man ́e。 0.81
Concrete problems in ai safety. ai安全の具体的な問題。 0.56
arXiv preprint arXiv:1606.06565, 2016. arXiv preprint arXiv:1606.06565, 2016 0.79
1 [2] Jeremy Bernstein, Jiawei Zhao, Markus Meister, Ming-Yu Liu, Anima Anandkumar, and Yisong Yue. 1 [2] Jeremy Bernstein, Jiawei Zhao, Markus Meister, Ming-Yu Liu, Anima Anandkumar, Yisong Yue。 0.84
Learning compositional functions via multiplicative weight updates. 乗法重み更新による構成関数の学習。 0.70
Advances in Neural Information Processing Systems, 33, 2020. ニューラル情報処理システムの進歩 -2020年3月33日- 0.73
2, 7 [3] Charles Blundell, Julien Cornebise, Koray Kavukcuoglu, and Daan Wierstra. 2, 7 3] Charles Blundell、Julien Cornebise、Koray Kavukcuoglu、Daan Wierstra。 0.74
Weight uncertainty in neural networks. ニューラルネットワークの重量の不確実性。 0.63
arXiv preprint arXiv:1505.05424, 2015. arXiv preprint arXiv:1505.05424, 2015 0.80
2 [4] Kumar Chellapilla, Sidd Puri, and Patrice Simard. 2 4] Kumar Chellapilla, Sidd Puri, Patrice Simard。 0.76
High performance convolutional neural networks for document processing. 文書処理のための高性能畳み込みニューラルネットワーク。 0.83
2006. 1 [5] Kyunghyun Cho, Bart Van Merri¨enboer, Caglar Gulcehre, Dzmitry Bahdanau, Fethi Bougares, Holger Schwenk, and Yoshua Bengio. 2006. 1 [5]Kunghyun Cho, Bart Van Merri 'enboer, Caglar Gulcehre, Dzmitry Bahdanau, Fethi Bougares, Holger Schwenk, Yoshua Bengio。 0.84
Learning phrase representations using rnn encoder-decoder for statistical machine translation. 統計機械翻訳のためのrnnエンコーダデコーダを用いたフレーズ表現の学習。 0.63
arXiv preprint arXiv:1406.1078, 2014. arXiv preprint arXiv:1406.1078, 2014 0.80
1 [6] Hyunsun Choi, Eric Jang, and Alexander A Alemi. 1 [6]Hyunsun Choi、Eric Jang、Alexander A Alemi。 0.77
Waic, but why? ウェイク でもなぜ? 0.54
generative ensembles for robust anomaly detection. ロバスト異常検出のための生成アンサンブル 0.61
arXiv preprint arXiv:1810.01392, 2018. arXiv preprint arXiv:1810.01392, 2018 0.79
4, 5 [7] Nibaran Das, Jagan Mohan Reddy, Ram Sarkar, Subhadip Basu, Mahantapas Kundu, Mita Nasipuri, and Dipak Kumar Basu. 4, 5 7] Nibaran Das, Jagan Mohan Reddy, Ram Sarkar, Subhadip Basu, Mahantapas Kundu, Mita Nasipuri, Dipak Kumar Basu。 0.79
A statistical-topologi cal feature combination for recognition of handwritten numerals. 手書き数字認識のための統計的・位相的特徴組合せ 0.66
Appl. Soft Comput., 12(8):2486–2495, Aug. 2012. アプリ。 Soft Comput., 12(8):2486–2495, 2012年8月。 0.56
2 [8] Jean Daunizeau. 2 ジャン・ダウニゼウ(Jean Daunizeau)。 0.75
The variational laplace approach to approximate bayesian inference. ベイズ推定の近似に対する変分格子のアプローチ。 0.69
arXiv preprint arXiv:1703.02089, 2017. arXiv preprint arXiv:1703.02089, 2017 0.80
2 [9] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. 2 9] Kaiming 彼、Xiangyu Zhang、Shaoqing Ren、Jian Sun。 0.72
Deep residual learning for image recognition. 画像認識のための深い残差学習 0.81
In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 770–778, 2016. コンピュータビジョンとパターン認識に関するIEEEカンファレンスProceedings of the IEEE conference, page 770–778, 2016 0.85
1 [10] Dan Hendrycks and Kevin Gimpel. 1 10]Dan Hendrycks氏とKevin Gimpel氏。 0.84
A baseline for detecting misclassified and out-of-distribution examples in neural networks. ニューラルネットワークにおける誤った分類と分散の例を検出するベースライン。 0.72
arXiv preprint arXiv:1610.02136, 2016. arXiv preprint arXiv:1610.02136, 2016 0.80
1, 2, 3, 4, 5, 6, 7 1, 2, 3, 4, 5, 6, 7 0.85
[11] Gao Huang, Zhuang Liu, Laurens Van Der Maaten, and Kilian Q Weinberger. 11] Gao Huang、Zhuang Liu、Laurens Van Der Maaten、Kilian Q Weinberger。 0.58
Densely connected convolutional networks. 密結合した畳み込みネットワーク。 0.68
In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 4700–4708, 2017. Proceedings of the IEEE conference on computer vision and pattern recognition, page 4700–4708, 2017 0.81
2 [12] Tommi S Jaakkola and Michael I Jordan. 2 12] Tommi S JaakkolaとMichael I Jordan。 0.78
Bayesian parameter estimation via variational methods. 変分法によるベイズパラメータの推定。 0.75
Statistics and Computing, 10(1):25–37, 2000. 統計と計算, 10(1):25-37, 2000。 0.82
2 [13] Diederik P Kingma and Max Welling. 2 13] Diederik P KingmaとMax Welling。 0.77
Auto-encoding varia- 自動エンコードベリア- 0.52
tional bayes, 2014. 2014年、オンタルベイズ。 0.61
1, 2 [14] Alex Krizhevsky, Vinod Nair, and Geoffrey Hinton. 1, 2 14] Alex Krizhevsky、Vinod Nair、Geoffrey Hinton。 0.71
Cifar-10 (canadian institute for advanced research). Cifar-10 (先進的な研究のためのカナダ研究所) 0.62
2 [15] Alex Krizhevsky, Vinod Nair, and Geoffrey Hinton. 2 15] Alex Krizhevsky、Vinod Nair、Geoffrey Hinton。 0.71
Cifar- 100 (canadian institute for advanced research). Cifar- 100(高度な研究のためのカナディアン研究所)。 0.72
2 [16] Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton. 2 16] Alex Krizhevsky、Ilya Sutskever、Geoffrey E Hinton。 0.74
Imagenet classification with deep convolutional neural networks. 深部畳み込みニューラルネットワークを用いた画像ネット分類 0.83
In F. Pereira, C. J. C. Burges, L. Bottou, and K. Q. F. Pereira, C. J. C. Burges, L. Bottou, K. Q。 0.88
Figure 5. Comparison of changes in the loss for OOD and ID data due to addition of ∆w to w. The red line is change in loss for OOD data and blue for ID data. 図5。 OODデータとIDデータの損失の変化は、wを加算することで比較されるが、赤線はOODデータにおける損失の変化であり、IDデータでは青である。 0.77
It can be noted that for same ∆w the change in loss for OOD data is significantly greater as compared to ID data. 同様に、OODデータの損失の変化はIDデータと比較して有意に大きいことに注意してください。 0.73
working of our technique that is for OOD input, the output of pseudo-BNN fluctuates more than the outputs for ID input. OOD入力のための私達の技術の働き、疑似BNNの出力はID入力のための出力より多く変動します。 0.78
Fig. 5 shows that the change in loss for OOD inputs is much greater than that for ID inputs. フィギュア。 5は、OOD入力のロスがID入力のロスよりもはるかに大きいことを示しています。 0.55
6. Conclusion In this paper, we proposed a new cost function for training a modified form of conventional BNNs. 6. 結論 本稿では,従来のBNNの修正形式を学習するための新たなコスト関数を提案する。 0.76
We also proposed two measures of disagreement for effectively segregating, ID and OOD inputs. また,ID入力とOOD入力を効果的に分離するための2つの不一致尺度も提案した。 0.54
The advantages offered by our work can be listed as follows, 私たちの作品が提供する利点は次のとおりである。 0.68
• As shown in our experiments, converting an ANN with point estimate to pseudo-BNN requires very little training effort. • 実験で示したように、点推定でANNを擬似BNNに変換するには、ほとんどトレーニングの労力を要しない。 0.62
This avoids the hard work of re-training all of the state of the art networks for OOD detection from scratch. これにより、OOD検出のためのアートネットワークのすべての状態をスクラッチから再トレーニングする作業が回避される。 0.66
• We used only 2 to 5 samples of weights from pseudoBNN to detect OOD inputs which results in a very little overhead with respect to the inference time but increases the safety of neural networks significantly. • 擬似BNNから得られた2~5個の重みのサンプルのみを用いてOODの入力を検知し,推定時間に対して非常にオーバーヘッドが少ないが,ニューラルネットワークの安全性は著しく向上した。 0.77
As compared to previous work which used gradient computation, a memory expensive operation as compared to matrix multiplication, our approach is more efficient and incurs a very little memory cost by introducing only a second parameter. 勾配計算を用いた従来の手法に比べ,行列の乗算に比べてメモリコストが高くなるため,本手法の方が効率が良く,第2パラメータのみを導入することでメモリコストが極めて少ない。 0.83
• For training a pseudo-BNN, selecting a good prior, which is a problem in conventional BNNs, isn’t a requirement anymore. •疑似BNNの訓練のために、従来のBNNで問題である良い優先順位を選択することはもはや要件ではありません。 0.79
The proposed measures effectively utilise the differences in the outputs for multiple samples of weights for the same input to segregate ID and OOD inputs. 提案手法は,IDとOOD入力を分離するために,重みの複数サンプルの出力差を同一入力に対して有効に活用する。 0.80
8 8 0.85
英語(論文から抽出)日本語訳スコア
Weinberger, editors, Advances in Neural Information Processing Systems, volume 25, pages 1097–1105. Weinberger, editors, Advances in Neural Information Processing Systems, Volume 25, Page 1097–1105。 0.87
Curran Associates, Inc., 2012. Curran Associates, Inc., 2012 0.70
1 [17] Yann LeCun, Corinna Cortes, and CJ Burges. 1 17] Yann LeCun、Corinna Cortes、CJ Burges。 0.73
Mnist handATT Labs [Online]. Mnist handATT Labs [オンライン]。 0.70
Available: written digit database. 利用可能。 書かれた桁データベース。 0.60
http://yann.lecun.co m/exdb/mnist, 2, 2010. http://yann.lecun.co m/exdb/mnist, 2010 0.60
2, 4 [18] Kimin Lee, Kibok Lee, Honglak Lee, and Jinwoo Shin. 2, 4 18] Kimin Lee、Kibok Lee、Honglak Lee、Jinwoo Shin。 0.75
A simple unified framework for detecting out-of-distribution samples and adversarial attacks. 分散サンプルと逆アタックを検出するためのシンプルな統一フレームワーク。 0.77
In Advances in Neural Information Processing Systems, pages 7167–7177, 2018. In Advances in Neural Information Processing Systems, page 7167–7177, 2018 0.87
4, 5, 6, 7 4, 5, 6, 7 0.85
[19] Shiyu Liang, Yixuan Li, and Rayadurgam Srikant. 19]Shiyu Liang、Yixuan Li、Rayadurgam Srikant。 0.60
Enhancing the reliability of out-of-distribution image detection in neural networks. ニューラルネットワークにおける分散画像検出の信頼性向上 0.77
arXiv preprint arXiv:1706.02690, 2017. arXiv preprint arXiv:1706.02690, 2017 0.79
4, 5, 6, 7 4, 5, 6, 7 0.85
[20] Radford M Neal and Geoffrey E Hinton. 20] Radford M NealとGeoffrey E Hinton。 0.68
A view of the em algorithm that justifies incremental, sparse, and other variants. インクリメンタル、スパース、およびその他のバリアントを正当化する em アルゴリズムのビュー。 0.70
In Learning in graphical models, pages 355–368. グラフィカルモデルの学習では、355-368ページ。 0.73
Springer, 1998. 1998年、スプリンガー。 0.60
2 [21] Yuval Netzer, Tao Wang, Adam Coates, Alessandro Bissacco, Bo Wu, and Andrew Y Ng. 2 [21]Yuval Netzer、Tao Wang、Adam Coates、Alessandro Bissacco、Bo Wu、Andrew Y Ng。 0.78
Reading digits in natural images with unsupervised feature learning. 教師なし特徴学習による自然画像の桁読み 0.70
Advances in Neural Information Processing Systems (NIPS), 2011. ニューラル情報処理システム(NIPS)の進歩(2011年) 0.80
2 [22] Anh Nguyen, Jason Yosinski, and Jeff Clune. 2 22] Anh Nguyen、Jason Yosinski、Jeff Clune。 0.74
Deep neural networks are easily fooled: High confidence predictions for In Proceedings of the IEEE conunrecognizable images. ディープニューラルネットワークは簡単に騙される: IEEEの認識可能な画像のIn Proceedingに対する高い信頼性の予測。 0.66
ference on computer vision and pattern recognition, pages 427–436, 2015. コンピュータビジョンとパターン認識に関する会議、2015年427-436ページ。 0.78
1 [23] Jie Ren, Peter J Liu, Emily Fertig, Jasper Snoek, Ryan Poplin, Mark Depristo, Joshua Dillon, and Balaji Lakshminarayanan. 1 [23]Jie Ren, Peter J Liu, Emily Fertig, Jasper Snoek, Ryan Poplin, Mark Depristo, Joshua Dillon, Balaji Lakshminarayanan。 0.82
Likelihood ratios for out-of-distribution detection. 分布外検出のためのラピエーション比 0.60
In Advances in Neural Information Processing Systems, pages 14707–14718, 2019. In Advances in Neural Information Processing Systems, page 14707–14718, 2019。 0.92
4, 5, 6 [24] Lawrence K Saul, Tommi Jaakkola, and Michael I Jordan. 4, 5, 6 24] Lawrence K Saul、Tommi Jaakkola、Michael I Jordan。 0.76
Mean field theory for sigmoid belief networks. sigmoid belief networkにおける平均場理論 0.77
Journal of artificial intelligence research, 4:61–76, 1996. 人工知能研究雑誌 4:61-76, 1996。 0.75
2 [25] Karen Simonyan and Andrew Zisserman. 2 [25] Karen SimonyanとAndrew Zisserman。 0.83
Very deep convolutional networks for large-scale image recognition. 大規模画像認識のための深層畳み込みネットワーク 0.78
arXiv preprint arXiv:1409.1556, 2014. arXiv preprint arXiv:1409.1556, 2014 0.80
1 [26] T. Tieleman and G. Hinton. 1 26] T. TielemanとG. Hinton。 0.86
Lecture 6.5—RmsProp: Divide the gradient by a running average of its recent magnitude. 講義 6.5 - RmsProp: 勾配を最近の等級のランニング平均で割る。 0.73
COURSERA: Neural Networks for Machine Learning, 2012. COURSERA: Neural Networks for Machine Learning, 2012年。 0.90
6 [27] R. J. Williams. 6 27] r・j・ウィリアムズ 0.77
Simple statistical gradient-following algorithms for connectionist reinforcement learning. 接続性強化学習のための簡易統計勾配追従アルゴリズム 0.76
Machine Learning, 8:229–256, 1992. 機械学習, 8:229–256, 1992。 0.71
3 [28] Han Xiao, Kashif Rasul, and Roland Vollgraf. 3 [28]Han Xiao、Kashif Rasul、Roland Vollgraf。 0.73
Fashionmnist: a novel image dataset for benchmarking machine learning algorithms. Fashionmnist:機械学習アルゴリズムをベンチマークするための新しい画像データセット。 0.70
CoRR, abs/1708.07747, 2017. CRR, abs/1708.07747, 2017 0.73
2 [29] Jonathan S Yedidia, William Freeman, and Yair Weiss. 2 29]ジョナサン・s・エディディア、ウィリアム・フリーマン、ヤイル・ワイス。 0.65
Generalized belief propagation. 一般的な信仰の伝播。 0.55
Advances in neural information processing systems, 13:689–695, 2000. 神経情報処理システムの進歩 13:689–695, 2000 0.84
2 [30] Chiyuan Zhang, Samy Bengio, Moritz Hardt, Benjamin Understanding deep learnarXiv preprint 2 30] Chiyuan Zhang, Samy Bengio, Moritz Hardt, Benjamin 深い学習を理解するXivプリプリント。 0.87
Recht, and Oriol Vinyals. RechtとOriol Vinyalsの略。 0.75
ing requires rethinking generalization. ingは一般化を再考する必要がある。 0.40
arXiv:1611.03530, 2016. arXiv:1611.03530, 2016 0.68
1 9 1 9 0.85
                   ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。