論文の概要、ライセンス

# (参考訳) 入力データ空間のランダム性は一般化の優先予測因子である [全文訳有]

The Randomness of Input Data Spaces is an A Priori Predictor for Generalization ( http://arxiv.org/abs/2106.04181v1 )

ライセンス: CC BY 4.0
Martin Briesch, Dominik Sobania and Franz Rothlauf(参考訳) 過パラメータモデルは様々な種類のデータ分布を完璧に学習することができるが、一般化誤差は通常、人工データと比較して実際のデータよりも低い。 これは、データ分布の特性が一般化能力に影響を及ぼすことを示唆している。 本研究は入力データによって定義される探索空間に着目し、隣接する入力値のラベル間の相関が一般化に影響を及ぼすと仮定する。 相関が低い場合、入力データ空間のランダム性が高くなり、高い一般化誤差が生じる。 maurer's universal を用いて入力データ空間のランダム性を測定することを提案する。 合成分類タスクと共通画像分類ベンチマーク(mnist, cifar10, microsoft's cats vs. dogs data set)の結果,入力データ空間のランダム性と,バイナリ分類問題に対するディープニューラルネットワークの一般化誤差との間に高い相関性が得られた。

Over-parameterized models can perfectly learn various types of data distributions, however, generalization error is usually lower for real data in comparison to artificial data. This suggests that the properties of data distributions have an impact on generalization capability. This work focuses on the search space defined by the input data and assumes that the correlation between labels of neighboring input values influences generalization. If correlation is low, the randomness of the input data space is high leading to high generalization error. We suggest to measure the randomness of an input data space using Maurer's universal. Results for synthetic classification tasks and common image classification benchmarks (MNIST, CIFAR10, and Microsoft's cats vs. dogs data set) find a high correlation between the randomness of input data spaces and the generalization error of deep neural networks for binary classification problems.
公開日: Tue, 8 Jun 2021 08:44:03 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
1 2 0 2 n u J 1 2 0 2 n u J 0.85
8 ] G L . 8 ] G L。 0.81
s c [ 1 v 1 8 1 4 0 sc [ 1 v 1 8 1 4 0 0.68
. 6 0 1 2 : v i X r a . 6 0 1 2 : v i X r a 0.85
The Randomness of Input Data Spaces is an 入力データ空間のランダム性は 0.64
A Priori Predictor for Generalization 一般化のための事前予測器 0.62
Martin Briesch Martin Briesch 0.85
Johannes Gutenberg-Universität ヨハネス・グテンベルク大学 0.46
Mainz, Germany briesch@uni-mainz.de マインツ、ドイツ briesch@uni-mainz.de 0.61
Dominik Sobania Johannes Gutenberg-Universität ドミニク・ソバニア ヨハネス・グテンベルク大学 0.42
Mainz, Germany dsobania@uni-mainz.d e マインツ、ドイツ dsobania@uni-mainz.d e 0.61
Franz Rothlauf フランツ・ロートラウフ 0.42
Johannes Gutenberg-Universität ヨハネス・グテンベルク大学 0.46
Mainz, Germany rothlauf@uni-mainz.d e マインツ、ドイツ rothlauf@uni-mainz.d e 0.61
Abstract Over-parameterized models can perfectly learn various types of data distributions, however, generalization error is usually lower for real data in comparison to artificial data. 概要 過パラメータモデルは様々な種類のデータ分布を完璧に学習することができるが、一般化誤差は通常、人工データと比較して実際のデータよりも低い。 0.59
This suggests that the properties of data distributions have an impact on generalization capability. これは、データ分布の特性が一般化能力に影響を及ぼすことを示唆している。 0.69
This work focuses on the search space defined by the input data and assumes that the correlation between labels of neighboring input values influences generalization. 本研究は入力データによって定義される探索空間に着目し、隣接する入力値のラベル間の相関が一般化に影響を及ぼすと仮定する。 0.70
If correlation is low, the randomness of the input data space is high leading to high generalization error. 相関が低い場合、入力データ空間のランダム性が高くなり、高い一般化誤差が生じる。 0.76
We suggest to measure the randomness of an input data space using Maurer’s universal. maurer’s universalを用いて入力データ空間のランダム性を測定することを提案する。 0.84
Results for synthetic classification tasks and common image classification benchmarks (MNIST, CIFAR10, and Microsoft’s cats vs. dogs data set) find a high correlation between the randomness of input data spaces and the generalization error of deep neural networks for binary classification problems. 合成分類タスクと共通画像分類ベンチマーク(MNIST、CIFAR10、Microsoftの猫対犬データセット)の結果は、入力データ空間のランダム性と二項分類問題に対するディープニューラルネットワークの一般化誤差との間に高い相関関係を見出した。 0.86
1 Introduction While deep neural networks (DNN) have gained much attention in many machine learning tasks (LeCun et al , 2015), there is still only limited theory explaining the success of DNN. 1 はじめに ディープニューラルネットワーク(DNN)は多くの機械学習タスク(LeCun et al , 2015)で注目を集めているが、DNNの成功を説明する理論は限られている。 0.72
Especially the generalization abilities of DNNs have challenged classical learning theory as standard approaches like VC-dimension (Vapnik, 2013), Rademacher complexity (Bartlett and Mendelson, 2002), or uniform stability (Bousquet and Elisseeff, 2002) fail to explain the generalization behavior of overparameterized DNNs (Zhang et al , 2017). 特にDNNの一般化能力は、VC次元(Vapnik, 2013)、ラデマッハ複雑性(Bartlett and Mendelson, 2002)、均一安定性(Bousquet and Elisseeff, 2002)のような標準的なアプローチとして古典的な学習理論に挑戦している。
訳抜け防止モード: 特にDNNの一般化能力は、VC次元(Vapnik, 2013)のような標準的なアプローチとして古典的な学習理論に挑戦している。 Rademacher complexity (Bartlett and Mendelson, 2002 ) or uniform stability (Bousquet and Elisseeff, 2002 ) fail 過パラメータDNNの一般化動作を説明する(Zhang et al, 2017)。
0.76
Most of the existing theory approaches look at the hypothesis space of the model and the properties of the learning algorithm; properties of the data distribution (as well as the machine learning task) are addressed to a much lower extend. 既存の理論のアプローチのほとんどは、モデルの仮説空間と学習アルゴリズムの性質に注目しており、データ分布の特性(および機械学習タスク)は、はるかに低い拡張に対処している。 0.80
Focusing on the data distribution, Zhang et al (2017) observed a lower generalization capability of DNNs when randomizing natural data. データ分布に着目して、Zhang et al (2017) は自然データをランダム化する際に DNN のより低い一般化能力を観測した。 0.68
Arpit et al (2017) find that learning on real data behaves differently than learning on randomized data. Arpit et al (2017) は、実データでの学習はランダム化されたデータでの学習とは異なる振る舞いをすることを示した。
訳抜け防止モード: Arpit et al (2017) はそれを発見した。 実際のデータの学習は ランダムなデータの学習とは異なる振る舞いをする
0.67
DNNs seem to work content-aware and learn certain data points first. DNNはコンテンツを認識し、まず特定のデータポイントを学習しているようだ。 0.61
Thus, there is evidence that the properties of the input data distribution have an influence on the generalization capabilities of DNNs and natural data has properties that enable DNNs to perform well. したがって、入力データ分布の特性がDNNの一般化能力に影響を及ぼす証拠があり、自然データにはDNNがうまく機能する性質がある。 0.74
This raises the question why DNNs perform well on supervised learning task with natural data signals. このことは、DNNが自然データ信号を用いた教師付き学習タスクでうまく機能する理由を提起する。 0.64
This paper studies how the properties of training data influence the generalization capability of DNNs. 本稿では,訓練データの特性がDNNの一般化能力に与える影響について検討する。 0.66
We assume a label landscape (X, f,N ) with the set of training data X, the labeling function f : X → Y that assigns a label y ∈ Y to each training instance x ∈ X, and a neighborhood mapping トレーニングデータ X の集合を持つラベルランドスケープ (X, f, N ) と、ラベル y ∈ Y を各トレーニングインスタンス x ∈ X に割り当てるラベル関数 f : X → Y と、近傍写像を仮定する。 0.73
Preprint. Under review. プレプリント。 レビュー中。 0.63
英語(論文から抽出)日本語訳スコア
N : X → X 2 which assigns to each input x a set of neighboring inputs. N : X → X 2 は各入力 x に隣接した入力の集合を割り当てる。 0.87
We suggest that the properties of the label landscape formed by the training data influences the generalization behavior of DNNs. トレーニングデータによって形成されたラベルランドスケープの特性がDNNの一般化行動に影響を与えることを示唆する。 0.71
To measure the properties of the training data, we perform a random walk through the label landscape (X, f,N ). トレーニングデータの特性を測定するために,ラベルランドスケープ (x,f,n) をランダムにウォークする。 0.60
A random walk with N steps iteratively selects a neighboring training instance xi (based on a distance metric) and returns the corresponding label yi. nステップのランダムウォークは、隣接するトレーニングインスタンスxi(距離メトリックに基づいて)を反復的に選択し、対応するラベルyiを返す。 0.70
Thus, it creates a sequence of labels yN . したがって、ラベル yN のシーケンスを生成する。 0.74
We expect that the randomness of yN (for example measured by Maurer’s universal test) influences the generalization capability of DNNs. yn のランダム性(例えば maurer のuniversal test によって測定された)は dnn の一般化能力に影響すると期待する。 0.72
If Maurer’s universal test indicates that yN is a random sequence, then generalization is expected to be low; in contrast, if yN is non-random (which means the per-bit entropy of the sequence is low), DNNs are expected to be able to learn well and show high generalization capability for this particular data distribution. maurer のユニバーサルテストが yn が乱数列であることを示すならば、一般化は低く、対照的に yn が非ランダムである(これはシーケンスのビット単位のエントロピーが低いことを意味する)ならば、dnn はうまく学習でき、この特定のデータ分布に対して高い一般化能力を示すことが期待される。
訳抜け防止モード: Maurer の普遍的テストが yN がランダム列であることを示すなら、 一般化が低くなることが予想されます yN は非ランダム(つまりシーケンス毎ビットエントロピーは低い)である。 DNNは、この特定のデータ分布に対して、よく学習でき、高い一般化能力を示すことが期待されている。
0.81
Thus, we suggest that the randomness of a sequence of binary labels generated by a random walk through the input data space is a good predictor for the expected generalization capability of DNNs. したがって、入力データ空間をランダムウォークすることで生成されたバイナリラベル列のランダム性は、DNNの期待する一般化能力の予測に有効である。 0.74
We present evidence and experimental results for four types of problems. 4種類の問題に対する証拠と実験結果を示す。 0.72
First, we follow the approach suggested by Zhang et al (2017) and systematically randomize the labeling function f : X → Y by assigning the label y independently at random with probability v. With stronger randomization of the labels, the resulting sequence yN created by a random walk has higher randomness according to Maurer’s universal test and generalization decreases. まず、Zhang et al (2017) が提案したアプローチに従い、ラベル y を確率 v に独立にランダムに割り当てることで、ラベリング関数 f : X → Y を体系的にランダム化する。
訳抜け防止モード: まず、Zhang et al (2017) の提案したアプローチに従う。 そしてラベリング関数 f : X → Y を体系的にランダム化する ラベル y を確率 v と独立してランダムに割り当てること ランダムウォークによって生成される結果の配列 yN は、Maurer の普遍的なテストにより、より高いランダム性を持ち、一般化は減少する。
0.78
We present results for different binary instances of synthetic test problems where we know the decision boundaries (an XOR type problem, a majority vote problem, and a parity function problem). 本稿では, 決定境界(XOR型問題, 多数決問題, パリティ関数問題) が分かっている合成テスト問題のバイナリインスタンスについて, 結果を示す。 0.73
Second, we study binary instances of MNIST (LeCun et al , 1998) and CIFAR10 (Krizhevsky et al , 2009) using the same randomization method as in the previous experiments and extend the results with experiments where we randomize the training instances x ∈ X. 第2に, mnist (lecun et al , 1998) と cifar10 (krizhevsky et al , 2009) のバイナリインスタンスについて, 前回の実験と同じランダム化法を用いて検討し, トレーニングインスタンス x ∈ x をランダム化する実験を用いて実験を行った。 0.81
For the extension, we consider four different variants. 拡張について、我々は4つの異なる変種を考える。 0.58
We either perform a random permutation π : x → x of all input variables of the training data (PermutGlobal), perform a random permutation of all variables for all training instances (PermutInd), draw each input value randomly from a Gaussian distribution matching the original distribution of the input values (GaussianInd), or draw each input value from a white noise distribution (NoiseInd). トレーニングデータのすべての入力変数(permutglobal)のランダム置換(π : x → x)、すべてのトレーニングインスタンス(permutind)のすべての変数のランダム置換(random permutation)、入力値の元の分布と一致するガウス分布(gaussianind)から各入力値をランダムに描画する(noiseind)、または各入力値をホワイトノイズ分布から描画する(noiseind)。 0.83
The results indicate that Maurer’s universal test applied to the sequence yN is a good predictor for the expected generalization capability of a DNN. その結果, シークエンス yN に適用したMaurer の普遍的テストは, DNN の期待一般化能力の予測に有効であることが示唆された。 0.75
Third, we focus on binary instances of the more complex cats vs. dogs data set (Elson et al , 2007) and distinguish between training instances that are either easy or difficult to learn by a DNN. 第3に,より複雑なcats vs. dogsデータセット(elson et al , 2007)のバイナリインスタンスに注目し,dnnによる学習が容易あるいは難しいトレーニングインスタンスを区別する。 0.70
Experimental results confirm that the randomness of yN is a good indicator of the expected generalization. 実験の結果,yNのランダム性は予想される一般化のよい指標であることがわかった。
訳抜け防止モード: 実験の結果 yn のランダム性は期待された一般化のよい指標である。
0.81
Finally, we study some limitations of Maurer’s universal test for multi-class labeling problems. 最後に,マルチクラスラベリング問題に対するmaurerのuniversal testの限界について検討する。 0.75
As Maurer’s universal test is only applicable to binary sequences (and not to sequences of integers), it can not directly measure the randomness of a sequence of integers (which would be the result of a random walk through X for multi-class label problems). モーラーの普遍的なテストは二進数列にのみ適用できる(そして整数列には適用されない)ため、整数列のランダム性を直接測定することはできない(これは多クラスラベル問題に対する X のランダムウォークの結果である)。 0.77
Experimental results confirm that Maurer’s universal test fails when applied to multi-label classification problems. 実験の結果,マルチラベル分類問題に適用した場合,maurerのユニバーサルテストは失敗することが確認された。 0.61
In Sect. 2, we describe preliminaries and present Maurer’s universal as a novel measure for the randomness of data sets and related supervised learning tasks. 宗派。 2) データセットのランダム性とその教師付き学習タスクに関する新しい尺度として,maurer’s universal と preliminaries と present maurer's universal について述べる。 0.46
Sect. 3 describes the experimental setting and presents the results. 宗。 3) 実験設定を記述し, 実験結果を示す。 0.56
In Sect. 4, we give an overview of related work before concluding the paper in Sect. 宗派。 4) 論文をまとめる前に, 関連研究の概要を概説する。 0.38
5. Sect. 6 describes the limitations and future research directions. 5. 宗。 6は、限界と今後の研究方向性を説明する。 0.60
2 Randomness of data spaces Consider a data set D consisting of a finite number m of pairs (xi, yi) where x ∈ X and y ∈ Y . 2 データ空間のランダム性 x ∈ X と y ∈ Y の対 (xi, yi) の有限数 m からなるデータセット D を考える。
訳抜け防止モード: 2 データ空間のランダム性 対 (xi, xi) の有限数 m からなるデータセット D を考える。 yi ) ここで x ∈ X と y ∈ Y が成り立つ。
0.84
xij denotes the value of the j-th input variable of the vector xi; yi denotes the corresponding label. xij はベクトル xi の j 番目の入力変数の値を表し、yi は対応するラベルを表す。 0.83
All pairs are drawn i.i.d. すべてのペアは i. i. d. 0.51
from the population distribution PXY . 人口分布PXYから。 0.62
The goal of a machine learning model in a supervised classification task is to find a function h∗ from a hypothesis space H given a loss function l that minimizes the population risk R(h): 教師付き分類タスクにおける機械学習モデルの目標は、人口リスクR(h)を最小限にした損失関数lを与えられた仮説空間Hから関数h∗を見つけることである。 0.85
R(h) = E[l(h(X), Y ) h∗ = arg min R(h) = E[l(h(h(X), Y)) h∗ = arg min 0.96
h∈H R(h) Usually, the model does not have access to the complete distribution PXY but rather only to the data set D. Therefore, a common approach in machine learning is to minimize the empirical risk Remp(h) on the given data D: h・HR(h) それゆえ、機械学習における一般的なアプローチは、与えられたデータDに対する経験的リスクRemp(h)を最小化することである。
訳抜け防止モード: h・HR(h) 通常、モデルは完全な分布 pxy へのアクセスを持たない データセットdに限らず 機械学習の一般的なアプローチは 与えられたデータd上の経験的リスクremp(h)を最小化する。
0.71
2 2 0.85
英語(論文から抽出)日本語訳スコア
Remp(h) = m(cid:88) remp(h) = m(cid:88) 0.63
i=1 1 m l(h(xi), yi) i=1 1m l(h(xi, yi) 0.71
ˆh = arg min sh = arg min 0.75
h∈H Remp(h) h-h (複数形 h-hs) 0.44
Unfortunately, the empirical risk can be significantly different from the population risk. 残念ながら、経験的リスクは人口リスクと大きく異なる可能性がある。 0.65
This makes bounding the gap between R(h) and Remp(h), also called generalization, a central challenge in machine learning (Vapnik, 1992). これにより、r(h) と remp(h) の境界は一般化と呼ばれ、機械学習における中心的課題である(vapnik, 1992)。 0.69
In theory, given a sufficient amount of parameters and training time, a multilayer neural network can approximate any function h arbitrarily well (Cybenko, 1989; Hornik, 1991). 理論上、十分な量のパラメータと訓練時間があれば、多層ニューラルネットワークは任意の関数 h を任意に近似することができる(Cybenko, 1989; Hornik, 1991)。 0.80
Thus, any data set D can be learned by a large enough model. したがって、任意のデータセットDは十分に大きなモデルで学習することができる。 0.78
This is confirmed by empirical studies where complex DNN models can fit both data from natural signals as well as random data (Zhang et al , 2017). これは、複雑なDNNモデルが自然信号とランダムデータの両方に適合する経験的研究によって確認されている(Zhang et al , 2017)。 0.81
Learning arbitrary h can be achieved by standard DNN models without changing any hyperparameters, neither for the model nor for the used learning algorithm. 任意のhの学習は、モデルも使用済みの学習アルゴリズムも、ハイパーパラメータを変更することなく、標準のdnnモデルによって達成できる。 0.68
When fitting DNN models to either natural signals or random data, Zhang et al (2017) as well as Arpit et al (2017) observed differences in the generalization error. DNNモデルを自然信号またはランダムデータに適合させる際、Zhang et al (2017)とArpit et al (2017)は一般化誤差の違いを観測した。 0.78
For natural signals, usually the generalization error is low; for random or randomized data, generalization error is high. 自然信号の場合、通常一般化誤差は低く、ランダムデータやランダムデータでは一般化誤差が高い。 0.81
We believe that the differences in generalization error gerr between different data sets can be explained by the properties of the label landscape defined on the data set D. Analogously to fitness landscapes known in other domains, we define a label landscape (X, f,N ), where the labeling function f : X → Y assigns a label y ∈ Y to each training instance x ∈ X and a neighborhood mapping N : X → X 2 assigns to each input x ∈ X a set of neighboring inputs. 他の領域で知られている適合性ランドスケープと同様に、ラベルランドスケープ (x, f,n) を定義し、ラベル関数 f : x → y は各トレーニングインスタンス x ∈ x に対してラベル y ∈ y を割り当て、近傍写像 n : x → x 2 は各入力 x ∈ x に対して隣接する入力の集合を割り当てる。
訳抜け防止モード: 我々は、データセットD上に定義されたラベルランドスケープの特性によって、異なるデータセット間の一般化エラーガーの違いを説明できると考えている。 ラベルランドスケープ(X, f, N )を定義する。 ここでラベル付け関数 f : X → Y は各トレーニングインスタンス x ∈ X にラベル y ∈ Y を割り当てる。 そして、近傍写像 N : X → X 2 は各入力 x ∈ X に隣接する入力の集合を割り当てる。
0.74
The labeling function f is defined by the input data; the neighborhood mapping N is usually problem-specific and defines which input/training data is similar to each other (Wright, 1932; Herrmann et al , 2016). ラベル付け関数 f は入力データによって定義され、近傍写像 N は通常問題固有であり、どの入力/トレーニングデータが互いに類似しているかを定義する(Wright, 1932; Herrmann et al , 2016)。 0.75
Instead of defining N on the raw input data, we can also define N on an underlying manifold representing the data. 生の入力データ上で N を定義する代わりに、データを表す基礎多様体上で N を定義することもできる。 0.77
Using a label landscape defined on the input data, we can calculate relevant properties like the correlation between neighboring data points. 入力データ上に定義されたラベルランドスケープを用いて,隣接データ点間の相関などの関連特性を計算できる。 0.84
Such measures are relevant for combinatorial optimization problems as problems, where the objective values of neighboring solutions are uncorrelated, are difficult to solve (Jones and Forrest, 1995; Rothlauf, 2011). このような測度は、隣り合う解の客観的値が非相関な問題として組合せ最適化問題に関係しており、解決が難しい(Jones and Forrest, 1995; Rothlauf, 2011)。 0.74
If fitness values (labels) of neighbors in the input space are uncorrelated, the no free lunch theorem holds (Wolpert and Macready, 1995, 1997; Wolpert, 1996b,a) and optimization methods can not beat random search. 入力空間内の近傍のフィットネス値(ラベル)が相関しない場合、no free lunch theorem (wolpert and macready, 1995, 1997; wolpert, 1996b,a) と最適化法はランダム検索に勝てない。 0.75
The situation is similar for non-parametric machine learning methods like kernel machines which rely on the smoothness prior h(x) ≈ h(x + ). この状況は、h(x) の前の滑らかさに依存するカーネルマシンのような非パラメトリックな機械学習方法にも似ている。 0.67
The smoothness prior assumes that the properties of neighboring inputs (either measured in time or in space) are similar and do not abruptly change. 前述した滑らかさは、隣り合う入力(時間や空間で測定される)の性質が似ていると仮定し、突然変化しない。 0.74
Consequently, kernel machines have problems to learn non-local functions with low smoothness (Bengio et al , 2006), although deep learning is able to learn some variants of non-local functions (Imaizumi and Fukumizu, 2019). その結果, カーネルマシンは局所的非局所関数の学習に問題がある(Bengio et al , 2006)が, 深層学習は局所的非局所関数の変種を学習することができる(今泉, 福水, 2019)。 0.76
Algorithm 1 Random walk 1: Select random start point x0 2: Initialize yN = [y0] 3: for z = 1, 2, . アルゴリズム 1 ランダムウォーク 1: ランダムスタート点 x0 2: yN = [y0] 3: for z = 1, 2, を初期化する。 0.82
. . , N do 4: 5: 6: end for . . , N do 4: 5: 6: end for 0.85
Select xz randomly from the neighborhood N (xz−1) Append yz to yN 近傍 N (xz−1) yz から yN への適応 yz をランダムに選択する 0.74
We suggest to capture the correlation between labels of neighboring input values (taken from the given data set D) by performing a random walk through (X, f,N ) and analyzing the resulting sequence yN of labels. 我々は、ランダムウォークスルー(X, f, N )を行い、ラベルのシーケンス yN を解析することにより、近隣の入力値(与えられたデータセット D から取得した)のラベル間の相関を捉えることを提案する。 0.78
Algorithm 1 shows the random walk as pseudo-code. アルゴリズム1はランダムウォークを擬似コードとして表示する。 0.60
We initialize yN with the label y0 of a random start point x0 (lines 1-2) and perform N times a step of the random walk appending the label yz of a randomly selected xz from the neighborhood N (xz−1) (lines 3-6). ランダム開始点x0(ライン1−2)のラベルy0とyNを初期化し、近隣N(ライン3−6)からランダムに選択されたxzのラベルyzを付加するランダムウォークのステップをN回行う。 0.79
We expect that the randomness of yN influences the generalization ability of DNNs trying to learn the properties of D. For example, we assume a binary classification problem that can easily be learned and linearly separated (see Figure 1a). yN のランダム性は D の性質を学習しようとする DNN の一般化能力に影響を与えることを期待する。
訳抜け防止モード: 我々は、yNのランダム性がDNNの一般化能力に影響を与えることを期待する。 Dの特性を学ぼうとする。 我々は、容易に学習し、線形に分離できる二項分類問題を仮定する。 図1aを参照。
0.69
When performing a random walk through the space of input values, the value of the corresponding label yi rarely changes and the randomness of the resulting sequence yN is low. 入力値の空間をランダムウォークする場合、対応するラベルyiの値はめったに変化せず、結果のシーケンスyNのランダム性が低い。 0.67
Situation is different, if we assign random labels to the input data points (Fig. 入力データポイントにランダムなラベルを割り当てる場合(図)、状況は異なります。 0.68
1c). 3 1c)であった。 3 0.66
英語(論文から抽出)日本語訳スコア
(a) Local pattern. (a)ローカルパターン。 0.75
(b) Non-local pattern. (b)非ローカルパターン。 0.81
(c) Random pattern. (c)ランダムパターン。 0.75
Figure 1: Resulting landscapes for different example binary classification problems. 図1: 異なる例のバイナリ分類問題に対する結果のランドスケープ。 0.78
Each input data has four neighbors. 各入力データには4つの隣接がある。 0.62
(a) easy problem with high correlation between labels of neighboring input data (b) non-local, but easy problem with low randomness in yN (c) non-local and difficult problem, where each input data has a randomly chosen label. (a)隣り合う入力データ(b)のラベル間の相関が高い簡単な問題、かつ、各入力データがランダムに選択されたラベルを持つ、yn(c)の非局所的かつ難しい問題において、ランダム性の低い簡単な問題。 0.72
Then, the resulting sequence yN is random. そして、結果のシーケンスyNがランダムとなる。 0.82
In contrast, Fig 1b shows the landscape of the parity problem, which can be well learned using DNN (Imaizumi and Fukumizu, 2019) but is a non-local problem. 対照的に、図1bは、dnn(imaizumi and fukumizu, 2019)を使ってよく学べるが、非ローカルな問題であるパリティ問題の状況を示している。 0.71
When performing a random walk through such a landscape, the resulting sequence yN is non-random but highly structured as the labels of neighboring input data points are always different. このような風景をランダムに歩く場合、結果のシーケンスyNは非ランダムであるが、隣接する入力データポイントのラベルが常に異なるため、高度に構造化される。 0.73
This property of the classification problem can be learned by an appropriate model. この分類問題の性質は、適切なモデルによって学習することができる。 0.75
To measure the statistical randomness of a binary sequence yN , we suggest using Maurer’s universal test TU (Maurer, 1992; Coron and Naccache, 1998). 二進列 yN の統計的ランダム性を測定するために、Maurer の普遍テスト TU (Maurer, 1992; Coron and Naccache, 1998) を使うことを提案する。 0.82
The purpose of Maurer’s universal test is to measure the entropy in the sequence yN . モーラーの普遍的なテストの目的は、列 yN のエントロピーを測定することである。 0.68
Other possibilities to measure the statistical randomness of a sequence are the Wald–Wolfowitz runs test (Wald and Wolfowitz, 1940), which measures the number of label changes, or autocorrelation tests (Box and Jenkins, 1976). 系列の統計的ランダム性を測定する他の可能性としては、ラベル変更の数を測定する wald–wolfowitz run test (wald and wolfowitz, 1940) や自己相関テスト (box and jenkins, 1976) がある。 0.81
We choose Maurer’s universal test as it is able to detect also high-order as well as non-linear dependencies in a sequence. maurerのユニバーサルテストを選択して、シーケンス内の非線形依存性だけでなく、高次も検出できるようにしています。
訳抜け防止モード: われわれはMaurerの普遍的テストを選ぶ また、シーケンス内の非線形依存関係だけでなく、高い順序も検出できる。
0.75
We use the statistical test Maurer’s universal TU to test if the source process of the sequence is random (Maurer, 1992; Coron and Naccache, 1998). 統計テストのmaurer’s universal tuを使って、シーケンスのソースプロセスがランダムかどうかをテストする(maurer, 1992; coron and naccache, 1998)。 0.74
Maurer’s universal takes the sequence yN of binary labels y (from B = {0, 1}) as input. Maurer の普遍性は二進ラベル y の列 yN を入力として取る(B = {0, 1} から)。 0.77
The test has three parameters {L, Q, K}. テストは3つのパラメータ {L, Q, K} を持つ。 0.87
It partitions the sequence in blocks of length L with Q blocks used for initializing the test and K blocks to perform the test. シーケンスを長さ L のブロックに分割し、テストの初期化に Q ブロック、テストを実行するために K ブロックを使用する。 0.80
Thus, N = (Q + K)L and bn(yN ) = [yL(n−1)+1, . したがって、N = (Q + K)L と bn(yN ) = [yL(n−1)+1, である。 0.85
. . , yLn]. The test function fTU : BN → R measures the per-bit entropy and is defined as . . yLn]。 テスト関数 ftu : bn → r はビット単位のエントロピーを測定し、定義する。
訳抜け防止モード: . . yLn]。 テスト関数 fTU : BN → R はper-bitエントロピーを測定する 定義されています
0.73
fTU (yN ) = fTU (yN ) = 0.85
1 K log2 An(yN ), 1K log2 An(yN ) 0.75
Q+K(cid:88) Q+K (cid:88) 0.65
n=Q+1 where An(yN ) = n=Q+1 どこに An(yN ) = 0.64
(cid:26) min{a : a ≥ 1, bn(yN ) = bn−1(yN )} (cid:26) min{a : a ≥ 1, bn(yN ) = bn−1(yN )} 0.86
n , if , otherwise. n もしそうでなければ 0.71
∀a < n, bn−a(yN ) (cid:54)= bn(yN ) a < n, bn−a(yN ) (cid:54)= bn(yN ) 0.86
This test function can be used to compute the p ∈ [0, 1] value このテスト関数は p ∈ [0, 1] の値を計算するのに使うことができる 0.85
(cid:18)(cid:12)(cid :12)(cid:12)(cid:12) fTU − expectedValue(L) (cid:18)(cid:12)(cid :12)(cid:12)(cid:12) ftu − expectedvalue(l) 0.72
√ 2σ (cid:12)(cid:12)(cid :12)(cid:12)(cid:19) √ 2σ (cid:12)(cid:12)(cid :12)(cid:19) 0.84
, p = erfc , p = erfc 0.85
where erfc is the complementary error function. erfc は相補的エラー関数である。 0.80
expectedValue(L) and σ are precomputed values (Maurer, 1992). expectedValue(L) と σ は事前計算された値である(Maurer, 1992)。 0.74
The p value measures the confidence whether the process is non-random. p はプロセスが非ランダムかどうかの信頼度を測定する。 0.71
Thus, low values of p indicate a high probability that the process is non-random. したがって、p の低値はその過程が非ランダムである高い確率を示す。 0.84
If Maurer’s universal test indicates that yN is a random sequence (high values of p), then the generalization capability of a DNN applied to this data set D is expected to be low; in contrast, if yN is non-random (which means the per-bit entropy of the sequence is low), DNNs are expected to be モーラーの普遍的テストが yN がランダムな列(p の高値)であることを示すなら、このデータセット D に適用される DNN の一般化能力は低いと予想される。
訳抜け防止モード: Maurer の普遍的テストが yN がランダム列(p の高値)であることを示すなら、 すると、このデータセット D に適用される DNN の一般化能力は、対照的に低いと期待される。 yN が非ランダムであれば(つまりシーケンスの1ビットあたりのエントロピーが低い) DNNは期待されている
0.89
4 4 0.85
英語(論文から抽出)日本語訳スコア
able to learn well the structure of D and show high generalization capability. Dの構造をうまく学習し、高い一般化能力を示すことができる。 0.78
Thus, we suggest that the randomness of a sequence of binary labels generated by a random walk through the input data space is a good predictor for the expected generalization capability of DNNs learning the input data. したがって、入力データ空間をランダムにウォークすることで生成された2値ラベル列のランダム性は、入力データを学習するdnnの期待一般化能力のよい予測因子であることが示唆される。 0.78
3 Experiments and discussion To study how the properties of input data influences the generalization capability of DNNs, we randomize all studied data sets to different degrees as suggested by Zhang et al (2017) and perform random walks through the label landscapes (X, f,N ) as described in Algorithm 1. 3 実験と議論 入力データの性質がDNNの一般化能力にどのように影響するかを調べるため、Zhang et al (2017) が提案したように、すべての研究データセットをランダム化し、アルゴリズム1に示すようにラベルランドスケープ(X, f, N )をランダムに歩く。 0.77
For all considered data sets, we perform 30 random walks with N = 1, 000, 000 steps and calculate the confidence p for the resulting sequence yN of labels. すべての考慮されたデータセットに対して、N = 1, 000,000 のステップで 30 個のランダムウォークを行い、ラベルの列 yN に対する信頼度 p を計算する。 0.76
As data sets, we use synthetic classification tasks as well as on the common classification benchmarks MNIST (LeCun et al , 1998), CIFAR10 (Krizhevsky et al , 2009), and the cats vs. dogs data set (Elson et al , 2007). データセットとしては、共通分類ベンチマークmnist(lecun et al , 1998)、cifar10(krizhevsky et al , 2009)、cats vs. dogsデータセット(elson et al , 2007)と同様に合成分類タスクを用いる。 0.74
For each test problem, the input data is split into 80% train and 20% test data. 各テスト問題に対して、入力データは80%のトレインと20%のテストデータに分割される。 0.81
For the synthetic classification tasks as well as MNIST, we train a multilayer perceptron (MLP) consisting of two hidden layers with 4,096 neurons each and ReLU activation functions. MNISTと同様に、合成分類タスクでは、4,096のニューロンを持つ2つの隠蔽層とReLU活性化関数からなる多層パーセプトロン(MLP)を訓練する。 0.79
For CIFAR10 and the cats vs. dogs data set, we use a small convolutional network (CNN) with three convolutional layers with 32/64/64 filters of kernel size 3x3 followed by a dense layer with 256 hidden neurons. CIFAR10と猫対犬データセットでは、32/64/64のカーネルサイズ3x3のフィルタを持つ3つの畳み込み層を持つ小さな畳み込みネットワーク(CNN)を使用し、256個の隠されたニューロンを持つ高密度層を用いる。 0.68
After each convolutional layer we use 2x2 MaxPooling and all layers use ReLU activation functions. 各畳み込みレイヤでは2x2 MaxPoolingを使用し、すべてのレイヤではReLUアクティベーション関数を使用します。 0.57
The models are trained with the Adam optimizer (Kingma and Ba, 2014) until convergence to 100% accuracy on the train data. これらのモデルは、列車データの100%精度に収束するまでadam optimizer(kingma and ba, 2014)でトレーニングされる。 0.78
Thus, test error is identical to the generalization error gerr. したがって、テストエラーは一般化エラーgerrと同一である。 0.73
All experiments were conducted on a workstation using an AMD Ryzen Threadripper 3990X 64x2.90GHz, an NVIDIA GeForce TITAN RTX and 128GB DDR4 RAM. 全ての実験はAMD Ryzen Threadripper 3990X 64x2.90GHz、NVIDIA GeForce TITAN RTX、128GB DDR4 RAMを使用してワークステーションで実施された。 0.76
The DNNs were implemented using Tensorflow 2 (Abadi et al , 2016). DNNはTensorflow 2 (Abadi et al , 2016)を使用して実装された。 0.74
3.1 Synthetic classification problems with known decision boundaries 3.1 既知の決定境界を持つ合成分類問題 0.74
To analyze whether the suggested measure p properly captures the randomness of a problem for both, local and non-local patterns, we first study problems where we already know the the classification problem’s decision boundaries. 提案手法pが局所的パターンと非局所的パターンの両方の問題のランダム性を適切に捉えているかどうかを分析するために,まず,分類問題の決定境界を既に知っている問題について検討する。 0.74
We select three synthetic d-bit binary classification problems. 合成dビットバイナリ分類問題を3つ選択する。 0.63
The first one is a XOR type problem with binary input vectors xi (xij ∈ {0, 1}). 1つ目は、二進入力ベクトル xi (xij ∈ {0, 1}) を持つ XOR 型問題である。 0.73
The label of each vector xi depends on the first two input variables while the remaining features hold no explanatory power: 各ベクトルxiのラベルは最初の2つの入力変数に依存し、残りの特徴は説明力を持たない。 0.76
The second test problem uses the same binary input vectors xi. 第2のテスト問題は、同じバイナリ入力ベクトルxiを使用する。 0.70
The label is determined by the majority vote over the elements xi,j: ラベルは、xi,j の要素に対する多数決によって決定される。 0.70
(cid:26) 1 0 (cid:26)1 0 0.83
yi = (cid:40) yi = (cid:40) 0.82
1 0 for xi,1 = xi,2 for xi,1 (cid:54)= xi,2 1 0 xi,1 = xi,2 for xi,1 (cid:54)= xi,2 0.75
for (cid:80)d for (cid:80)d j=1(xi,j) ≥ d+1 2 j=1(xi,j) < d+1 2 (cid:80)d (cid:80)d for (cid:80)d j=1(xi,j) ≥ d+1 2 j=1(xi,j) < d+1 2 (cid:80)d 0.84
j=1(xi,j) is even j=1(xi,j) だって 0.74
yi = (cid:26) 1 yi = (cid:26)1 0.83
0 yi = if otherwise 0 yi = そうでなければ 0.74
The third test problem also uses binary input vectors xi. 第3のテスト問題はバイナリ入力ベクトル xi も使用する。 0.75
The label of each vector is determined by the parity function: 各ベクトルのラベルはパリティ関数によって決定される。 0.83
For all synthetic classification tasks, we study instances of different size d ∈ {11, 15} and corrupt the labeling processes by changing each label y with probability v to a random class in the training and test set (see Zhang et al (2017)) to construct different instances of the tasks with varying degrees of structure. すべての合成分類タスクに対して、異なる大きさの d ∈ {11, 15} のインスタンスを調査し、各ラベル y を確率 v でランダムなクラスに変更することによりラベル付け過程を破損させ(Zhang et al (2017) を参照)、様々な構造のタスクの異なるインスタンスを構築する。 0.82
The used data set D consists of all possible input vectors, as we assume that X = D. The neighborhood function N (x) maps each input xi ∈ X to a set of inputs x ∈ X that are different from xi in one position xi,j. x = d と仮定すると、近傍関数 n (x) は各入力 xi ∈ x を一つの位置 xi,j において xi と異なる入力 x ∈ x の集合に写像する。
訳抜け防止モード: 使用済みデータセットDは、可能な全ての入力ベクトルからなる。 近傍関数 N ( x ) は各入力 xi ∈ X を 1 つの位置 xi,j において xi と異なる入力 x ∈ X の集合に写像する。
0.76
We measure the randomness of yN (constructed by the random walk) using Maurer’s universal and compare it to the generalization performance of the MLP/CNN. マウラーの普遍性を用いてyN(ランダムウォークによって構成される)のランダム性を計測し、MLP/CNNの一般化性能と比較する。 0.72
Figure 2 plots the measure (1 − p) over the randomization level v and the generalization error gerr over (1 − p) for all studied synthetic classification problems for d = 11 and d = 15. 図2は、d = 11 と d = 15 のすべての合成分類問題に対して、ランダム化レベル v 上の測度 (1 − p) と一般化誤差 gerr over (1 − p) をプロットする。 0.86
For comparison, the dashed line indicates the performance of random guessing. 比較すると、破断線はランダムな推測のパフォーマンスを示している。 0.65
All results are averaged over 30 runs. 結果は平均で30回以上である。 0.65
5 5 0.85
英語(論文から抽出)日本語訳スコア
Figure 2: (1 − p) over the randomization level v and generalization error gerr over (1 − p) for all studied synthetic classification problems (XOR, majority vote, and parity) for d = 11 and d = 15. 図2: (1 − p) ランダム化レベル v と一般化誤差 gerr over (1 − p) すべての研究された合成分類問題 (xor, majority vote, parity) は、d = 11 と d = 15 である。 0.82
The dashed line indicates performance of random guessing. 破線はランダムな推測のパフォーマンスを示す。 0.66
All results are averaged over 30 runs. 結果は平均で30回以上である。 0.65
We expect that for higher values of v (which leads to a higher randomness of yN and a lower correlation between neighboring inputs) the inherent structure of the classification problem sets declines which leads to lower generalization. v の値が高ければ(yn のランダム性が高まり、隣接する入力間の相関が低くなる)、分類問題の固有構造は減少し、一般化が低下すると予想する。
訳抜け防止モード: これは v( ) のより高い値に対して期待できる。 yn のランダム性が高まり、隣接入力間の相関が低くなる ) 分類問題の本質的な構造は, 一般化を減少させる。
0.74
The results confirm this expectation, as we can observe lower values of (1 − p) for larger values of v as well as a lower generalization error gerr for high values of (1 − p). 結果は、v の大きい値に対する (1 − p) の値と (1 − p) の高い値に対する低い一般化誤差 gerr を観測できるので、この期待値を確認することができる。 0.87
For the considered test problems, the measure (1 − p) is a good predictor for generalization as Pearson’s r correlation coefficient between generalization error gerr and (1 − p) is lower than −0.94 for all studied problem instances (see Table 1 in Appendix A). 1 − p) は、一般化誤差 gerr と (1 − p) の間のピアソンの r 相関係数が、すべての研究された問題例の −0.94 よりも低いので、一般化のよい予測因子である(付録 a の表 1 を参照)。 0.83
This holds not only for small problems (d = 11) but also for larger problem instances (d = 15). これは小さな問題(d = 11)だけでなく、より大きな問題(d = 15)にも当てはまる。 0.76
Furthermore and contrary to the smoothness prior, the measure (1 − p) correctly detects structure (non-randomness) not only in local (XOR, majority vote) but also in non-local (parity) patterns. さらに、以前の滑らかさとは対照的に、測度(1 − p)は局所(XOR, majority vote)だけでなく非局所(パリティ)パターンにおいても構造(非ランダム性)を正しく検出する。 0.77
3.2 Natural data with unknown decision boundaries 3.2 未知決定境界を持つ自然データ 0.80
To verify whether our findings also hold on natural data, we extend our experiments to the MNIST and CIFAR10 data sets. この結果が自然データにも当てはまるかどうかを検証するため、実験をMNISTおよびCIFAR10データセットに拡張する。 0.80
We consider a binary classification version of those problems and (as before) corrupt the labeling function f by randomizing each label y with probability v. Again, we study the randomness of yN (created by a random walk) and compare it to the generalization capability of MLP/CNN. 我々はこれらの問題のバイナリ分類バージョンを検討し、各ラベルyを確率vでランダムにすることでラベル関数fを破損させた。
訳抜け防止モード: これらの問題のバイナリ分類版を考え、各ラベル y を確率 v でランダム化することによりラベル関数 f を乱す。 yN(ランダムウォークによって生成される)のランダム性について検討する。 MLP/CNNの一般化能力と比較する。
0.78
However, since the true decision variables for the MNIST and CIFAR10 problems do not lie in the raw input matrix but rather are represented by latent variables in an underlying manifold (Goodfellow et al , 2016), we first approximate such manifold by reducing the dimension of the input data with a variational autoencoder (Hinton and Salakhutdinov, 2006; Kingma and Welling, 2013). しかし、MNIST と CIFAR10 問題に対する真の決定変数は生の入力行列には含まれず、むしろ基礎となる多様体の潜在変数(Goodfellow et al , 2016)で表されるので、まず、変動オートエンコーダ (Hinton and Salakhutdinov, 2006; Kingma and Welling, 2013) で入力データの次元を小さくすることで、そのような多様体を近似する。 0.75
Consequently, we define the neighborhood N (x) on D as the set of k nearest data points measured by Euclidean distance inside this manifold. したがって、D 上の近傍 N (x) を、この多様体内のユークリッド距離によって測定される k 最寄りのデータ点の集合として定義する。 0.74
In our experiments, we chose k = 10. 実験では,k=10を選択した。 0.77
Figure 3 plots the measure (1 − p) over the randomization probability v and the generalization error gerr over (1 − p) for the binary versions of MNIST and CIFAR10. 図3は、ランダム化確率 v 上の測度 (1 − p) と、MNIST と CIFAR10 のバイナリバージョンに対する一般化誤差 gerr (1 − p) をプロットする。 0.86
The dashed line indicates the generalization error gerr of random guessing. ハッシュ線はランダムな推測の一般化誤差ガーを表す。 0.66
Again, all results are averaged over 30 runs. 結果の合計は30回以上である。 0.56
6 6 0.85
英語(論文から抽出)日本語訳スコア
Figure 3: (1 − p) over the randomization level v and the generalization error gerr over (1 − p) for the binary versions of MNIST and CIFAR10. 図3: (1 − p) はランダム化レベル v 上にあり、MNIST と CIFAR10 のバイナリバージョンに対して (1 − p) 上の一般化誤差 gerr である。 0.80
As expected, we also find a strong correlation between p and gerr for natural signals. 予想通り,自然信号に対するpとgerrの間には強い相関関係がみられた。 0.68
Again, we observe lower values of (1 − p) for larger values of v and a lower generalization error gerr for high values of (1− p). ここでも、v の大きい値に対する (1 − p) の値と (1 − p) の高い値に対する低い一般化誤差 gerr を観測する。 0.83
The Pearson’s r correlation coefficient between generalization error gerr and (1− p) is lower than −0.97 for both problem sets (Table 1 in Appendix A) indicating that (1 − p) is a good approximation of the expected generalization error also on natural data. 一般化誤差 gerr と (1 − p) の間のピアソンの r 相関係数は、両方の問題集合 (Appendix A の表 1) に対して −0.97 よりも低く、 (1 − p) が自然データにも期待される一般化誤差の近似であることを示す。 0.81
To study the effects of different types of randomization of f, we now permutate the inputs x ∈ X instead of the labels y ∈ Y . f の異なる種類のランダム化の効果を研究するために、ラベル y ∈ Y の代わりに入力 x ∈ X を置換する。 0.70
We consider four different variants: 1) a random permutation π : x → x of all input variables xij of the training data (denoted as PermutGlobal), 2) a random permutation of all variables for all training instances (PermutInd), 3) replacing a variable value by a random input value from a Gaussian distribution matching the original distribution of input values (GaussianInd), and 4) replacing a variable value by a value randomly drawn from a white noise distribution (NoiseInd). 1) トレーニングデータ(PermutGlobal)のすべての変数のランダムな置換 π : x → x , 2) トレーニングインスタンスのすべての変数のランダムな置換 (PermutInd) , 3) 入力値の元の分布と一致するガウス分布からのランダムな入力値によって変数値を置換する (GaussianInd) , 4) 変数値を白色雑音分布からランダムに引いた値で置き換える (NoiseInd) の4つの異なる変種を考える。 0.72
As before, we study whether the randomness of yN is related to the generalization error. 前述したように、yNのランダム性が一般化誤差と関連しているかどうかを検討する。 0.58
Figure 4 plots (1−p) over the four different variants of randomization and the resulting generalization error gerr over (1 − p). 図4は、ランダム化の4つの異なる変種と結果の一般化誤差 gerr over (1 − p) をプロットする。 0.81
Again, the dashed line indicates the performance of random guessing. 繰り返しますが、破線はランダムな推測のパフォーマンスを示しています。 0.59
All results are averaged over 30 runs. 結果は平均で30回以上である。 0.65
Figure 4: (1 − p) over four variants of randomization (PermutGlobal, PermutInd, GaussianInd and NoiseInd) and generalization error gerr over (1 − p) for the binary versions of MNIST and CIFAR10. 図4: (1 − p) ランダム化の 4 つの変種 (PermutGlobal, PermutInd, GaussianInd, NoiseInd) と、MNIST と CIFAR10 のバイナリバージョンに対して (1 − p) 上の一般化誤差 gerr である。 0.87
Again, we find a strong correlation (Pearson coefficient < −0.99) between generalization error gerr and (1− p). 再び、一般化誤差 gerr と (1− p) の間の強い相関 (ピアソン係数 < −0.99) を求める。 0.80
For PermutGlobal, we observe a lower effect of randomization for MNIST in comparison to CIFAR10 as the neighborhood of the input data space is more relevant for CIFAR10 than MNIST. PermutGlobal の場合、入力データ空間の近傍が MNIST よりも CIFAR10 に関連があるため、CIFAR10 と比較して MNIST のランダム化の効果は低い。 0.78
For MNIST, the value of a pixel xij also has a meaning independently of its neighboring pixels (e g some pixels are always activated for a specific label). MNIST の場合、ピクセル xij の値は隣接するピクセルとは独立に意味を持つ(例えば、あるピクセルは常に特定のラベルに対して活性化される)。 0.74
In contrast for CIFAR10, destroying the neighborhood of a pixel xij by placing it next to other, randomly selected pixels makes it much more difficult for the DNN to build a meaningful model. CIFAR10とは対照的に、他のランダムに選択されたピクセルに並べることでピクセルxijの近傍を破壊することで、DNNが有意義なモデルを構築することがより困難になる。 0.73
As a result, (1 − p) is lower for CIFAR10. その結果、CIFAR10では (1 − p) が低い。 0.80
For PermutInd, results are different as the only signal that is left after randomization is the difference in mean and standard deviation of input variables. permutindの場合、結果は、ランダム化後に残る唯一の信号として、入力変数の平均偏差と標準偏差の違いと異なる。 0.74
The differences are higher in CIFAR10 training instances which makes the problem more structured (leading to a lower generalization error) in comparison to MNIST. CIFAR10のトレーニングインスタンスでは、MNISTと比較して問題をより構造化(より低い一般化誤差に導かれる)する。 0.73
Both cases are properly captured by (1 − p). どちらのケースも (1 − p) で適切に捕捉される。 0.71
7 7 0.85
英語(論文から抽出)日本語訳スコア
Figure 5: (1 − p) for the easy and hard data samples with the corresponding generalization error gerr. 図5: (1 − p) 対応する一般化誤差ガーを持つ簡単で硬いデータサンプルについて。 0.82
Figure 6: (1 − p) over randomization level v for the CIFAR10 data set using 2, 4, 6 and 8 classes. 図6: (1 − p) 2, 4, 6, 8のクラスを使ったcifar10データセットのランダム化レベルv上の。 0.84
3.3 Studying randomness of input data spaces without randomization 3.3 ランダム化のない入力データ空間のランダム性の研究 0.67
While our previous experiments studied the relationship between the randomness of input data spaces measured by (1 − p) and generalization error for different degrees and variants of randomization, we now investigate differences in the randomness of input data spaces for easy versus hard data samples. 従来の実験では, (1 − p) で測定された入力データ空間のランダム性と, 各種のランダム化における一般化誤差の関係について検討していたが, 現在, 入力データ空間のランダム性の違いについて検討している。 0.79
Thus, we do not randomize neither f (Sect. したがって、f (Sect) もランダム化しない。 0.71
3.1) nor X (Sect. 3.1 または X (Sect)。 0.75
3.2), but create data samples with different properties from D following an approach suggested by Arpit et al (2017). 3.2 だが、Arpit et al (2017) が提案したアプローチに従って、D と異なる特性を持つデータサンプルを作成する。 0.67
Consequently, we first train 100 CNNs for 1 epoch on a large data set (cats vs. dogs). その結果、大規模なデータセット(cats vs. Dog)で100個のCNNを1エポックでトレーニングしました。 0.66
Then, we select two subsets (easy versus hard) from D by selecting the on average 10,000 best and 10,000 worst classified examples for the easy and hard subset, respectively. 次に、d から、easy と hard の2つのサブセット(easy と hard)をそれぞれ、easy と hard の2つのサブセットに対して、平均10000のベストと10,000の下位の分類例を選択することで選択する。
訳抜け防止モード: そして、D から 2 つの部分集合(簡単対ハード)を選択する。 簡単なサブセットと難しいサブセットの 平均1万のベストと1万の最悪の分類例を選択します
0.73
We expect that Maurer’s universal is a good indicator for the differences in randomness of these samples and the resulting generalization error gerr. モーラーの普遍性は、これらのサンプルのランダム性と結果の一般化誤差ガーの違いのよい指標であると予想する。 0.77
Figure 5 plots (1 − p) for the easy and hard data samples as well as the corresponding generalization error gerr. 図5は、簡単で硬いデータサンプルと対応する一般化誤差ガーに対してプロット(1 − p)である。 0.86
The dashed line indicates the performance of random guessing. 破断線はランダムな推測のパフォーマンスを示す。 0.66
Results are averaged over 30 runs. 平均成績は30回以上である。 0.62
We find that a high value of (1 − p) (indicating a high randomness in yN ) correspond to a low generalization error gerr on the easy sample and vice versa on the hard sample confirming the prediction quality of Maurer’s universal. その結果, (1 − p) の高い値(yn において高いランダム性を示す)は, 簡単なサンプル上では低い一般化誤差 gerr に対応し, 逆に maurer's universal の予測品質を確認するハードサンプルではその逆であることがわかった。 0.81
For the easy sample, the generalization error is almost zero which corresponds to a high value of (1 − p) ≈ 1 indicating a low randomness of yN and a high structure of the classification problem. 簡単なサンプルの場合、一般化誤差はほぼゼロであり、yN の低ランダム性および分類問題の高構造を示す (1 − p) > 1 の高値に対応する。 0.75
Thus the easy data set can be learned by a DNN model with low generalization error. したがって、DNNモデルにより、低一般化誤差で容易にデータセットを学習することができる。 0.76
For the hard sample, the randomness of yN is high indicating a low correlation between the labels of neighboring training points. ハードサンプルの場合, yN のランダム性は, 近隣のトレーニングポイントのラベル間の相関が低いことを示す。 0.84
3.4 Limitations of Maurer’s universal 3.4 maurer's universal の制限 0.86
So far we have applied Maurer’s universal test only to binary classification problems where yN is a binary sequence. これまでのところ、Maurer の普遍テストは yN が二進列であるような二進分類問題にのみ適用されている。 0.66
In principle, we could apply Maurer’s universal test also to multi-class problems, if we assume that the change of a label during a random walk through (X, f,N ) would alter a binary label either from 0 to 1, or vice versa. 原則として、モーラーの普遍的テストは、ランダムウォーキング(X, f, N )中のラベルの変化が、0 から 1 へまたはその逆のバイナリラベルを変更すると仮定して、マルチクラス問題にも適用できる。 0.67
However, the resulting binary sequence is not meaningful as it not properly captures the the character of multi-class label problems. しかし、結果として生じるバイナリシーケンスは、マルチクラスラベル問題の特徴を適切に捉えていないため、意味がない。 0.63
To solve this problem, appropriate (and different) measures for the randomness of integer sequences would be necessary. この問題を解決するには、整数列のランダム性に対する適切な(そして異なる)尺度が必要である。
訳抜け防止モード: この問題を解決するために 整数列のランダム性に対する適切な(および異なる)測度が必要となる。
0.79
To study the limitations of Maurer’s universal, we produce a binary sequence during the random walk by altering between 0 and 1 whenever the new label is different from the previous one. モーラーの普遍性の限界を研究するために、新しいラベルが前のラベルと異なるときに0から1の間で変更することにより、ランダムウォーキング中に二進列を生成する。 0.70
We present results for CIFAR10 with 2, 4, 6 and 8 classes and use the same randomization method for y as in Sect. 本稿では,2,4,6,8のクラスでcifar10の結果を示し,yに対して同じランダム化手法を用いた。 0.69
3.2. Figure 6 plots (1 − p) over the randomization level v for variants of the CIFAR10 data set with 2, 4, 6 and 8 classes. 3.2. 図6は、2, 4, 6 と 8 のクラスからなる CIFAR10 データセットの変種に対するランダム化レベル v 上のプロット (1 − p) である。 0.76
Again, all results are averaged over 30 runs. 結果の合計は30回以上である。 0.56
As expected, we see that for two classes the measure (1 − p) declines with higher v. With a higher number of classes, (1 − p) does not correctly predict the expected generalization error as we obtain higher values of (1 − p) for higher randomization levels v (for 4, 6, and 8 classes). 予想通り、2つのクラスにおいて、測度 (1 − p) はより高い v で減少し、より多くのクラスで (1 − p) は、高い乱数レベル v (4, 6, 8 クラス) に対して (1 − p) の値を得るため、期待された一般化誤差を正確に予測できない。 0.82
This effect can be explained as with high levels of v the next element in the sequence yN is with high probability a different binary element. この効果は、v のレベルが高い場合、シーケンス yn の次の要素は、高い確率で異なる二元元である、と説明できる。 0.67
Thus, the sequence yN is not a random sequence any more, but we observe a non-local parity problem, where the labels of neighboring input data points are different with high probability. したがって、シーケンスynはもはや乱数列ではないが、隣接した入力データポイントのラベルが高い確率で異なる非局所パリティ問題(non-local parity problem)を観測する。 0.79
Thus, the random walk through the randomized landscape produces a highly structured sequence yN and multi-class label classification tasks would wrongly be classified as easy classification tasks (with low generalization error). したがって、ランダムなランドスケープのランダムウォークは高度に構造化されたシーケンスynを生成し、多クラスラベル分類タスクは(一般化誤差の低い)簡単な分類タスクとして誤って分類される。 0.71
8 8 0.85
英語(論文から抽出)日本語訳スコア
In summary, we have presented evidence across different experimental settings that the data itself, viewed as a label landscape, has an influence on the generalization performance of DNNs. 要約すると,データそのものがラベルランドスケープと見なされ,dnnの一般化性能に影響を及ぼすという,さまざまな実験環境での証拠が提示されている。 0.68
We found that the correlation between the labels of neighboring data points measured by the randomness of a sequence produced by a random walk through the input data space can serve as a proper estimate of the expected generalization capacity of a DNN for a given data set. 入力データ空間のランダムウォークによって生成されたシーケンスのランダム性によって測定された隣接データ点のラベル間の相関は、与えられたデータセットに対するDNNの期待一般化能力の適切な推定に役立てることができることがわかった。 0.87
This holds true for constructed test problems as well as real-world data sets, as long as they are binary classification tasks. これは、バイナリ分類タスクである限り、構築されたテスト問題や実世界のデータセットに当てはまる。
訳抜け防止モード: これは真実である 構築されたテスト問題や実世界のデータセットに対してです。 バイナリ分類タスクさえあれば
0.77
4 Related work Bounding the best and worst case for generalization error is a key challenge in machine learning. 4関連作品 一般化エラーの最良のケースと最悪のケースの境界は、機械学習における重要な課題である。
訳抜け防止モード: 4関連作品 一般化誤差の最良のケースと最悪のケースの境界 機械学習における重要な課題です
0.71
Traditional learning theory provides such bounds either from a complexity point of view (Vapnik, 2013; Bartlett and Mendelson, 2002) or using a stability based approach (Bousquet and Elisseeff, 2002). 伝統的な学習理論は、複雑性の観点からそのような境界を与える(Vapnik, 2013; Bartlett and Mendelson, 2002)か、安定性に基づくアプローチを使う(Bousquet and Elisseeff, 2002)。 0.88
However, studies suggest that these generalization bounds might not be sufficient to capture the generalization problem, especially in an over-parameterized setting (Zhang et al , 2017; Nagarajan and Kolter, 2019; Belkin et al , 2019). しかし、これらの一般化境界は一般化問題を捉えるのに十分ではない可能性が示唆されている(Zhang et al , 2017; Nagarajan and Kolter, 2019; Belkin et al , 2019)。 0.76
This leads to work on extending and sharpening the traditional bounds for neural networks by introducing norms (Bartlett et al , 2017; Kawaguchi et al , 2017; Neyshabur et al , 2015, 2017, 2019; Golowich et al , 2018; Liang et al , 2019) or using PAC-Bayes approaches (Neyshabur et al , 2018; Dziugaite and Roy, 2017; Zhou et al , 2019; Arora et al , 2018). これにより、標準(Bartlett et al , 2017; Kawaguchi et al , 2017; Neyshabur et al , 2015, 2017; Golowich et al , 2018; Liang et al , 2019)の導入や、PAC-Bayesアプローチ(Neyshabur et al , 2018; Dziugaite and Roy, 2017; Zhou et al , 2019; Arora et al , 2018)の導入による、ニューラルネットワークの従来の境界の拡張と強化が実現されている。 0.91
A different direction of research studies the implicit regularization from gradient descent methods to explain generalization (Hardt et al , 2016; Soudry et al , 2018; Smith and Le, 2018; Arora et al , 2019a). 異なる研究方向は、一般化を説明するために勾配降下法から暗黙の正規化を研究する(hardt et al , 2016; soudry et al , 2018; smith and le, 2018; arora et al , 2019a)。 0.79
However, most of these approaches depend on posterior properties of a trained neural network. しかし、これらのアプローチのほとんどはトレーニングされたニューラルネットワークの後方特性に依存する。 0.64
In contrast, Arpit et al (2017) find that the data itself plays an important role in generalization. 対照的に arpit et al (2017) は、データ自体が一般化において重要な役割を果たすことを見出している。
訳抜け防止モード: 対照的に arpit et al (2017) は、 データ自体が一般化において重要な役割を果たす。
0.66
Therefore, other work focuses on the properties of data in context of generalization. したがって、他の研究は一般化の文脈におけるデータの特性に焦点を当てている。 0.53
Ma et al (2018) provide a prior estimate using properties of the true target function and Arora et al (2019b) derive a data-depended complexity measure using the Gram matrix of the data and Farnia et al (2020) analyze the properties of classification problems using Fourier analysis. ma et al (2018) は真の対象関数の性質を用いて事前推定を行い、arora et al (2019b) はデータのグラム行列を用いてデータ依存複雑性測度を導出し、farnia et al (2020) はフーリエ解析を用いて分類問題の性質を分析する。 0.85
The method suggested in this paper differs as we take a label landscape perspective to derive a generalization estimate. 本論文で提案する手法は,一般化推定を導出するためにラベルランドスケープパースペクティブを取ることで異なる。 0.73
5 Conclusions This paper introduced a landscape perspective on data distributions in order to explain generalization performance of DNNs. 結論5 本稿では,DNNの一般化性能を説明するために,データ分布の展望を紹介する。 0.68
We argued that the input data defines a label landscape and the correlation between labels of neighboring (similar) input values influences generalization. 我々は、入力データがラベルのランドスケープを定義し、隣接する(類似)入力値のラベル間の相関が一般化に影響を与えると論じた。
訳抜け防止モード: 入力データはラベルのランドスケープを定義し、 隣接する(類似した)入力値のラベル間の相関は一般化に影響を及ぼす。
0.77
We measure the correlation of the labels of neighboring input values by performing a random walk through the input data space and use Maurer’s universal to measure the randomness of the resulting label sequence yN . 我々は、入力データ空間をランダムウォークすることで、近隣の入力値のラベルの相関を計測し、Maurerの普遍性を用いて、結果のラベルシーケンスyNのランダム性を測定する。 0.73
A more random sequence indicates a less learnable structure in the data leading to poor generalization. よりランダムなシーケンスは、一般化の貧弱につながるデータの学習不能な構造を示す。 0.70
At the extreme, if there is no correlation between the labels of neighboring inputs, generalization error is maximal. 極端に、隣接する入力のラベルの間に相関がない場合、一般化誤差は最大である。 0.80
We performed experiments for a variety of problems to validate our hypothesis and found that the randomness (measured by Maurer’s universal) of the label sequence yN indeed can serve as an a priori indicator of the expected generalization error for a given data set. 仮説を検証するために様々な問題に対して実験を行い、ラベル列 yn のランダム性(maurer's universal による測定)が、与えられたデータセットの期待された一般化誤差の事前指標として機能することを発見した。 0.81
We presented results for both synthetic problems as well as real world data sets and found a high correlation between the randomness of the label sequence yN and the generalization error. 合成問題と実世界のデータセットの両方について結果を示し,ラベル配列yNのランダム性と一般化誤差との間に高い相関関係を見出した。 0.89
We conclude that a label landscape view on the data provides valuable insight into the generalization capability of DNN. 結論として,データに対するラベルランドスケープビューは,dnnの一般化能力に関する貴重な洞察を提供する。 0.63
We do not see a direct negative result on society as this paper performs fundamental research. 我々は,本論文が基礎研究を行うため,社会に否定的な結果をもたらすことはない。 0.67
However, our work could contribute to a better understanding of deep learning algorithms and in turn make such algorithms more accurate and efficient. しかし、私たちの研究はディープラーニングアルゴリズムの理解を深め、その結果、そのようなアルゴリズムをより正確かつ効率的にします。 0.68
This can have both positive as well as negative effects. これはプラス効果とマイナス効果の両方を持つ。 0.69
6 Limitations and future work 6 限界と今後の課題 0.81
Our approach provides insights and an a priori indicator for generalization in a binary classification case. 我々のアプローチは、二項分類の場合の一般化のための洞察と事前指標を提供する。 0.69
However, there are a few limitations due to the use of Maurer’s universal test. しかし、maurerのuniversal testを使うため、いくつかの制限がある。 0.65
As the test is only designed for a binary source processes, it is not applicable to multi-class problems. テストはバイナリソースプロセス用にのみ設計されているため、マルチクラス問題には適用できない。 0.78
Therefore, in future work we will study randomness measures for integer sequences. そこで,今後,整数列のランダム性尺度について検討する。 0.59
9 9 0.85
英語(論文から抽出)日本語訳スコア
If the decision variables are not known, our method depends on the approximation of the underlying manifold, for which we assume an Euclidean space. 決定変数が知られていない場合、我々の手法は基礎となる多様体の近似に依存し、ユークリッド空間を仮定する。 0.76
Approximating such a manifold can be challenging for more difficult data sets. そのような多様体を近似することは、より難しいデータセットに対して困難である。 0.56
Studying the impact of this approximation and different distance measures for the neighborhood could lead to a better understanding of our findings. この近似と近隣の異なる距離測定の影響を調べることは、我々の発見をよりよく理解することにつながるかもしれない。
訳抜け防止モード: この近似と距離測定の地域差の影響についての研究 私たちの発見をよりよく理解することになります。
0.74
References Abadi, M., Barham, P., Chen, J., Chen, Z., Davis, A., Dean, J., Devin, M., Ghemawat, S., Irving, G., Isard, M., et al (2016). Abadi, M., Barham, P., Chen, J., Chen, Z., Davis, A., Dean, J., Devin, M., Ghemawat, S., Irving, G., Isard, M., et al (2016)を参照。 0.84
Tensorflow: A system for large-scale machine learning. Tensorflow: 大規模な機械学習のためのシステム。 0.78
In 12th {USENIX} symposium on operating systems design and implementation ({OSDI} 16), pages 265–283. 12th {USENIX} symposium on operating systems design and implementation ({OSDI} 16), page 265–283。 0.82
Arora, S., Cohen, N., Hu, W., and Luo, Y. Arora, S., Cohen, N., Hu, W., Luo, Y。 0.77
(2019a). Implicit regularization in deep matrix factorization. (2019)。 深い行列分解における帰納正則化 0.66
In Wallach, H., Larochelle, H., Beygelzimer, A., d'Alché-Buc, F., Fox, E., and Garnett, R., editors, Advances in Neural Information Processing Systems, volume 32. Wallach, H., Larochelle, H., Beygelzimer, A., d'Alché-Buc, F., Fox, E., Garnett, R., editors, Advances in Neural Information Processing Systems, Volume 32。 0.86
Curran Associates, Inc. Curran Associates, Inc. 0.85
Arora, S., Du, S., Hu, W., Li, Z., and Wang, R. (2019b). Arora, S., Du, S., Hu, W., Li, Z., Wang, R. (2019b)。 0.84
Fine-grained analysis of optimization and generalization for overparameterized two-layer neural networks. 過パラメータ2層ニューラルネットワークの最適化と一般化に関するきめ細かい解析 0.78
In International Conference on Machine Learning, pages 322–332. 国際機械学習会議において、322-332頁。 0.79
PMLR. Arora, S., Ge, R., Neyshabur, B., and Zhang, Y. PMLR。 Arora, S., Ge, R., Neyshabur, B., Zhang, Y。 0.78
(2018). Stronger generalization bounds for deep nets via a (2018). a によるディープネットに対するより強い一般化境界 0.76
compression approach. In International Conference on Machine Learning, pages 254–263. 圧縮アプローチ。 機械学習に関する国際会議、254-263頁。 0.72
PMLR. Arpit, D., Jastrz˛ebski, S., Ballas, N., Krueger, D., Bengio, E., Kanwal, M. S., Maharaj, T., Fischer, A., Courville, A., Bengio, Y., et al (2017). PMLR。 Arpit, D., Jastrz sebski, S., Ballas, N., Krueger, D., Bengio, E., Kanwal, M. S., Maharaj, T., Fischer, A., Courville, A., Bengio, Y., et al (2017)。 0.84
A closer look at memorization in deep networks. ディープネットワークの記憶をもっとよく見てみよう。 0.62
In International Conference on Machine Learning, pages 233–242. 国際機械学習会議において、233–242頁。 0.78
PMLR. Bartlett, P. L., Foster, D. J., and Telgarsky, M. J. PMLR。 Bartlett, P. L., Foster, D. J., Telgarsky, M. J。 0.86
(2017). Spectrally-normalize d margin bounds for neural networks. (2017). ニューラルネットワークのスペクトル正規化マージン境界 0.79
In Guyon, I., Luxburg, U. V., Bengio, S., Wallach, H., Fergus, R., Vishwanathan, S., and Garnett, R., editors, Advances in Neural Information Processing Systems, volume 30. Guyon, I., Luxburg, U.V., Bengio, S., Wallach, H., Fergus, R., Vishwanathan, S., Garnett, R., editors, Advances in Neural Information Processing Systems, Volume 30。 0.81
Curran Associates, Inc. Curran Associates, Inc. 0.85
Bartlett, P. L. and Mendelson, S. (2002). Bartlett, P. L. and Mendelson, S. (2002)。 0.93
Rademacher and gaussian complexities: Risk bounds and structural rademacherとgaussian complexities:リスク境界と構造 0.71
results. Journal of Machine Learning Research, 3(Nov):463–482. 結果だ Journal of Machine Learning Research, 3(Nov):463–482。 0.77
Belkin, M., Hsu, D., Ma, S., and Mandal, S. (2019). Belkin, M., Hsu, D., Ma, S. and Mandal, S. (2019)。 0.87
Reconciling modern machine-learning practice and the classical bias–variance trade-off. 現代の機械学習の実践と古典的バイアス-ばらつきのトレードオフを再現する。 0.50
Proceedings of the National Academy of Sciences, 116(32):15849–15854. 国立科学アカデミー、116(32):15849-15854。 0.56
Bengio, Y., Delalleau, O., and Le Roux, N. (2006). Bengio, Y., Delalleau, O. and Le Roux, N. (2006)。 0.87
The curse of highly variable functions for local kernel ローカルカーネルに対する高度に可変な関数の呪い 0.78
machines. Advances in neural information processing systems, 18:107. マシンだ ニューラル情報処理システムの進歩、18:107。 0.73
Bousquet, O. and Elisseeff, A. Bousquet, O. and Elisseeff, A. 0.94
(2002). Stability and generalization. (2002). 安定性と一般化。 0.75
The Journal of Machine Learning Research, The Journal of Machine Learning Research(英語) 0.76
2:499–526. 2:499–526. 0.50
Box, G. E. and Jenkins, G. M. (1976). Box, G. E. and Jenkins, G. M. (1976)。 0.91
Time series analysis: Forecasting and control san francisco. 時系列分析:サンフランシスコの予測と制御。 0.69
Calif: Holden-Day. Calif ホールデンデー。 0.46
Coron, J.-S. and Naccache, D. (1998). Coron, J.-S. and Naccache, D. (1998)。 0.84
An accurate evaluation of maurer’s universal test. maurerのuniversal testの正確な評価。 0.65
In International Workshop on Selected Areas in Cryptography, pages 57–71. 海外では Selected Areas in Cryptography』57-71頁。 0.63
Springer. Cybenko, G. (1989). Springer Cybenko, G. (1989)。 0.73
Approximation by superpositions of a sigmoidal function. s字関数の重ね合わせによる近似 0.53
Mathematics of control, signals and systems, 2(4):303–314. 制御の数学、信号 および2(4):303-314。 0.73
Dziugaite, G. K. and Roy, D. M. (2017). G. K. and Roy, D. M. (2017)。 0.88
Computing nonvacuous generalization bounds for deep (stochastic) 深い(確率的な)非空一般化境界の計算 0.59
neural networks with many more parameters than training data. トレーニングデータよりも多くのパラメータを持つニューラルネットワーク。 0.84
arXiv preprint arXiv:1703.11008. arXiv preprint arXiv:1703.11008 0.71
Elson, J., Douceur, J. R., Howell, J., and Saul, J. Elson, J., Douceur, J. R., Howell, J., Saul, J. 0.84
(2007). Asirra: a captcha that exploits interest-aligned manual image categorization. (2007). asirra: 利害関係の手動イメージ分類を利用するcaptcha。 0.81
In ACM Conference on Computer and Communications Security, volume 7, pages 366–374. ACM Conference on Computer and Communications Security』第7巻 366-374頁。 0.76
Farnia, F., Zhang, J. M., and David, N. T. (2020). Farnia, F., Zhang, J. M. and David, N. T. (2020)。 0.95
A fourier-based approach to generalization and optimization フーリエに基づく一般化と最適化のアプローチ 0.65
in deep learning. IEEE Journal on Selected Areas in Information Theory, 1(1):145–156. 深層学習です IEEE Journal on Selected Areas in Information Theory, 1(1):145–156。 0.72
Golowich, N., Rakhlin, A., and Shamir, O. Golowich, N., Rakhlin, A., Shamir, O。 0.73
(2018). Size-independent sample complexity of neural networks. (2018). ニューラルネットワークのサイズ非依存なサンプル複雑性。 0.76
In Conference On Learning Theory, pages 297–299. 院 学習理論会議 297-299頁。 0.56
PMLR. Goodfellow, I., Bengio, Y., Courville, A., and Bengio, Y. PMLR。 Goodfellow, I., Bengio, Y., Courville, A., Bengio, Y。 0.79
(2016). Deep learning, volume 1. (2016). 深層学習、第1巻。 0.74
MIT press Cambridge. MITプレス ケンブリッジ。 0.67
Hardt, M., Recht, B., and Singer, Y. Hardt, M., Recht, B., Singer, Y。 0.75
(2016). Train faster, generalize better: Stability of stochastic gradient (2016). より速く、より一般化する:確率勾配の安定性 0.76
descent. In International Conference on Machine Learning, pages 1225–1234. 降下 機械学習に関する国際会議、1225-1234頁。 0.54
PMLR. 10 PMLR。 10 0.83
英語(論文から抽出)日本語訳スコア
Herrmann, S., Ochoa, G., and Rothlauf, F. (2016). Herrmann, S., Ochoa, G. and Rothlauf, F. (2016)。 0.89
Communities of local optima as funnels in fitness landscapes. フィットネスランドスケープにおけるファンネルとしての地域最適のコミュニティ。 0.57
In Proceedings of the Genetic and Evolutionary Computation Conference 2016, GECCO ’16, page 325–331, New York, NY, USA. Proceedings of the Genetic and Evolutionary Computation Conference 2016, GECCO ’16, page 325–331, New York, NY, USA 0.81
Association for Computing Machinery. アソシエーション・フォー・コンピューティング・マシンズ(Association for Computing Machinery)の略。 0.36
Hinton, G. E. and Salakhutdinov, R. R. (2006). Hinton, G. E. and Salakhutdinov, R. R. (2006)。 0.89
Reducing the dimensionality of data with neural networks. ニューラルネットワークによるデータの次元性の低減。 0.80
science, 313(5786):504–507. 313(5786):504-507。 0.68
Hornik, K. (1991). hornik, k. (1991)。 0.81
Approximation capabilities of multilayer feedforward networks. 多層フィードフォワードネットワークの近似機能 0.58
Neural networks, 4(2):251– ニューラルネットワーク, 4(2):251- 0.80
257. Imaizumi, M. and Fukumizu, K. (2019). 257. Imaizumi, M. and Fukumizu, K. (2019)。 0.90
Deep neural networks learn non-smooth functions effectively. ディープニューラルネットワークは非滑らかな関数を効果的に学習する。 0.53
In The 22nd International Conference on Artificial Intelligence and Statistics, pages 869–878. では 22nd international conference on artificial intelligence and statistics, pp. 869-878。 0.69
PMLR. Jones, T. and Forrest, S. (1995). PMLR。 Jones, T. and Forrest, S. (1995)。 0.88
Fitness distance correlation as a measure of problem difficulty for genetic algorithms. 遺伝的アルゴリズムにおける問題難易度尺度としてのフィトネス距離相関 0.80
In Proceedings of the 6th International Conference on Genetic Algorithms, page 184–192, San Francisco, CA, USA. 第6回遺伝子アルゴリズム国際会議(international conference on genetic algorithms)第184-192ページ、カリフォルニア州サンフランシスコ。 0.83
Morgan Kaufmann Publishers Inc. Morgan Kaufmann Publishers Inc. 0.85
Kawaguchi, K., Kaelbling, L. P., and Bengio, Y. カワグチ, k., kaelbling, l. p., and bengio, y. 0.63
(2017). Generalization in deep learning. (2017). ディープラーニングの一般化。 0.71
arXiv preprint arXiv プレプリント 0.83
arXiv:1710.05468. arXiv:1710.05468。 0.48
Kingma, D. P. and Ba, J. Kingma, D. P. and Ba, J. 0.98
(2014). Adam: A method for stochastic optimization. (2014). Adam: 確率最適化の方法です。 0.77
arXiv preprint arXiv:1412.6980. arXiv preprint arXiv:1412.6980 0.71
Kingma, D. P. and Welling, M. (2013). Kingma, D. P. and Welling, M. (2013)。 0.91
Auto-encoding variational bayes. 自動エンコーディング変分ベイズ。 0.67
arXiv preprint arXiv:1312.6114. arXiv preprint arXiv:1312.6114 0.72
Krizhevsky, A., Hinton, G., et al (2009). Krizhevsky, A., Hinton, G., et al (2009)。 0.81
Learning multiple layers of features from tiny images. 小さな画像から複数の機能層を学ぶ。 0.80
LeCun, Y., Bengio, Y., and Hinton, G. (2015). LeCun, Y., Bengio, Y. and Hinton, G. (2015)。 0.88
Deep learning. nature, 521(7553):436–444. 深層学習。 自然界 521(7553):436–444。 0.73
LeCun, Y., Bottou, L., Bengio, Y., and Haffner, P. (1998). LeCun, Y., Bottou, L., Bengio, Y. and Haffner, P. (1998)。 0.86
Gradient-based learning applied to document 文書への勾配学習の適用 0.73
recognition. Proceedings of the IEEE, 86(11):2278–2324. 認識 IEEE 86(11):2278–2324。 0.58
Liang, T., Poggio, T., Rakhlin, A., and Stokes, J. Liang, T., Poggio, T., Rakhlin, A., Stokes, J。 0.77
(2019). Fisher-rao metric, geometry, and complexity of neural networks. (2019). フィッシャー・ラオ計量、幾何学、およびニューラルネットワークの複雑性。 0.73
In The 22nd International Conference on Artificial Intelligence and Statistics, pages 888–896. 第22回人工知能・統計国際会議において、888-896頁。 0.68
PMLR. Ma, C., Wu, L., et al (2018). PMLR。 Ma, C., Wu, L., et al (2018)。 0.81
A priori estimates of the population risk for two-layer neural networks. 先行研究では2層ニューラルネットワークの人口リスクを推定する。 0.75
arXiv preprint arXiv:1810.06397. arXiv arXiv:1810.06397 0.74
Maurer, U. M. (1992). Maurer, U.M. (1992)。 0.90
A universal statistical test for random bit generators. ランダムビット生成器の普遍的統計テスト。 0.74
Journal of cryptology, 5(2):89–105. Journal of Cryptology, 5(2):89–105。 0.85
Nagarajan, V. and Kolter, J. Nagarajan, V. and Kolter, J. 0.94
Z. (2019). Z。 (2019). 0.81
Uniform convergence may be unable to explain generalization in deep learning. 一様収束は、ディープラーニングにおける一般化を説明することができないかもしれない。 0.43
In Wallach, H., Larochelle, H., Beygelzimer, A., d'Alché-Buc, F., Fox, E., and Garnett, R., editors, Advances in Neural Information Processing Systems, volume 32. Wallach, H., Larochelle, H., Beygelzimer, A., d'Alché-Buc, F., Fox, E., Garnett, R., editors, Advances in Neural Information Processing Systems, Volume 32。 0.86
Curran Associates, Inc. Curran Associates, Inc. 0.85
Neyshabur, B., Bhojanapalli, S., Mcallester, D., and Srebro, N. (2017). Neyshabur, B., Bhojanapalli, S., Mcallester, D., and Srebro, N. (2017)。 0.87
Exploring generalization in deep learning. ディープラーニングにおける一般化の探求。 0.45
In Guyon, I., Luxburg, U. V., Bengio, S., Wallach, H., Fergus, R., Vishwanathan, S., and Garnett, R., editors, Advances in Neural Information Processing Systems, volume 30. Guyon, I., Luxburg, U.V., Bengio, S., Wallach, H., Fergus, R., Vishwanathan, S., Garnett, R., editors, Advances in Neural Information Processing Systems, Volume 30。 0.81
Curran Associates, Inc. Curran Associates, Inc. 0.85
Neyshabur, B., Bhojanapalli, S., and Srebro, N. (2018). Neyshabur, B., Bhojanapalli, S., and Srebro, N. (2018)。 0.89
A pac-bayesian approach to spectrally-normalize d スペクトル正規化に対するpac-bayesianアプローチ 0.48
margin bounds for neural networks. ニューラルネットワークの限界。 0.46
In International Conference on Learning Representations. 学習表現に関する国際会議に参加。 0.79
Neyshabur, B., Li, Z., Bhojanapalli, S., LeCun, Y., and Srebro, N. (2019). Neyshabur, B., Li, Z., Bhojanapalli, S., LeCun, Y., and Srebro, N. (2019)。 0.86
The role of over-parametrization in 過度パラメトリゼーションの役割 0.55
generalization of neural networks. ニューラルネットワークの一般化。 0.77
In International Conference on Learning Representations. 学習表現に関する国際会議に参加。 0.79
Neyshabur, B., Tomioka, R., and Srebro, N. (2015). Neyshabur, B., Tomioka, R., and Srebro, N. (2015)。 0.88
Norm-based capacity control in neural networks. ニューラルネットワークにおけるノルムベースキャパシティ制御 0.71
In Conference on Learning Theory, pages 1376–1401. 院 学習理論会議 1376-1401頁。 0.56
PMLR. Rothlauf, F. (2011). PMLR。 Rothlauf, F. (2011)。 0.86
Design of modern heuristics: principles and application. 現代ヒューリスティックの設計:原則と応用。 0.70
Springer Science & Business Springer Science & Business 0.85
Media. Smith, S. L. and Le, Q. V. (2018). メディア。 Smith, S. L. and Le, Q. V. (2018)。 0.84
A bayesian perspective on generalization and stochastic gradient descent. 一般化と確率勾配降下に関するベイズ的視点 0.59
In International Conference on Learning Representations. 院 International Conference on Learning Representations(英語) 0.61
Soudry, D., Hoffer, E., Nacson, M. S., Gunasekar, S., and Srebro, N. (2018). Soudry, D., Hoffer, E., Nacson, M. S., Gunasekar, S., and Srebro, N. (2018)。 0.91
The implicit bias of gradient 勾配の暗黙のバイアス 0.61
descent on separable data. 分離可能なデータによる降下 0.58
The Journal of Machine Learning Research, 19(1):2822–2878. The Journal of Machine Learning Research, 19(1):2822–2878 0.90
Vapnik, V. (1992). vapnik, v. (1992)。 0.85
Principles of risk minimization for learning theory. 学習理論におけるリスク最小化の原則。 0.81
In Advances in neural information processing systems, pages 831–838. 神経情報の分野では 処理システム 831-838頁。 0.78
Vapnik, V. (2013). vapnik, v. (2013)。 0.86
The nature of statistical learning theory. 統計的学習理論の性質。 0.74
Springer science & business media. Springer Science & Business Media の略。 0.75
11 11 0.85
英語(論文から抽出)日本語訳スコア
Wald, A. and Wolfowitz, J. Wald, A. and Wolfowitz, J. 0.94
(1940). On a test whether two samples are from the same population. (1940). 2つのサンプルが同じ集団のものであるかどうかのテストで 0.79
The Annals of Annals の略。 0.53
Mathematical Statistics, 11(2):147–162. 数学統計学 11(2):147–162。 0.84
Wolpert, D. H. (1996a). Wolpert, D. H. (1996a)。 0.84
The existence of a priori distinctions between learning algorithms. 先行性の存在は学習アルゴリズムを区別する。 0.74
Neural Computation, 8(7):1391–1420. 神経計算 8(7):1391–1420. 0.62
Wolpert, D. H. (1996b). Wolpert, D. H. (1996b)。 0.84
The lack of a priori distinctions between learning algorithms. 学習アルゴリズムの間に事前の区別がない。 0.72
Neural Computation, 8(7):1341–1390. 神経計算 8(7):1341–1390. 0.62
Wolpert, D. H. and Macready, W. G. (1995). Wolpert, D. H. and Macready, W. G. (1995)。 0.89
No free lunch theorems for search. 検索のための無料のランチ定理はない。 0.61
Technical report, Technical 技術報告, 技術報告 0.84
Report SFI-TR-95-02-010, Santa Fe Institute. サンタフェ研究所SFI-TR-95-02-010報告 0.53
Wolpert, D. H. and Macready, W. G. (1997). Wolpert, D. H. and Macready, W. G. (1997)。 0.89
No free lunch theorems for optimization. 最適化のための無料ランチ定理はない。 0.58
IEEE transactions on IEEEトランザクション 0.56
evolutionary computation, 1(1):67–82. 進化計算 1(1):67–82。 0.78
Wright, S. (1932). Wright, S. (1932年)。 0.79
The roles of mutation, inbreeding, crossbreeding, and selection in evolution. 突然変異、交配、交配、進化における選択の役割。 0.69
Zhang, C., Bengio, S., Hardt, M., Recht, B., and Vinyals, O. Zhang, C., Bengio, S., Hardt, M., Recht, B., Vinyals, O。 0.77
(2017). Understanding deep learning requires (2017). ディープラーニングを理解するには 0.66
rethinking generalization. International Conference on Learning Representations. 一般化を再考する International Conference on Learning Representations(英語) 0.61
Zhou, W., Veitch, V., Austern, M., Adams, R. P., and Orbanz, P. (2019). Zhou, W., Veitch, V., Austern, M., Adams, R. P., Orbanz, P. (2019)。 0.83
Non-vacuous generalization bounds at the imagenet scale: a PAC-bayesian compression approach. imagenetスケールにおける空でない一般化:pac-ベイズ圧縮アプローチ。 0.64
In International Conference on Learning Representations. 学習表現に関する国際会議に参加。 0.79
A Appendix appendix (複数形 appendixs) 0.35
Table 1: Pearson’s r correlation coefficient between generalization error and (1 − p) for the different experimental setups. 表1: pearson's r correlation coefficient between generalization error and (1 − p) for the different experimental setups。 0.80
Problem Set XOR 11-bit XOR 15-bit Majority 11-bit Majority 15-bit Parity 11-bit Parity 15-bit MNIST CIFAR MNIST CIFAR Problem Set XOR 11-bit 15-bit Majority 11-bit Majority 15-bit Parity 11-bit Parity 15-bit MNIST MNIST CIFAR 0.76
Figure Model MLP MLP MLP MLP MLP MLP MLP CNN MLP CNN 図形モデルMLP MLP MLP MLP MLP MLP MLP MLP CNN CNN 0.84
2 2 2 2 2 2 3 3 4 4 2 2 2 2 2 2 3 3 4 4 0.85
r -0.968 -0.982 -0.981 -0.994 -0.944 -0.949 -0.976 -0.997 -0.994 -0.994 r -0.968 -0.982 -0.981 -0.994 -0.944 -0.949 -0.976 -0.997 -0.994 -0.994 0.58
12 12 0.85
                         ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。