論文の概要、ライセンス

# (参考訳) ニューラルネットワークの傾斜と一般化特性 [全文訳有]

Slope and generalization properties of neural networks ( http://arxiv.org/abs/2107.01473v1 )

ライセンス: CC BY 4.0
Anton Johansson, Niklas Engsner, Claes Stranneg{\aa}rd, Petter Mostad(参考訳) ニューラルネットワークは、例えば高度な分類において非常に成功したツールである。 統計的観点からは、ニューラルネットワークの適合は、入力空間からデータの「一般的な」形に従う分類確率の空間への関数を求める回帰の一種と見なすことができるが、個々のデータポイントの記憶を避けることによって過剰フィッティングを避けることができる。 統計学において、これは回帰関数の幾何学的複雑さを制御することで実現できる。 ネットワークの傾斜を制御してニューラルネットワークを適合させる手法を提案する。 勾配を定義して理論的な性質について議論した後、reluネットワークを用いて、よく訓練されたニューラルネットワーク分類器の勾配分布は、一般的に、完全接続されたネットワークの層幅とは独立であり、分布の平均は、モデルアーキテクチャ全般に弱い依存しか持たないことを実証的に示した。 傾斜は、関連する体積を通して同じ大きさで、滑らかに変化する。 また、再スケーリングの例で予測したように振る舞う。 本稿では,損失関数の一部として使用したり,ネットワークトレーニング中に基準値を停止したり,複雑性の観点からデータセットをランク付けしたりといった,スロープ概念の応用の可能性について議論する。

Neural networks are very successful tools in for example advanced classification. From a statistical point of view, fitting a neural network may be seen as a kind of regression, where we seek a function from the input space to a space of classification probabilities that follows the "general" shape of the data, but avoids overfitting by avoiding memorization of individual data points. In statistics, this can be done by controlling the geometric complexity of the regression function. We propose to do something similar when fitting neural networks by controlling the slope of the network. After defining the slope and discussing some of its theoretical properties, we go on to show empirically in examples, using ReLU networks, that the distribution of the slope of a well-trained neural network classifier is generally independent of the width of the layers in a fully connected network, and that the mean of the distribution only has a weak dependence on the model architecture in general. The slope is of similar size throughout the relevant volume, and varies smoothly. It also behaves as predicted in rescaling examples. We discuss possible applications of the slope concept, such as using it as a part of the loss function or stopping criterion during network training, or ranking data sets in terms of their complexity.
公開日: Sat, 3 Jul 2021 17:54:27 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
1 2 0 2 l u J 1 2 0 2 l u J 0.85
3 ] L M . t a t s [ 3 ]LM . t a t s [ 0.74
1 v 3 7 4 1 0 1 v 3 7 4 1 0 0.85
. 7 0 1 2 : v i X r a . 7 0 1 2 : v i X r a 0.85
Slope and generalization properties of neural 神経の傾斜と一般化特性 0.78
networks Anton Johansson1* ネットワーク Anton Johansson1* 0.85
Niklas Engsner1 Niklas Engsner1 0.88
Claes Strannegård1 Claes Strannegård1 0.88
Petter Mostad1 Petter Mostad1 0.88
Abstract Neural networks are very successful tools in for example advanced classification. 概要 ニューラルネットワークは、例えば高度な分類において非常に成功したツールである。 0.52
From a statistical point of view, fitting a neural network may be seen as a kind of regression, where we seek a function from the input space to a space of classification probabilities that follows the "general" shape of the data, but avoids overfitting by avoiding memorization of individual data points. 統計的観点からは、ニューラルネットワークの適合は、入力空間からデータの「一般的な」形に従う分類確率の空間への関数を求める回帰の一種と見なすことができるが、個々のデータポイントの記憶を避けることによって過剰フィッティングを避けることができる。 0.81
In statistics, this can be done by controlling the geometric complexity of the regression function. 統計学において、これは回帰関数の幾何学的複雑さを制御することで実現できる。 0.68
We propose to do something similar when fitting neural networks by controlling the slope of the network. ネットワークの傾斜を制御してニューラルネットワークを適合させる手法を提案する。 0.64
After defining the slope and discussing some of its theoretical properties, we go on to show empirically in examples, using ReLU networks, that the distribution of the slope of a well-trained neural network classifier is generally independent of the width of the layers in a fully connected network, and that the mean of the distribution only has a weak dependence on the model architecture in general. 勾配を定義して理論的な性質について議論した後、reluネットワークを用いて、よく訓練されたニューラルネットワーク分類器の勾配分布は、一般的に、完全接続されたネットワークの層幅とは独立であり、分布の平均は、モデルアーキテクチャ全般に弱い依存しか持たないことを実証的に示した。 0.74
The slope is of similar size throughout the relevant volume, and varies smoothly. 傾斜は、関連する体積を通して同じ大きさで、滑らかに変化する。 0.64
It also behaves as predicted in rescaling examples. また、再スケーリングの例で予測したように振る舞う。 0.48
We discuss possible applications of the slope concept, such as using it as a part of the loss function or stopping criterion during network training, or ranking data sets in terms of their complexity. 本稿では,損失関数の一部として使用したり,ネットワークトレーニング中に基準値を停止したり,複雑性の観点からデータセットをランク付けしたりといった,スロープ概念の応用の可能性について議論する。 0.66
1 Introduction Consider the objective of classifying items, for example images, which may be represented as points in Rn0, into nc classes. 1 はじめに 例えば、rn0の点として表現されるかもしれない画像をncクラスに分類する目的を考える。 0.71
One approach is to find a map f ∈ A where A is the set of all continuous maps Rn0 → Rnc and interpret softmaxi(f (x)) as the probability that x is in class i. 1つのアプローチは、a がすべての連続写像 rn0 → rnc の集合であり、ソフトマックス(f(x)) を x がクラス i に属する確率として解釈する写像 f ∈ a を見つけることである。 0.72
We aim for a map that fits observed data in terms of the corresponding loss function while simultaneously avoiding overfitting to these data. 本研究では,これらのデータへの過度な適合を回避しつつ,対応する損失関数の観点から観測データに適合するマップを提案する。 0.65
A general way to avoid overfitting is to control the "geometric complexity" of f, interpreting geometric complexity in a similar way as in many corresponding methods from classical statistics. オーバーフィッティングを避ける一般的な方法は f の「幾何学的複雑さ」を制御し、古典統計学の多くの対応する方法と同様の方法で幾何学的複雑性を解釈することである。 0.69
A common way to limit the complexity is to define a subset B ⊂ A, consisting for example of all those maps expressable with a neural network with a given architecture, and to use a particular stochastic algorithm to generate a suitable f that balances loss minimization and avoidance of overfitting. 複雑性を制限する一般的な方法は、与えられたアーキテクチャでニューラルネットワークで表現可能なすべてのマップからなる部分集合 B > A を定義し、特定の確率アルゴリズムを用いて損失最小化と過剰適合の回避のバランスをとる適切な f を生成することである。 0.84
As the properties we are trying to balance, the loss and the overfitting, both depend on f and nothing else, we argue that control of geometric complexity should be measured in terms of properties defined directly on f, and not in terms of any particular neural network representation of f. Calling such properties geometric properties, we focus in this paper on what we call the slope, essentially the largest speed with which f moves its input at a point. 私たちがバランスを取ろうとしている性質、損失と過度な適合性は、どちらも f とそれ以外に依存しているため、幾何学的複雑性の制御は f の特定のニューラルネットワーク表現ではなく、f 上で直接定義された性質の観点で測定されるべきであり、f の特定のニューラルネットワーク表現の観点からはならない。
訳抜け防止モード: 私たちがバランスをとろうとしている特性として、損失と過剰フィットがあります。 我々は幾何学的複雑性の制御は、直接 f 上で定義される性質の観点から測定されるべきであると主張する。 そして、f の特定のニューラルネットワーク表現についてではなく、そのような性質を幾何学的性質と呼ぶ。 この論文に焦点をあてて これは本質的にfが入力をある時点で動かす最大の速度です。
0.70
Using the hypothesis that current algorithms for training neural network classifiers are indeed successful when they control the geometric complexity of f in a meaningful way, we use these algorithms to generate successful classifiers f1, . ニューラルネットワーク分類器を訓練するための現在のアルゴリズムは、fの幾何学的複雑性を有意義な方法で制御するときに実際に成功するという仮説を用いて、これらのアルゴリズムを用いて分類器を成功させる。 0.69
. . , fk for a given dataset. . . 特定のデータセットのfk。 0.73
Under our hypothesis, these functions 私たちの仮説では これらの機能は 0.57
1Chalmers University of Technology, Gothenburg, Sweden. スウェーデンのヨーテボリにある1Chalmers University of Technology。 0.77
*Correspondence to: Anton Johansson <johaant@chalmers.se& gt;. ※対応:anton johansson<johaant@chalmers.se& gt; 0.61
英語(論文から抽出)日本語訳スコア
should then have similar geometric properties, and in particular similar slope properties. 同様の幾何学的性質、特に同様の傾斜特性を持つべきです。 0.74
These slope properties should depend only on the problem at hand, i.e., the dataset, and not on the particular neural network architecture used, except as a consequence of the approximations involved. これらの勾配特性は、手前の問題、すなわちデータセットにのみ依存し、関連する近似の結果を除いて使用される特定のニューラルネットワークアーキテクチャに依存してはならない。 0.70
In this paper, we first define and study some basic properties of the slope, before studying what happens with the slope during learning for ReLU networks. 本稿では,まず斜面の基本的な特性を定義し検討し,その上でreluネットワークの学習中に斜面がどうなるかを検討する。 0.76
We then go on to check the hypothesis above by varying the network architecture, data sets and the distance between the points in order to see how these parameters affect the slope. 次に、これらのパラメータが斜面にどのように影響するかを確認するために、ネットワークアーキテクチャ、データセット、点間の距離を変化させて上記の仮説を確認する。 0.71
Finally, we discuss applications of the slope, for example to directly target a particular slope during the training of a neural network, or to use the slope for regularization. 最後に、ニューラルネットワークのトレーニング中に特定の斜面を直接標的にしたり、正規化のために斜面を使用することなど、斜面の応用について論じる。 0.63
1.1 Related work and our contribution 1.1関連事業と貢献 0.84
Understanding how and why neural network methods work as well as they do is clearly a vast area of research, and one that has been attacked in a number of ways. ニューラルネットワークの手法がなぜどのように機能するのかを理解することは、明らかに膨大な研究領域であり、様々な方法で攻撃されてきた。 0.77
Some examples are information theoretic approaches [11], [6], [4], classical statistical learning theory approaches [13], [1] and others [14]. 例としては、情報理論のアプローチ [11], [6], [4], 古典的統計学習理論のアプローチ [13], [1] などがあります。 0.74
A geometrical perspective has been considered in different contexts, e.g, by relating the manifold structure of the data distribution to generalization properties, see [5], [2], or by understanding the inductive bias of deep neural networks by studying how the distance to the decision boundary varies as the data representation is changed, see [8]. 例えば、データ分布の多様体構造を一般化特性に関連付けたり、[5], [2]を参照したり、データ表現が変化するにつれて決定境界までの距離がどう変化するかを研究することでディープニューラルネットワークの帰納バイアスを理解することで、幾何学的視点が検討されている。 0.77
A paper taking a somewhat similar view as ours is [12]. 私達と似た見解の論文は [12] である. 0.72
In this paper Yoshida et al impose an upper bound on the spectral norm of the local affine transformation of ReLU networks by enforcing the spectral norm of each individual weight matrix in the network to be small. 本稿では,ReLUネットワークの局所アフィン変換のスペクトルノルムに,ネットワーク内の個々の重み行列のスペクトルノルムを小さくすることで上限を付ける。 0.61
This provides a regularization method that is related to the slope as we define it, but only indirectly. これは、我々が定義したように斜面に関連する正規化方法を提供するが、間接的にのみである。 0.63
In [12] they then go on to show that their regularization method has attractive properties. 12]では、それらの正規化法が魅力的な性質を持つことを示す。 0.71
Contributions: • We define the concept of slope to capture the geometric complexity of regression maps. 寄稿: • 回帰写像の幾何学的複雑さを捉えるために斜面の概念を定義する。 0.65
• We provide theoretical insights into properties associated with the slope, indicating how it •傾斜に伴う特性に関する理論的知見を提供し、その方法を示す。 0.73
can be used to capture aspects of the evolution and structure of the underlying geometry. 基礎となる幾何学の進化と構造の側面を捉えるのに使うことができる。 0.64
• Additionally, we validate our theory with empirical results for ReLU networks and show that the distribution of the slope for well-trained models is close to invariant to the width of the hidden layers in fully connected network, and that the mean of the slope distribution only has a weak dependence on the model architecture for both fully connected and convolutional networks. さらに,本理論をReLUネットワークの実証的結果を用いて検証し,十分に訓練されたモデルに対する斜面分布は,完全連結ネットワークにおける隠れ層の幅に近づき,また,斜面分布の平均は完全連結ネットワークと畳み込みネットワークの両方のモデル構造への弱い依存しか持たないことを示す。 0.82
2 Notation and definitions 2.1 Preliminaries A neural network f : Rn0 → Rnc will for us consist of 2表記と定義 2.1 予備 ニューラルネットワーク f : Rn0 → Rnc は私たちから成り立つ 0.79
• a sequence of positive integers n0, n1, ..., nn = nc, where n1, . • 正の整数 n0, n1, ..., nn = nc の列。
訳抜け防止モード: • 正の整数の列 n0, n1, ..., nn = nc , ここで n1 , .
0.90
. . , nn denote the width of the hidden layers, • for i = 1, ..., n, an (ni × ni−1)-dimensional matrix Wi and a vector bi of length ni, and • a continuous activation function g : R → R applied separately to each dimension. . . nn は隠れた層の幅を表し、i = 1, ..., n に対して(ni × ni−1)次元行列 wi と長さ ni のベクトル bi、• 各次元に別々に適用される連続活性化関数 g : r → r を表す。
訳抜け防止モード: . . ,nn は隠された層の幅を表し、• は i = 1 である。 ..., n, an ( ni × ni−1)-次元行列Wi そして長さ ni と • のベクトル Bi と連続活性化関数 g : R → R は各次元 に対して別々に適用される。
0.86
We define f 0(x) = x and for i = 1, . f 0(x) = x と定義し、i = 1 に対して定義する。 0.81
. . , n − 1 a continuous map f i : Rn0 → Rni by setting . . , n − 1 a continuous map fi : Rn0 → Rni by set 0.84
f i(x) = g(Wif i−1(x) + bi) f i(x) = g(Wif i−1(x) + bi) 0.95
while we set f (x) = f n(x) = Wnf n−1(x) + bn. 一方、f(x) = f n(x) = Wnf n−1(x) + bn とする。 0.87
To use the network for classification, we apply the softmax function to f (x) to produce an output which can be interpreted as a probability distribution on the set of nc classes. このネットワークを分類に利用するために,f(x) にソフトマックス関数を適用し,nc クラスの集合上の確率分布として解釈できる出力を生成する。 0.83
We are mainly concerned with neural networks with activation functions given by the Rectified Linear Units (ReLU) [7], referred to as ReLU networks. 我々は主に、ReLUネットワークと呼ばれるRectified Linear Units (ReLU) [7]によって与えられる活性化機能を持つニューラルネットワークに関心を持っている。 0.79
Then g(x) = max(0, x). そして g(x) = max(0, x) である。 0.84
2 2 0.85
英語(論文から抽出)日本語訳スコア
For ReLU networks we can additionally define the concept of an activation region, the largest open connected sets R ⊂ Rn0 where f can be represented as an affine transformation f (x) = WRx + bR,∀x ∈ R. These regions correspond to binary patterns indicating which neurons that are activated when passing an input through the network [3]. ReLU ネットワークに対しては、アクティベーション領域の概念も定義でき、ここで f をアフィン変換 f (x) = WRx + bR, bx ∈ R として表すことができる最大開連結集合 R > Rn0 を定義できる。
訳抜け防止モード: ReLUネットワークでは、アクティベーション領域の概念も定義できる。 f をアフィン変換 f ( x ) = WRx + bR,\x ∈ R として表すことができる最大の開連結集合 R > Rn0 の領域は、どのニューロンが活性化されたかを示す二項パターンに対応する。 入力をネットワークに渡す[3]。
0.77
While these regions possess many interesting properties, for our purposes we will mainly use that for x in an activation region R, the Jacobian Jf (x) = WR is constant and will thus be denoted by Jf (R). これらの領域は多くの興味深い性質を持っているが、我々の目的のために、主に活性化領域 R の x に対して、ヤコビアン Jf (x) = WR は定数であり、したがって Jf (R) で表される。 0.74
2.2 Slope The central geometric property we will study in this paper is the slope. 2.2 斜面 本論文で研究する中心的な幾何学的性質は斜面である。 0.66
All proofs are relegated to the Appendix. すべての証明はAppendixに委譲される。 0.75
Definition 1. Given a continuous function f : Rns → Rnc and some p with 1 ≤ p ≤ ∞, we define its slope (or p-slope) at x ∈ Rns as 定義1。 連続函数 f : rns → rnc と 1 ≤ p ≤ ∞ のある p が与えられたとき、その傾き(あるいは p-スロープ)を x ∈ rns で定義する。 0.80
(cid:18) ||f (x + tv) − f (x)||p (cid:18) ||f (x + tv) − f (x)||p 0.84
(cid:19) where || · ||p denotes the p-norm1, the limit is taken over positive t, and (cid:19) ここで || · ||p は p-ノルム1 を表し、その極限は正の t を超え、 0.71
Slopef (x) = sup v∈B∗ Slopef (x) = sup v∂B∗ 0.74
lim t↓0 lim (複数形 lims) 0.36
t B∗ = {v ∈ Rns : ||v||p = 1}. t B∗ = {v ∈ Rns : ||v||p = 1} である。 0.78
The slope is undefined unless the limit exists for all v ∈ B∗. この勾配は、すべての v ∈ b∗ に対して極限が存在する限り定義されない。 0.57
Proposition 1. If the Jacobian Jf (x) exists at x, then 命題1。 もしジャコビアン jf (x) が x に存在するなら、 0.59
Slopef (x) = max Slopef (x) = max 0.85
v∈B∗ ||Jf (x)v||p = ||Jf (x)||p. v∂B∗ ||Jf (x)v||p = ||Jf (x)||p。 0.56
Here ||Jf (x)||p denotes the the matrix p-norm of the Jacobian. ここで ||Jf (x)||p はヤコビアンの行列 p-ノルムを表す。 0.61
Note that when p = 2, this is the maximum singular value of Jf (x), also called the spectral norm of Jf (x). p = 2 のとき、これは Jf (x) の最大特異値であり、Jf (x) のスペクトルノルムとも呼ばれる。 0.72
When p = 1 it is the maximum over the columns of Jf (x) of the sum of the absolute values of the entries in the column. p = 1 のとき、それは列の中のエントリの絶対値の和の Jf (x) の列の上の最大値である。 0.77
When p = ∞ it is the maximum over the rows of Jf (x) of the sum of the absolute values of the entries in the row. p = ∞ のとき、それは列の成分の絶対値の和の Jf(x) の行の最大値である。 0.65
Proposition 2. If f is represented by a neural network where the activation function g is continuously differentiable, then the Jacobian is a continuous function. 命題2。 f を活性化関数 g が連続的に微分可能なニューラルネットワークで表現すると、ヤコビアンは連続関数となる。 0.61
If the Jacobian is a continuous function, then the slope is a continuous function. ジャコビアンが連続函数であれば、斜面は連続函数である。 0.67
Proposition 3. If the Jacobian is a continuous function and if Slopef (x) ≤ K for all x ∈ Rn0 then for all pairs of points x, y ∈ Rn0, 命題3。 ヤコビアンが連続函数であり、すべての x ∈ Rn0 に対して Slopef (x) ≤ K が成り立つなら、点 x, y ∈ Rn0 のすべての対に対してである。 0.65
||f (x) − f (y)||p ≤ K||x − y||p ||f (x) − f (y)|p ≤ K|x − y||p 0.76
(1) If the output space has only one dimension, we see from Proposition 1 that whenever the gradient (cid:79)f (x) exists at a point x we have Slopef (x) = ||(cid:79)f (x)||p. (1) 出力空間が 1 次元しか持たないならば、ある点 x に勾配 (cid:79)f (x) が存在するときは常に、スロープ (x) = ||(cid:79)f (x)||p が成立する。 0.84
If the function f is a type of regression function adapting to data, we would expect the slope to vary quite a bit, from zero at local extremes to larger values in between such points. 関数 f がデータに適応する回帰関数の一種であれば、局所極値のゼロからそのような点の間のより大きな値まで、勾配がかなり変化すると予想される。 0.77
Consider instead the case where f (x) is multidimensional and the Jacobian exists. 代わりに、f(x) が多次元でヤコビアンが存在する場合を考える。 0.68
Then we get from Proposition 1 that そして、プロポーズ1から取得します。 0.51
Slopef (x) = max Slopef (x) = max 0.85
v∈B∗ ||Jf (x)v||p = max v ∈ b∗ ||jf (x)v||p = max 0.58
v∈B∗ ||(cid:79)(f · v)(x)||p = max vvv* ||(cid:79)(f · v)(x)||p = max 0.75
v∈B∗ Slopef·v(x). v・B∗ Slopef·v(x)。 0.53
In other words, we can understand the slope as follows: Take the output of f, project it along some direction v and take the p-norm of the gradient at x. 言い換えれば、傾きを次のように理解することができる: f の出力を取り、ある方向 v に沿って射影し、x で勾配の p-ノルムを取る。 0.80
Then maximize over all possible directions v. If f is used together with a softmax function as a classifier, we would expect that, at all points x, some output coordinates are increasing while others are decreasing. f が分類器としてソフトマックス関数と共に使われる場合、すべての点 x において、ある出力座標は増加し、他の座標は減少していると期待する。 0.64
In other words, there will always be directions in the output space where the slope in that direction is nonzero. 言い換えれば、その方向の傾斜が 0 でない出力空間には、常に方向がある。 0.65
Thus the slope as we define it is unlikely to be zero anywhere, and is not so much connected to local extremes as it is to the speed at which the output changes. したがって、我々が定義する傾きは、どこにもゼロではない可能性があり、出力が変化するスピードほど局所極端にはつながりません。 0.67
A consequence is that it is meaningful to study the average slope f. More specifically, その結果、平均斜面fをもっと具体的に研究することが有意義である。 0.73
1||x||p =(cid:0)(cid:80) 1||x||p =(cid:0)(cid:80) 0.56
i |xi|p(cid:1)1/p i |xi|p(cid:1)1/p 0.59
3 3 0.85
英語(論文から抽出)日本語訳スコア
Definition 2. We define the slope of a network as the expectation of the slope when x has the distribution of the input data. 定義2。 我々は,ネットワークの傾斜を,xが入力データの分布を持つ場合の傾斜の期待値として定義する。 0.78
Note that the distribution of the input data is unknown. 入力データの分布が不明であることに注意。 0.77
However, we can estimate the quantity above by using the training data points which are a sample from the distribution. しかし,この分布から得られたサンプルであるトレーニングデータポイントを用いて,上記の量を推定することができる。 0.80
In our results, we will see that the variation of the slope across input points x is often remarkably small, making the concept defined above a useful one. その結果,入力点 x における傾斜の変動が著しく小さく,上述の概念が有用であることがわかった。 0.56
2.3 Slopes of ReLU networks 2.3 ReLU ネットワークのスロープ 0.83
Our examples are all ReLU networks. 私たちの例は、すべてReLUネットワークです。 0.66
For these, the Jacobian does not exist everywhere, but the slope still exists. そのため、ジャコビアンはどこにも存在しないが、斜面は現存している。 0.52
All points x inside an activation region R have the same Jacobian Jf (R), so we may define Proposition 4. 活性化領域 R 内のすべての点 x は同じヤコビアン Jf (R) を持つので、命題 4 を定義することができる。 0.75
If f is represented by a ReLU network then Slopef (x) exists for all x ∈ Rn0 and f が ReLU ネットワークで表されるとき、すべての x ∈ Rn0 に対して Slopef (x) が存在する。 0.85
Slopef (R) = Slopef (x) = ||Jf (R)||p. Slopef (R) = Slopef (x) = ||Jf (R)||p。 0.95
Slopef (x) ≤ max R : x∈R Slopef (x) ≤ max R : x∂R 0.90
Slopef (R) Slopef (複数形 Slopefs) 0.56
where R denotes the closure of R. R は R の閉包を表す。 0.76
For ReLU networks it is easy to find the Jacobian. ReLUネットワークでは、ヤコビアンを見つけることは容易である。 0.64
In fact, (2) where Zf i(x) is a diagonal matrix having 0’s and 1’s along its diagonal, depending on the value of f i(x). 実際、 2) zf i(x) は、その対角線に沿って 0 と 1 を持つ対角行列であり、f i(x) の値に依存する。
訳抜け防止モード: 実際、 (2 ) ここで Zf i(x ) は対角行列であり、その対角線に沿って 0 と 1 の対角線を持つ。 f i(x) の値に依存する。
0.64
If Zf i(x) = 0 for some i then Jf (x) = 0. ある i に対して Zf i(x) = 0 であれば、Jf (x) = 0 である。 0.82
Let us assume below that this is not the case; we then get ||Zf i(x)||p = 1. このとき ||Zf i(x)||p = 1 となる。
訳抜け防止モード: 以下はそうでないと仮定する。 このとき ||Zf i(x)||p = 1 を得る。
0.78
In a similar way as in [12] we can take the p-norm of Equation 2 to obtain 12] の場合と同様、式 2 の p-ノルムを使って得ることができる。 0.69
Jf (x) = WnZf n−1(x)Wn−1 ··· Zf 2(x)W2Zf 1(x)W1 Jf (x) = WnZf n−1(x)Wn−1 ··· Zf 2(x)W2Zf 1(x)W1 0.86
||Jf (x)||p ≤ ||Wn||p · ||Zf n−1 (x)||p ···||W2||p · ||Zf 1(x)||p · ||W1||p ||Jf(x)||p ≤ ||Wn||p ·||Zf n−1(x)|p ···||W2|p ·||Zf 1(x)||p ·|||W1|p 0.51
= ||Wn||p ···||W2||p · ||W1||p = ||Wn||p ···||W2||p ·||W1||p 0.27
Further2, we have ||Wi||2 ≤ ||Wi||F where ||Wi||F denotes the Frobenius norm of Wi, i.e., the square root of the sum of the squares of the entries of Wi. さらに、||Wi||2 ≤ ||Wi||F があり、||Wi||F は Wi のフロベニウスノルム、すなわち Wi の成分の平方根を表す。 0.81
This shows that limiting the size of the entries of the Wi matrices implies limiting the ||Wi||2 values. これは、Wi行列の成分のサイズを制限することは ||Wi||2 の値を制限することを意味することを示している。 0.50
In turn, we have shown above that limiting ||Wi||p for any 1 ≤ p ≤ ∞ implies limiting ||Jf (x)||p, i.e., the slope. すなわち、任意の 1 ≤ p ≤ ∞ に対する ||Wi||p の極限は ||Jf (x)||p の極限を意味する。 0.83
However, the reverse is not the case. しかし、逆はそうではない。 0.64
In fact, our conjecture is that controlling the slope ||Jf (x)||p is a much more fine-tuned and precise way of controlling the geometry of f than standard regularization. 実際、我々の予想は、傾き ||Jf (x)||p を制御することは、標準正規化よりも f の幾何学を制御するためのより細く正確な方法である。 0.69
Proposition 5. Proposition 3 holds also when f is a ReLU network. 命題5。 命題3は f が relu ネットワークであるときにも成り立つ。 0.59
Propositions 3 and 5 indicate how the slope directly connects classification probabilities in the output space with distances in the input space. 命題3,5は、スロープが出力空間の分類確率と入力空間の距離とを直接接続する方法を示す。 0.76
If we somehow increase the distances in the input space with with a factor c, we might expect the slopes of similarly well-trained classifiers to decrease with the same factor c. In fact, we will investigate this effect in the case of image resolutions. c因子で入力空間内の距離を幾らか増やせば、同様の訓練された分類器の傾きがc因子で減少すると予想されるかもしれない。
訳抜け防止モード: もしある因子 c で入力空間内の距離を何とか増やせば、 同様に訓練された分類器の傾斜は、同じ因子cで減少すると予想されるかもしれない。 画像解像度の場合は この効果を調べます。
0.76
Assume the resolution of the images in an image classification dataset is changed using some algorithm. 画像分類データセットにおける画像の解像度を、あるアルゴリズムを用いて変更する。 0.82
For example, images in standard datasets with 28 × 28 resolution might be rescaled to a 56 × 56 resolution, multiplying the total number of dimensions by 4. 例えば、28 × 28 の解像度を持つ標準データセットの画像は、56 × 56 の解像度に再スケールされ、総次元数が 4 に倍される。 0.83
The exact change in the Euclidean distances between images will depend on the rescaling algorithm used, but as a rough estimate we may assume that the change is the same as the change of distances between independent points with a standard normal distribution when the dimension is multiplied by 4. 画像間のユークリッド距離の正確な変化は、使用される再スケーリングアルゴリズムに依存するが、大まかに見積もると、この変化は次元が4で乗算されたときの標準正規分布を持つ独立点間の距離の変化と同じであると仮定できる。 0.88
Using Lemma 2 in the Appendix we get that Euclidean distances between such points are doubled. Appendix の Lemma 2 を用いて、そのような点間のユークリッド距離は倍になる。 0.72
We will compare this with empirical observations in Section 4.3. これを4.3節の実証観測と比較する。 0.76
3 Slopes and learning Let us start with some theory: 3スロープと学習 いくつかの理論から始めましょう。 0.73
2This follows as the spectral norm is equal to the largest singular value of Wi, while the Frobenius norm is 2 スペクトルノルムがWi の最大の特異値に等しいのに対して、フロベニウスノルムはそれに従う。 0.58
equal to the square root of the sum of the squares of the singular values of Wi. Wi の特異値の平方の和の平方根に等しい。 0.50
4 4 0.85
英語(論文から抽出)日本語訳スコア
Proposition 6. Assume we have a ReLU network f (x) = (f1(x), . 第6話。 ReLU ネットワーク f (x) = (f1(x) と仮定する。 0.56
. . , fn(x)) followed by a softmax classifier into n categories. . . , fn(x)) の次にソフトマックス分類器を n の圏に分類する。 0.80
If the network classifies a data point x correctly, the term in the loss corresponding to x will decrease if f is replaced by cf where c > 1 is a constant. ネットワークがデータポイントxを正しく分類すると、f が c > 1 が定数である cf に置換されると、x に対応する損失の項は減少する。 0.80
Proposition 7. For any ReLU network there exists at least one vector v in the parameter space such that the gradient in the direction of v corresponds to multiplying the network map f with a constant c. プロポーズ7。 任意の relu ネットワークに対して、パラメータ空間に少なくとも 1 つのベクトル v が存在し、v の方向の勾配はネットワークマップ f に定数 c を乗じることに対応する。 0.65
Finally, notice that for any network map f and c > 0 we have Slopecf (x) = c Slopef (x). 最後に、任意のネットワーク写像 f と c > 0 に対して、Slopecf (x) = c Slopef (x) が存在することに注意する。 0.78
Now, assume we are learning the parameters of a particular network, and have reached a "good model". さて、特定のネットワークのパラメータを学習していると仮定し、"良いモデル"に到達しました。 0.81
Then, generally, most points will be correctly classified. 一般に、ほとんどの点が正しく分類される。 0.67
It is then reasonable to expect that changes to the parameters along a vector like those described in the previous proposition will on average lead to a decline in the loss. したがって、前述したようなベクトルに沿ったパラメータの変化が平均的な損失の減少につながると期待することは妥当である。 0.70
Of course, there will often be many vectors along which the loss declines. もちろん、多くのベクトルが存在し、損失は減少します。 0.65
However, if the training is continued for an unlimited number of epochs, the directions described in the previous theorem may become dominant. しかし、トレーニングが無制限に継続された場合、前述の定理で記述された方向が支配的になる可能性がある。 0.60
Thus, the training will lead to larger and larger slopes. したがって、トレーニングはより大きく、より大きくなっていくでしょう。 0.67
It is a well-studied issue with the types of neural networks we are studying here that training tends to lead to larger and larger parameters. 私たちがここで研究しているニューラルネットワークの種類について、よく研究されている問題であり、トレーニングがより大きく大きなパラメータにつながる傾向があるのです。
訳抜け防止モード: 私たちがここで研究しているニューラルネットワークの種類について、よく研究されている問題です。 トレーニングは より大きなパラメータを 引き起こす傾向があります
0.60
Two important methods to control this effect are regularization and batch normalization. この効果を制御する2つの重要な方法は正規化とバッチ正規化である。 0.63
Regularization may attempt to limit the growth of the values in the Wi and bi parameters. 正規化は、WiとBiパラメータの値の成長を制限しようとする。 0.61
Batch normalization re-centers and re-scales data values between layers. バッチ正規化は、レイヤ間のデータ値の再センタと再スケールを行う。 0.46
We saw in the previous section how regularization also controls the 2-slope. 前節では、正規化が2-slopeの制御方法も見た。 0.58
A similar argument can be made regarding batch normalization. 同様の議論はバッチ正規化についてもできる。 0.61
However, we conjecture that controlling the geometric complexity of f using measures defined in terms of f (such as slope) should yield better and more precise results than using measures that depend on the particular neural network representation of f, such as standard regularization and batch normalization. しかし、f の幾何学的複雑性を制御することは、f の特定のニューラルネットワーク表現に依存する測度(標準正規化やバッチ正規化など)よりも、f の項で定義される測度(斜面など)により、より良くより正確な結果が得られると推測する。 0.64
3.1 Finding a well trained model 3.1 よく訓練されたモデルを見つける 0.63
Naïve attempts to build a classifier f may try to predict all points in the training data as well as possible, i.e., one may focus only on minimizing the loss as much as possible. ナイーブは分類器 f を構築しようと試み、訓練データの全ての点を可能な限り予測しようとするかもしれない。
訳抜け防止モード: ナビブは分類器fを構築しようとするかもしれない トレーニングデータのすべてのポイントを可能な限り予測する。 つまり、損失を可能な限り最小化することだけに集中することができる。
0.69
This will lead to functions f whose complexity tend to increase without bound as the amount of data increases. これにより、データ量が増加するにつれて、複雑さが制限なく増大する関数fに繋がる。 0.79
As discussed in the previous section this is connected to an ever-increasing slope for f. It is also a recipe for overfitting. 前節で述べたように、これはfの継続的な増加傾向と結びついており、オーバーフィッティングのレシピでもある。 0.57
In this paper we take the Bayesian viewpoint that the information content in the training data is not big enough to build a model that classifies perfectly on the training set and optimally on validation and test sets. 本稿では,トレーニングデータに含まれる情報の内容が,トレーニングセットに完全に分類し,検証とテストセットを最適に分類するモデルを構築するには十分ではないというベイズ的視点を取り上げる。 0.83
Instead, one should aim for functions f that weigh loss minimization against f being "reasonable", in some sense, as a classifier. 代わりに、ある意味では f に対する損失最小化を「理性」とする函数 f を分類子として目的とする。 0.71
Successful classification algorithms avoid overfitting in a multitude of ways: By restricting the set of allowed functions f, by regularization that prioritizes "reasonable" f, by using network architectures that lead to gradients pointing toward "reasonable" f, by various stochastic mechanisms introducing noise, and by stopping the training process based on carefully chosen criteria. 許可された関数 f の集合を制限することにより、"理性" f を優先する正規化によって、"理性" f を指す勾配につながるネットワークアーキテクチャを使い、ノイズを導入した様々な確率的なメカニズムを用いて、慎重に選択された基準に基づいてトレーニングプロセスを止める。 0.76
In this paper, we select, for each of a set of datasets and models that have been seen to produce fitted models with good classification accuracy on test sets. 本稿では,各データセットとモデルに対して,テストセットの分類精度が良く適合したモデルを生成するように選択する。 0.79
For each dataset, we train these models a multitude of times, producing a sequence of classification functions f1, . 各データセットに対して、これらのモデルを複数回トレーニングし、一連の分類関数 f1 を生成する。 0.79
. . , fk. . . 略称はfk。 0.67
Following the language of the paragraph above, these functions will have been produced by limiting the "unreasonableness&quo t; of the classification function in slightly different ways. 上記の段落の言語に従って、これらの関数は分類関数の「不合理性」をわずかに異なる方法で制限することによって生成される。 0.77
However, our hypothesis is that these ways are sufficiently similar, and related to the specific geometric property we are studying, that we can also detect that the functions f1, . しかし、我々の仮説は、これらの方法が十分に類似しており、我々が研究している特定の幾何学的性質と関連しており、関数 f1, を検出できるというものである。
訳抜け防止モード: しかし、我々の仮説では、これらの方法は十分に類似している。 私たちが研究している特定の幾何学的特性と 関数f1も検出できます
0.78
. . , fk have similar slope properties. . . fkは同様の傾斜特性を有する。 0.81
This empirical investigation is performed by investigating the slope (measured with || · ||2 for convenience) of networks trained on MNIST, KMNIST and FashionMNIST. この実験は、MNIST、KMNIST、FashionMNISTで訓練されたネットワークの傾き(便宜のために|| ·|2で測定)を調べることによって行われる。 0.63
Additionally, in order to include a non-image data set, we investigate the slope of networks trained on the Forest Cover data set. さらに,非画像データセットを含むために,森林被覆データセット上でトレーニングされたネットワークの傾きを調査した。 0.84
Due to time computational constraints, we do not work with the full Forest Cover data set but instead work with a random subset of 10000 data points, which are further split into 8000 training and 2000 validation points. 時間計算上の制約のため、完全なフォレストカバーデータセットでは動作せず、10000個のデータポイントのランダムサブセットで動作し、8000のトレーニングと2000の検証ポイントに分割される。 0.68
For each of these models we run Stochastic Gradient Descent (SGD) with a momentum of 0.8, batch size of 64 and learning rate of 0.001 for 150 epochs and the optimal model during training is chosen as the one obtained at the epoch where the validation loss was the lowest. それぞれのモデルに対して,確率勾配Descent (SGD) の運動量0.8, バッチサイズ64, 学習速度0.001を150エポックで実行し, 学習中の最適モデルを, 検証損失が最も低いエポックで得られたモデルとして選択した。 0.77
This setup and 5 この設定と 5 0.80
英語(論文から抽出)日本語訳スコア
hyperparameters are chosen so that the training proceeds long enough to give an accurate picture of the evolution of the slope, while ensuring that all models can be trained to yield accurate classifications. ハイパーパラメータが選択され、トレーニングが十分な長さで進行し、斜面の進化を正確に把握すると同時に、すべてのモデルが正確な分類を得られるように訓練される。 0.71
Unless it is otherwise mentioned, in all subsequent experiments we summarize the slope of f into a single number by computing the average slope over 750 training data points chosen at random. それ以外の実験がなければ、fの傾きを1つの数にまとめて、ランダムに選択された750以上のトレーニングデータポイントの平均傾きを計算する。 0.76
All error-bars are obtained as the standard deviation of the slope over 5 separate runs. すべてのエラーバーは、傾斜の標準偏差として5回の別々のランで得られる。 0.62
4 Results 4.1 Consistently increasing slopes 4結果 4.1 連続的に増加する斜面 0.65
A first observation is that the slope is monotonously increasing during the larger extent of the training period. 第一の観察は、訓練期間の広い範囲で斜面が単調に増加することである。 0.74
This can be seen in Figure 1 where the evolution of the slope during training is shown for a variety of fully connected and convolutional networks. これは、トレーニング中の斜面の進化が、様々な完全に連結された畳み込みネットワークに対して示される図1で見ることができる。 0.74
Each curve represents the evolution of the slope for one unique model (the exact info of the considered models can be found in Appendix A.2). 各曲線は1つのユニークなモデルに対する斜面の進化を表す(考慮されたモデルの正確な情報はAppendix A.2)。 0.85
The convolutional networks are trained on MNIST, FashionMNIST, KMNIST while the fully connected network is additionally trained on the Forest Cover data set. 畳み込みネットワークはMNIST、FashionMNIST、KMNISTでトレーニングされ、完全に接続されたネットワークはフォレストカバーデータセットでトレーニングされている。 0.73
This continuous increase of the geometric complexity indicates that similar gradient directions to that of Proposition 7 control the majority of the training evolution. この幾何学的複雑性の連続的な増加は、命題7と類似の勾配方向がトレーニング進化の大部分を制御していることを示している。
訳抜け防止モード: この幾何複雑性の連続的な増加は Proposition 7と同様の勾配方向が、トレーニングの進化の大部分を制御している。
0.74
It can also be seen that convolutional networks generally seem to reach higher slopes earlier than fully connected networks. また、畳み込みネットワークは、完全に接続されたネットワークよりも早く高い勾配に達するように見える。 0.68
An explanation may be that as the convolutional networks are adapted to the image analysis problem at hand, the training goes faster, i.e., takes fewer epochs, than for fully connected networks. 説明として、畳み込みネットワークが手元の画像解析問題に適応するにつれて、トレーニングは、すなわち、完全に接続されたネットワークよりも、エポック数が少なくなる。 0.75
The behaviour of an increasing slope is also visible in a different form in Figure 2 where the slope distribution at initialization and for the optimal models obtained for the Forest Cover data set can be seen. また、図2では、初期化時の斜面分布と森林被覆データセットで得られた最適モデルとが異なる形態で上昇斜面の挙動を見ることができる。 0.73
From these results it is clear that the slope of a well performing model is generally higher than that at initialization. これらの結果から, 優れたモデルが初期化時のモデルよりも概して高いことが明らかとなった。 0.79
Here it can also be seen that the distribution of the slope for the optimal model is roughly invariant to the width of the layers in the network, seen by the alignment of the estimated distributions as the layer width changes. ここで、最適モデルのための斜面の分布は、ネットワーク内の層幅に大まかに不変であり、層幅が変化すると推定分布のアライメントによって見ることができる。 0.72
While the distribution of the slope changes as more hidden layers are added, the mean of the distributions is relatively invariant to the model architecture. 斜面の分布は、より多くの層が追加されるにつれて変化するが、分布の平均はモデルアーキテクチャに相対的に不変である。 0.70
Figure 1: Increasing slope during training. 図1:トレーニング中の傾斜の増加。 0.80
Each curve represents the evolution of the slope when training one unique network for 150 epochs on either MNIST, FashionMNIST, KMNIST or the Forest Cover data set. 各曲線は、mnist、fashionmnist、kmnistまたはforest coverデータセットの150エポックの1つのユニークなネットワークをトレーニングするときに、斜面の進化を表す。 0.73
The orange lines detail the evolution for convolutional networks while the blue detail it for fully connected networks. オレンジ線は畳み込みネットワークの進化を詳述し、青線は完全連結ネットワークの進化を詳述している。 0.78
The convolutional networks are only trained on MNIST, FashionMNIST and KMNIST. 畳み込みネットワークはMNIST、FashionMNIST、KMNISTでのみ訓練される。 0.69
4.2 Slopes are consistent across different SGD simulations and different network 4.2 スロープは異なるSGDシミュレーションと異なるネットワークで一致している 0.73
architectures In order to ensure that the slope contains information of the underlying geometry and that different runs of SGD produce functions f with consistent slopes, we perform several repeated runs with different random seeds and measure the average slope and variance for the optimal model. 建築 斜面に基本形状の情報が含まれていること、sgdの異なる走行が一貫した傾斜を持つ関数fを生成することを保証するため、異なるランダム種を複数回繰り返し実行し、最適モデルに対する平均斜面と分散を測定する。 0.75
6 6 0.85
英語(論文から抽出)日本語訳スコア
Figure 2: Violinplot of how the slope changes from initialization to the optimal model for the Forest Cover data set. 図2: 斜面が初期化から森林被覆データセットの最適モデルにどのように変化するかに関するヴァイオリニスト。 0.82
Each estimated distribution is created by measuring the slope on 750 random training points. 各推定分布は、750個のランダムトレーニングポイントの傾きを測定することによって作成される。 0.67
Similar plots are obtained for the other considered data sets and convolutional networks. 同様のプロットは、他の考慮されたデータセットと畳み込みネットワークに対して得られる。 0.61
The effect on the distributions for the optimal models when using different random seeds can be seen in Figure 3. 異なるランダムシードを用いた場合の最適モデルの分布への影響を図3に示す。 0.69
It can be seen that the random seed has a minor effect on the shape of the estimated distribution for KMNIST, while for MNIST there are some minor discrepancies in the alignment of the distributions. ランダム種子はKMNISTに対する推定分布の形状に小さな影響を与えているのに対し、MNISTでは分布のアライメントに若干の相違がある。 0.66
This minor discrepancy can be expected given the stochastic nature of the SGD algorithm and that piecewise linear functions can locally change slope quickly without having a major effect on the overall behaviour of the function. sgdアルゴリズムの確率的性質を考えると、この小さな差は期待でき、分割線形関数は関数全体の挙動に大きな影響を及ぼすことなく、局所的に勾配を素早く変化させることができる。 0.79
While not shown, the effect of the random seed on the slope distribution for the optimal models trained on FashionMNIST and Forest Cover are similar to that of the effect on KMNIST. 示されていないが、FashionMNISTとフォレストカバーで訓練された最適モデルの斜面分布に対するランダムシードの効果は、KMNISTに類似している。 0.67
The results when only considering the effect of the seed on the mean of the distributions can be seen in Figure 4 where the network structure is varied and the mean slope for the optimal model is recorded. ネットワーク構造が変化し、最適モデルの平均傾きが記録された図4には、種子が分布の平均値に与える影響のみを考慮すれば結果が得られる。 0.69
These results show the stability of the slope in spite of random fluctuations in the learning algorithm, but they also indicate that for some data sets there might be a small range of slopes where the model will perform well, and that this range is almost independent of the network structure. これらの結果は学習アルゴリズムのランダムなゆらぎにもかかわらず斜面の安定性を示すが、いくつかのデータセットではモデルがうまく機能する少数の斜面が存在する可能性があり、この範囲はネットワーク構造にほぼ依存していることを示している。 0.87
There are however intriguing differences in slopes between fully connected and convolutional networks. しかし、完全連結網と畳み込み網の間の斜面には興味深い違いがある。 0.54
The slope for the FashionMNIST data set seems to be of larger magnitude for the convolutional models while for MNIST and opposite effect can be observed. FashionMNISTデータセットの傾きは、MNISTと反対の効果が観察される一方で、畳み込みモデルでは大きな大きさであるように思われる。 0.71
Generally, as we observed in Figure 1, training of convolutional networks uses fewer iterations to reach functions f with higher slopes. 一般に、図1で観察したように、畳み込みネットワークのトレーニングは、より高い勾配で関数fに到達するのに少ないイテレーションを使用する。 0.60
Depending on the specifics of the dataset, this may mean that the "well fitted model" as defined in our computation is reached at an f with a higher or lower slope compared to the fully connected case. データセットの仕様によっては、計算で定義されている「うまく適合したモデル」が、完全に接続されたケースと比較して、高い勾配または低い傾きを持つfに到達することを意味するかもしれない。 0.60
Further investigation of this effect is needed. この効果のさらなる調査が必要である。 0.84
7 7 0.85
英語(論文から抽出)日本語訳スコア
Figure 3: The estimated slope distributions for KMNIST (top) and MNIST (bottom) for two different random seeds are shown to measure the stability of the distribution of the slope to variations of the seed used for SGD. 図3: 2つの異なるランダム種子に対するKMNIST(トップ)とMNIST(ボトム)の斜面分布を推定し,SGDに用いる種子の変動に対する斜面分布の安定性を測定した。 0.78
4.3 Slopes decrease with increasing image resolution 4.3 画像解像度向上による斜面の低下 0.63
In order to understand the relation between the slope and distance between input points, we devise an experiment where we use bi-linear interpolation to increase the resolution of images in KMNIST, MNIST and FashionMNIST and investigate how the slope varies for the optimal classifiers. 入力点間の傾斜と距離の関係を理解するために,KMNIST,MNIST,Fashio nMNISTにおける画像の分解能を高めるために線形補間法を用いて,最適分類器の勾配がどのように変化するかを調べる実験を考案した。 0.83
This setup moves input points further away from each other while it can be simultaneously argued that complexity of the classification task is preserved. この設定は入力ポイントを互いに遠ざけるが、同時に分類タスクの複雑さが維持されると主張することもできる。 0.78
The results of the experiment when increasing the image resolution from 28x28 to 84x84 can be seen below in Figure 5. 画像解像度を28x28から84x84に増やす実験の結果を図5に示す。 0.71
While the decrease is relatively linear for all three data sets, it can be seen that the decrease in slope deviates from the ideal hypothesized factor of 2 from the argument following Proposition 5. この減少は3つのデータセットすべてに対して相対的に線形であるが、勾配の減少は、仮説5に続く議論から2の理想的仮定因子から逸脱していることがわかる。 0.73
This deviation is likely to stem from that the assumed normality required for Lemma 2 does not fully capture how the true distances between input points vary, but instead only provides a rough approximation. この偏差は、lemma 2 に必要な仮定の正規性が、入力点間の真の距離がどう変化するかを完全に捉えていないことに起因しがちである。 0.66
4.4 Local variation in slope 4.4 斜面の局地的変動 0.71
While the above experiments mainly consider the global properties associated with the slope, it can also be of interest to see how the slope varies locally. 上記の実験は主に斜面の地球的性質を考察するが、斜面が局所的にどのように変化するかを見ることも興味深い。 0.64
This is explored below in Figure 6 where we choose 250 randomly chosen training points in FashionMNIST and sample points on concentric spheres with increasing radii and measure the relative difference between the slope for the sampled points on the spheres and the slope of the training point at the center of the sphere. 下記の図6では、FashionMNISTにおいてランダムに選択された250個のトレーニングポイントと、半径が増加する同心球上のサンプルポイントを選択し、球面上のサンプルポイントの傾斜と球面中央のトレーニングポイントの傾斜との相対差を測定する。 0.76
The variation of the slope on each radii is summarized by sampling 500 points on each sphere and computing the 各半径の斜面の変動を各球面上の500点のサンプリングと計算により要約する。 0.71
8 8 0.85
英語(論文から抽出)日本語訳スコア
Figure 4: Experiment to measure the stability of the slope mean to variations in the structure for fully connected (top) and convolutional networks (bottom). 図4: 斜面の安定性を測定する実験は、完全に連結された(トップ)と畳み込みネットワーク(ボトム)の構造の変化を意味する。 0.83
Each curve represents how the slope mean varies as the model architecture is changed. 各曲線は、モデルアーキテクチャの変更に伴って、斜面の平均がどう変化するかを表す。 0.59
relative difference to the slope at the center of the sphere. 球の中心の傾斜と相対的な違いです 0.56
For ease of displaying the results, this is only performed for a fully connected network with 3 hidden layers, each of width 200 and the procedure is performed for the optimal network parameters, but similar results do hold for other network architectures. 結果の表示を容易にするために、これは3つの隠れレイヤを持つ完全接続ネットワークでのみ行われ、幅200のそれぞれで処理が最適なネットワークパラメータに対して行われるが、他のネットワークアーキテクチャでも同様の結果が得られている。 0.80
In the figure it can be seen that the relative slope difference is small and increasing for all radii and training points. この図では、相対傾斜差が小さく、すべての半径とトレーニングポイントに対して増加することが分かる。 0.71
The discontinuous nature of the slope for ReLU networks is not immediately visible but instead the slope exhibits a smooth and almost continuous change as the distance is increased. reluネットワークのための斜面の不連続性はすぐには見えず、距離が大きくなるにつれて斜面は滑らかでほぼ連続的な変化を示す。 0.70
5 How can the slope be used? 5 斜面はどのように利用できますか。 0.66
We have established that well fitted classification neural networks (i.e. 我々は、よく適合した分類ニューラルネットワーク(すなわち、ニューラルネットワーク)を確立した。 0.54
having a good accuracy and limited overfitting) for a given dataset have in common similar slope properties. 与えられたデータセットに対する良好な精度と制限されたオーバーフィッティングを持つ) は、共通する傾斜特性を持つ。
訳抜け防止モード: 所定のデータセットに対して高い精度と限られた過剰性を持つ 類似した斜面特性を持つ。
0.70
Thus these can be associated with the geometry of a good classifier for the problem. したがって、これらは問題に対する良い分類器の幾何学に関連付けられる。 0.74
A number of uses of this can be imagined. いくつかの用途が考えられる。 0.47
One possibility is to view slope as a property that should be limited. 一つの可能性は、スロープを制限すべき特性として見ることである。 0.59
In other words, any increase in the slope should be weighed against a decrease in the loss. 言い換えれば、斜面の増加は損失の減少に対して重み付けされるべきである。 0.68
From a Bayesian point of view one may imagine using a prior for f computed from its slope. ベイズの観点からは、その傾きから計算された f に対する事前の使用を想像することができる。 0.64
Equivalently, one might use a regularization term in the optimization computed from the slope. 同様に、斜面から計算された最適化において正規化項を用いることもある。 0.59
We aim to explore this possibility in a later paper. 私たちはこの可能性を後続の論文で探り出そうとしている。 0.58
The explanation that good classifiers for a particular problem have similar slopes would be that this slope represents a good compromise between loss minimization and generalizability. 特定の問題に対する良い分類器が同様の勾配を持つという説明は、この勾配が損失最小化と一般化可能性の間の良い妥協を表すであろう。
訳抜け防止モード: ある問題に対する良い分類器が同様の勾配を持つという説明 この斜面は損失最小化と 一般化可能性の間の 良い妥協を意味します
0.70
9 9 0.85
英語(論文から抽出)日本語訳スコア
Figure 5: Relation between the slope and the distance between input points. 図5: 傾斜と入力点間の距離の関係。 0.66
The image resolution is increased through bi-linear interpolation. 画像解像度は両線形補間により増大する。 0.74
Figure 6: Experiment to measure the stability of the slope to local perturbations. 図6: 局所摂動に対する斜面の安定性を測定する実験。 0.81
Each curve is created by choosing a random training point on FashionMNIST and sampling points on concentric spheres with increasing radii around that point. 各曲線は、FashionMNIST上のランダムなトレーニング点と、その点の半径が増加する同心球上のサンプリング点を選択して生成される。 0.69
The mean of the absolute slope difference between the sampled points and the training point is recorded for each radii. 各半径に対して、サンプル点とトレーニング点との絶対傾き差の平均を記録する。 0.62
On each circle 250 points are sampled to estimate the difference in slope. 各円に250点をサンプリングし、傾斜の差を推定する。 0.76
Similar results are obtained for the other data sets. 他のデータセットについても同様の結果が得られる。 0.72
Another possibility is to directly target a particular slope interval for a particular classification problem. もう一つの可能性は、特定の分類問題に対して、特定の傾斜間隔を直接対象とすることである。 0.52
One might first use large neural networks to establish a reasonable slope for a good classifier for a problem. まず大きなニューラルネットワークを使って、問題に対する適切な分類器の適切な勾配を確立する。
訳抜け防止モード: 最初に大きなニューラルネットワークを使うかもしれない 問題に対して適切な分類法を 確立するのです
0.81
Then one might use this target slope when optimizing other types of networks, for example smaller networks, or networks with particular properties such as robustness. 例えば、より小さなネットワークや、ロバスト性のような特定の特性を持つネットワークなど、他のタイプのネットワークを最適化する際に、このターゲットスロープを使用することができる。
訳抜け防止モード: ターゲットの斜面を 使うかもしれません 他のタイプのネットワーク、例えばより小さなネットワークや、堅牢性などの特性を持つネットワークを最適化する。
0.72
A third possibility is that the network slope of a fitted network can be used as a measure of the "complexity" of a classification problem. 第3の可能性は、ネットワークのネットワークスロープを分類問題の「複雑度」の尺度として使用できることである。 0.78
Note that this measure would generally be different from measures based on the accuracy obtained using a particular neural network. この尺度は一般に、特定のニューラルネットワークを用いて得られる精度に基づいて測定される。 0.65
6 Discussion We have established the concept of slope for a neural network, together with some attractive theoretical properties. 6 討論 我々は,ニューラルネットワークのための勾配の概念を,いくつかの魅力的な理論特性とともに確立した。 0.66
In examples, we have shown that the slope often does not vary much throughout the input space, that it varies smoothly, and that it tends to increase during training. 例えば、斜面は入力空間全体を通して大きく変化せず、滑らかに変化し、トレーニング中に増加する傾向が示されている。 0.58
In examples, we have shown that the distribution of the slope for well trained fully connected networks is almost invariant 例えば、十分に訓練された完全連結ネットワークに対する斜面の分布はほぼ不変であることを示した。 0.79
10 10 0.85
英語(論文から抽出)日本語訳スコア
to the width of the hidden layers. Some characteristics of the distribution seems to be dependant on the number of hidden layers, but the mean of the distribution is fairly constant to these changes. 隠された層の幅まで 分布のいくつかの特性は隠れた層数に依存するように見えるが、分布の平均はこれらの変化に対してかなり一定である。 0.71
There additionally seems to be some dependence on whether a fully connected or convolutional architecture is used, and further study is needed to determine the cause of this. さらに、完全連結アーキテクチャまたは畳み込みアーキテクチャが使用されるかどうかにもある程度の依存があり、その原因を決定するにはさらなる研究が必要である。 0.68
Our examples have been using quite simple classification problems, such as MNIST and FashionMNIST, together with quite small neural networks. 私たちの例は、mnistやfashionmnistといった非常に単純な分類問題と、非常に小さなニューラルネットワークを使っています。 0.70
Further study is needed to determine how general our conclusions are when increasing the size of the problem and the networks. 問題とネットワークのサイズを拡大する際の結論の一般性を決定するためには,さらなる研究が必要である。 0.80
Additionally, while the theory holds for general values of p, all empirical results only consider the slope for p = 2. さらに、この理論は p の一般値に対して成り立つが、すべての実験結果は p = 2 の傾きのみを考える。 0.78
While the results are conjectured to generalize to other values of p, this should be verified in future studies. 結果は p の他の値に一般化すると推測されるが、これは将来の研究で検証されるべきである。 0.71
Nonetheless, the general idea that the generalization properties of a neural network function f is determined by its geometrical properties seems supported, and the slope seems to be an example of such a geometric property. それでも、ニューラルネットワーク関数 f の一般化特性がその幾何学的性質によって決定されるという一般的な考え方は支持され、勾配はそのような幾何学的性質の例であると考えられる。 0.66
This opens up a number of interesting usages, both theoretical in connection with understanding neural network generalization properties, and practical, in terms of controlling the slopes of networks. これにより、理論的にはニューラルネットワークの一般化特性の理解に関連しており、ネットワークの傾斜を制御するという点では実用的である。 0.78
References [1] Peter L. Bartlett, Nick Harvey, Christopher Liaw, and Abbas Mehrabian. 参照: Peter L. Bartlett, Nick Harvey, Christopher Liaw, Abbas Mehrabian. 0.66
Nearly-tight vcdimension and pseudodimension bounds for piecewise linear neural networks. 分断線形ニューラルネットワークにおけるvc次元と擬似次元境界 0.72
J. Mach. Learn. J. Mach 学ぶ。 0.72
Res., 20:63:1–63:17, 2019. 20:63:1-63:17、2019年。 0.47
[2] Sebastian Goldt, Marc Mézard, Florent Krzakala, and Lenka Zdeborová. [2] sebastian goldt, marc mézard, florent krzakala, lenka zdeborová。 0.63
Modelling the influence of data structure on learning in neural networks. 影響のモデル化 ニューラルネットワークの学習におけるデータ構造についてです 0.80
CoRR, abs/1909.11500, 2019. CoRR, abs/1909.11500, 2019。 0.73
[3] Boris Hanin and David Rolnick. ボリス・ハニン(Boris Hanin)とデイヴィッド・ロリック(David Rolnick)。 0.47
Deep relu networks have surprisingly few activation patterns. ディープreluネットワークのアクティベーションパターンは驚くほど少ない。 0.68
In Hanna M. Wallach, Hugo Larochelle, Alina Beygelzimer, Florence d’Alché-Buc, Emily B. Hanna M. Wallach, Hugo Larochelle, Alina Beygelzimer, Florence d’Alché-Buc, Emily B 0.85
Fox, and Roman Garnett, editors, Advances in Neural Information Processing Systems 32: Annual Conference on Neural Information Processing Systems 2019, NeurIPS 2019, December 8-14, 2019, Vancouver, BC, Canada, pages 359–368, 2019. Fox, and Roman Garnett, editors, Advances in Neural Information Processing Systems 32: Annual Conference on Neural Information Processing Systems 2019, NeurIPS 2019, December 8-14, 2019, Vancouver, BC, Canada, pages 359–368, 2019 0.90
[4] Shao-Lun Huang, Xiangxiang Xu, Lizhong Zheng, and Gregory W. Wornell. [4]ショー・ロン・フン、Xiangxiang Xu、Lizhong Zheng、Gregory W. Wornell。 0.72
An information theoretic interpretation to deep neural networks. 深層ニューラルネットワークへの情報理論的解釈 0.66
In IEEE International Symposium on Information Theory, ISIT 2019, Paris, France, July 7-12, 2019, pages 1984–1988. IEEE International Symposium on Information Theory, ISIT 2019, Paris, France, July 7-12, 2019, pages 1984–1988 0.89
IEEE, 2019. 2019年、IEEE。 0.67
[5] Na Lei, Zhongxuan Luo, Shing-Tung Yau, and Xianfeng David Gu. 5]na lei, zhongxuan luo, shing-tung yau, xianfeng david gu。 0.54
Geometric understanding of deep learning. 幾何学的理解 深層学習です 0.57
CoRR, abs/1805.10451, 2018. CoRR, abs/1805.10451, 2018 0.72
[6] Junjie Li and Ding Liu. [6]李順慈・李行(りゅんじえり) 0.39
Information bottleneck theory on convolutional neural networks. 畳み込みニューラルネットワークにおける情報ボトルネック理論 0.78
Neural Process. Lett., 53(2):1385–1400, 2021. 神経 プロセス。 53(2):1385-1400, 2021。 0.71
[7] Vinod Nair and Geoffrey E. Hinton. 7] vinod nair と geoffrey e. hinton です。 0.62
Rectified linear units improve restricted boltzmann machines. 整流線形単位は制限ボルツマン機械を改善する。 0.64
In Johannes Fürnkranz and Thorsten Joachims, editors, Proceedings of the 27th International Conference on Machine Learning (ICML-10), June 21-24, 2010, Haifa, Israel, pages 807–814. Johannes Fürnkranz and Thorsten Joachims, editors, Proceedings of the 27th International Conference on Machine Learning (ICML-10) 2010年6月21-24日, Haifa, Israel, page 807–814 0.94
Omnipress, 2010. オムニプレス、2010年。 0.40
[8] Guillermo Ortiz-Jiménez, Itamar Franco Salazar-Reque, Apostolos Modas, Seyed-Mohsen Moosavi-Dezfooli, and Pascal Frossard. Guillermo Ortiz-Jiménez, Itamar Franco Salazar-Reque, Apostolos Modas, Seyed-Mohsen Moosavi-Dezfooli, Pascal Frossard 0.85
A neural anisotropic view of underspecification in deep learning. 深層学習における不特定性の神経異方性 0.73
CoRR, abs/2104.14372, 2021. CoRR, abs/2104.14372, 2021 0.77
[9] Adam Paszke, Sam Gross, Francisco Massa, Adam Lerer, James Bradbury, Gregory Chanan, Trevor Killeen, Zeming Lin, Natalia Gimelshein, Luca Antiga, Alban Desmaison, Andreas Kopf, Edward Yang, Zachary DeVito, Martin Raison, Alykhan Tejani, Sasank Chilamkurthy, Benoit Steiner, Lu Fang, Junjie Bai, and Soumith Chintala. 9]Adam Paszke, Sam Gross, Francisco Massa, Adam Lerer, James Bradbury, Gregory Chanan, Trevor Killeen, Zeming Lin, Natalia Gimelshein, Luca Antiga, Alban Desmaison, Andreas Kopf, Edward Yang, Zachary DeVito, Martin Raison, Alykhan Tejani, Sasank Chilamkurthy, Benoit Steiner, Lu Fang, Junjie Bai, Soumith Chintala。 0.81
Pytorch: An imperative style, highperformance deep learning library. Pytorch: 命令型で高性能なディープラーニングライブラリです。 0.77
In H. Wallach, H. Larochelle, A. Beygelzimer, F. d'AlchéBuc, E. Fox, and R. Garnett, editors, Advances in Neural Information Processing Systems 32, pages 8024–8035. H. Wallach, H. Larochelle, A. Beygelzimer, F. d'AlchéBuc, E. Fox, R. Garnett, editors, Advances in Neural Information Processing Systems 32, pages 8024–8035。 0.93
Curran Associates, Inc., 2019. Curran Associates, Inc., 2019 0.71
[10] Kenneth H. Rosen. 10] ケネス・h・ローゼン 0.45
Discrete Mathematics and Its Applications. McGraw-Hill, Inc., USA, 3rd 離散数学とその応用 McGraw-Hill, Inc., USA, 3rd 0.72
edition, 1996. [11] Naftali Tishby and Noga Zaslavsky. 1996年版。 11]Naftali Tishby氏とNoga Zaslavsky氏。 0.72
Deep learning and the information bottleneck principle. ディープラーニングと情報ボトルネックの原則。 0.58
In 2015 IEEE Information Theory Workshop, ITW 2015, Jerusalem, Israel, April 26 - May 1, 2015, pages 1–5. 2015年、IEEE Information Theory Workshop, ITW 2015、エルサレム、イスラエル、4月26日 - 2015年5月1日、1-5ページ。 0.74
IEEE, 2015. 2015年、IEEE。 0.69
11 11 0.85
英語(論文から抽出)日本語訳スコア
[12] Yuichi Yoshida and Takeru Miyato. [12]吉田雄一と宮戸武。 0.59
Spectral norm regularization for improving the generaliz- 一般化改善のためのスペクトルノルム正規化- 0.69
ability of deep learning. arXiv preprint arXiv:1705.10941, 2017. 深層学習の能力です arXiv preprint arXiv:1705.10941, 2017 0.75
[13] Chiyuan Zhang, Samy Bengio, Moritz Hardt, Benjamin Recht, and Oriol Vinyals. 13]Chiyuan Zhang氏、Samy Bengio氏、Moritz Hardt氏、Benjamin Recht氏、Oriol Vinyals氏。 0.74
Understanding deep learning requires rethinking generalization. ディープラーニングを理解するには、一般化を再考する必要がある。 0.32
In 5th International Conference on Learning Representations, ICLR 2017, Toulon, France, April 24-26, 2017, Conference Track Proceedings. 第5回Learning Representations, ICLR 2017, Toulon, France, April 24-26, Conference Track Proceedings
訳抜け防止モード: 第5回学習表現国際会議, ICLR 2017, Toulon 2017年4月24日~26日、フランスで開催。
0.74
OpenReview.net, 2017. 2017年、OpenReview.net。 0.65
[14] Pan Zhou and Jiashi Feng. [14]Pan ZhouとJiashi Feng。 0.74
Understanding generalization and optimization performance of deep cnns. 深部cnnの一般化と最適化性能の理解 0.78
In Jennifer G. Dy and Andreas Krause, editors, Proceedings of the 35th International Conference on Machine Learning, ICML 2018, Stockholmsmässan, Stockholm, Sweden, July 10-15, 2018, volume 80 of Proceedings of Machine Learning Research, pages 5955–5964. jennifer g. dy and andreas krause, editors, proceedings of the 35th international conference on machine learning, icml 2018, stockholmsmässan, stockholm, sweden, july 10-15, 2018, volume 80 of proceedings of machine learning research, pages 5955–5964。 0.79
PMLR, 2018. 2018年、PMLR。 0.68
12 12 0.85
英語(論文から抽出)日本語訳スコア
A Appendix appendix (複数形 appendixs) 0.35
A.1 Proofs Proof. A.1 証明 証明。 0.62
(Proof of proposition 1) Assuming that the Jacobian Jf (x) exists we have ||Jf (x)v + o(1)||p = ||Jf (x)v||p (命題の証明1) ヤコビアン Jf (x) が存在すると仮定すると、||Jf (x)v + o(1)||p = ||Jf (x)v||p となる。 0.73
||f (x + tv) − f (x)||p ||f (x + tv) − f (x)||p 0.90
lim t↓0 lim (複数形 lims) 0.36
t = lim t↓0 t = lim (複数形 lims) 0.66
where ||v|| = 1. ここで ||v|| = 1 である。 0.39
The slope is thus reduced to これにより斜面は縮小される。 0.58
Slopef (x) = sup v∈B∗ Slopef (x) = sup v∂B∗ 0.74
||Jf (x)v||p ||Jf (x)v||p 0.64
which by definition is the p-norm of the matrix Jf (x). 定義により、行列 Jf (x) の p-ノルムである。 0.75
[10]. Proof. (Proof of Proposition 2) The Jacobian can be constructed using the chain rule and differentiation at every layer. [10]. 証明。 (命題の証明2) ヤコビアンはすべての層における連鎖則と微分を用いて構成できる。
訳抜け防止モード: [10]. 証明。 (命題2の証明)ヤコビアンを造ることができる どの層でも 鎖の規則と分化を使います
0.70
The differentiations are either of linear functions or of the activation functions, thus yielding continuous results. 微分は線型関数か活性化関数のいずれかであり、連続的な結果をもたらす。 0.82
The first part follows. The second part follows from the continuity of the matrix p-norm. 前半は以下の通り。 第2部は行列 p-ノルムの連続性から従う。 0.69
Proof. (Proof of proposition 3) Assume the Jacobian is a continuous function everywhere and let x, y ∈ Rn0. 証明。 (命題の証明3)ジャコビアンを至る所連続函数とし、x, y ∈ rn0 とする。
訳抜け防止モード: 証明。 (命題3の証明) ジャコビアンは至るところで連続関数である そして x , y ∈ rn0 とする。
0.70
Defining g(t) = f (x + t(y − x)) − f (x) for t ∈ [0, 1] we get Jf (x + t(y − x)) dt t ∈ [0, 1] に対して g(t) = f (x + t(y − x)) − f (x) を定義すると、Jf (x + t(y − x)) dt が得られる。 0.95
f (y) − f (x) = f (y) − f (x) = 0.85
(cid:18)(cid:90) 1 (cid:18)(cid:90)1 0.74
g(cid:48)(t) dt = g(cid:48)(t) dt = 0.98
(y − x). (cid:90) 1 (y − x)。 (cid:90)1 0.80
(cid:19) 0 (cid:19) 0 0.82
0 Note that the integrals are taken component-wise and that the right-hand side of the equation is a matrix multiplied with a vector. 0 積分は成分的に取られ、方程式の右辺はベクトルを乗算した行列であることに注意されたい。 0.82
Applying the p-norm to this equation and using the definition of the matrix p-norm we get p-ノルムをこの方程式に適用し、行列 p-ノルムの定義を用いる 0.72
||f (y) − f (x)||p ≤ ||f (y) − f (x)||p ≤ 0.88
Jf (x + t(y − x)) dt Jf (x + t(y − x)) dt 0.85
||y − x||p. ||y − x||p。 0.58
(3) (cid:12)(cid:12)(cid :12)(cid:12)(cid:12) (cid:12)(cid:12)(cid :12)p (3) (cid:12)(cid:12)(cid :12)(cid:12)(cid:12) (cid:12)(cid:12)(cid :12)p) 0.78
(cid:12)(cid:12)(cid :12)(cid:12)(cid:12) (cid:12)(cid:12)(cid :12)(cid:90) 1 (cid:12)(cid:12)(cid :12)(cid:12)(cid:12) (cid:12)(cid:12)(cid :12)(cid:90) 1 0.73
0 (cid:90) 1 0 (cid:90)1 0.82
(cid:12)(cid:12)(cid :12)(cid:12)(cid:12) (cid:12)(cid:12)(cid :12)p (cid:12)(cid:12)(cid :12)(cid:12)(cid:12) (cid:12)(cid:12)(cid :12)p) 0.71
The p-norm of a matrix is a convex function, so by Jensen’s inequality we get 行列の p-ノルムは凸函数なので、ジェンセンの不等式によって得られる。 0.62
(4) If the Jacobian exists everywhere then Slopef (x+t(y−x)) ≤ K implies ||Jf (x+f (y−x))||p ≤ K. Putting this together with Equations 3 and 4 we get the desired result. (4) ジャコビアンが至るところで存在すれば、傾き (x+t(y−x)) ≤ k は ||jf (x+f (y−x))||p ≤ k を意味する。 0.77
0 0 ||Jf (x + t(y − x))||p dt. 0 0 ||Jf (x + t(y − x))||p dt。 0.87
Jf (x + t(y − x)) dt Jf (x + t(y − x)) dt 0.85
≤ (cid:12)(cid:12)(cid :12)(cid:12)(cid:12) (cid:12)(cid:12)(cid :12)(cid:90) 1 ≤ (cid:12)(cid:12)(cid :12)(cid:12)(cid:12) (cid:12)(cid:12)(cid :12)(cid:90) 1 0.79
To prove Proposition 4, we first prove the following Lemma: Lemma 1. 命題4を証明するために、まず次のLemmaを証明します。 0.56
Let f be a ReLU network. f を ReLU ネットワークとする。 0.70
For any x ∈ Rn0 and v ∈ B∗ there exists a region Rx,v and an x,v > 0 such that x + vt ∈ Rx,v for all t ∈ [0, x,v]. 任意の x ∈ Rn0 と v ∈ B∗ に対して、x + vt ∈ Rx,v がすべての t ∈ [0, >x,v] に対して成立する領域 Rx,v > 0 が存在する。 0.91
Proof. Note that the regions R are associated with each component of f i in every layer being j (x) (cid:54)= 0,∀(i, j). 証明。 領域 R は、すべての層において j (x) (cid:54) = 0,\(i, j) である f i の各成分に関連付けられることに注意。 0.73
If for any (i, j) we have f i j (x) = 0 then x does not lie in a non-zero, i.e, f i region, but instead on the "edge" of a region. 任意の (i, j) に対して f i j (x) = 0 であれば、x は非零、すなわち f i 領域に属するのではなく、ある領域の「端」にある。 0.70
For a given x, we thus get a separation of the neurons into three sets, the active neurons A = {(i, j) ∈ N × N : f i j (x) > 0}, the inactive neurons I = {(i, j) ∈ N × N : f i If x lies inside a region then the proof is straightforward, so assume that passing x through the network gives rise to the sets A,I,E with E (cid:54)= ∅. したがって、与えられた x に対して、活性ニューロン A = {(i, j) ∈ N × N : f i j (x) > 0} 、不活性ニューロン I = {(i, j) ∈ N × N : f i x が領域内にあるなら、その証明は単純であるので、ネットワークを通る x が集合 A,I,E に E (cid:54) = s をもたらすと仮定する。 0.68
First, we will show that x lies in the closure of the regions given by distributing the elements of E to either A or I, i.e, the closure of the regions and A ⊂ AE ,I ⊂ IE. まず、x は、E の要素を A または I に分配することによって与えられる領域の閉包、すなわち領域の閉包と A は AE , I は IE であることを示す。 0.71
Due to the piecewise linearity of f, we have that locally the set {x ∈ Rn0 : j (x) = 0, (i, j) ∈ E} is given by an intersection of hyperplanes. f の分数次線型性のため、局所的な集合 {x ∈ Rn0 : j (x) = 0, (i, j) ∈ E} は超平面の交叉によって与えられる。 0.80
Each edge neuron has an associated f i 各エッジニューロンは、関連するfiを持つ 0.67
associated with the active set AE and the inactive set IE where we have that e ∈ AE(cid:83)IE ,∀e ∈ E 活性集合 AE と不活性集合 IE に関連付けられ、そこでは e ∈ AE(cid:83)IE ,\e ∈ E が成立する。 0.84
j (x) < 0} and the edge neurons E = {(i, j) ∈ N × N : f i j (x) < 0} およびエッジニューロン E = {(i, j) ∈ N × N : f i 0.78
j (x) = 0}. j (x) = 0} である。 0.92
13 13 0.85
英語(論文から抽出)日本語訳スコア
exists constants ci (cid:54)= 0, i = 1, ..,|E|, a region R and  > 0 such that the point x +(cid:80)|E| 定数 ci (cid:54)= 0, i = 1, .,|E|, ある領域 R と > 0 が存在し、点 x +(cid:80)|E| が成り立つ。 0.88
hyperplane and each hyperplane has an associated normal vector ni, which when we move in that direction will switch that neuron from an edge neuron to an active or inactive neuron. ハイパープレーンと各ハイパープレーンには、関連する通常のベクトルniがあり、その方向に移動すると、そのニューロンをエッジニューロンからアクティブまたは非アクティブニューロンに切り替える。 0.67
There thus i=1 tcivi ∈ R for all t ∈ (0, ]. したがって、すべての t ∈ (0, ) に対して i=1 tcivi ∈ R となる。 0.74
Consequently, the point x lies in R. If the vector v is not given as a linear combination of the normal vectors to the planes but instead points in a general direction, then for  > 0 we can say that the vector x + v yields a new set of active Ax,v,, inactive Ix,v, and edge neurons Ex,v,. その結果、点 x は r に存在し、ベクトル v が平面への正規ベクトルの線型結合として与えられず、その代わりに一般方向の点として与えられるなら、そのベクトル x + {\displaystyle x} が新たな活性 ax,v,v,v,v,v,v,v,v,v ,v,v,v,v,v,v} と辺ニューロン ex,v,v が得られる。 0.72
Due to the continuity of ReLU networks, for small  > 0 we have that A ⊂ Ax,v,, I ⊂ Ix,v, and consequently Ex,v, ⊂ E. Thus only some edge neurons switched to either an active or inactive state. relu ネットワークの連続性のため、小さめの s > 0 に対して a の ax,v, , i の ix,v, であり、その結果 ex,v,v の e となり、そのため、一部の辺ニューロンのみが活性状態または不活性状態へと切り替える。 0.77
Since by redistributing the elements of E and Ex,v, to active or inactive states we can obtain the same sets of active and inactive neurons, we get that from the argument above that there is a region R such that the point x and x + tv lie in R for all t ∈ (0, ], from which the desired statement follows. E と Ex,v の要素を活性状態または不活性状態に再分配することにより、同じ活性ニューロンと不活性ニューロンの集合を得ることができるので、上記の議論から x と x + tv が R に含まれるような領域 R が存在して、所望の言明が従うすべての t ∈ (0, ) に対して成り立つという主張が得られる。 0.77
Proof. (Proof of Proposition 4) If x and y are both in a region R, then 証明。 (命題4の証明) x と y が共に領域 R であれば、
訳抜け防止モード: 証明。 (命題4の証明)もしも x と y はどちらも領域 R,then にある
0.70
f (y) − f (x) = Jf (R)(y − x). f (y) − f (x) = jf (r)(y − x) である。 0.87
By continuity of f and convexity of R this is also true when x and y are in the closure R. Using this together with Lemma 1 we get f の連続性と R の凸性により、これは x と y が閉包 R にあるときにも真である。 0.66
Slopef (x) = sup v∈B∗ Slopef (x) = sup v∂B∗ 0.74
lim x↓0 lim (複数形 lims) 0.35
(cid:18) (cid:18) (cid:18)(cid:18) 0.73
(cid:19) ||f (x + vt) − f (x)||p (cid:19) ||f (x + vt) − f (x)|p 0.87
t ||J(Rx,v)tv||p t |j(rx,v)tv|p 0.80
(cid:19) = sup v∈B∗ = sup v∈B∗ ≤ max R:x∈R = max R:x∈R (cid:19) = sup v・B∗ = sup v・B∗ ≤ max R:x・R = max R:x・R 0.67
lim t↓0 t ||J(Rx,v)v||p lim t,0 t ||j(rx,v)v||p 0.67
||J(R)v||p ||J(R)v||p 0.64
sup v∈B∗ Slopef (R) sup v ajaxb∗ slopef (r) 0.64
there exists m intervals Ij = [tj, tj+1] with(cid:83)m m 間隔 Ij = [tj, tj+1] と (cid:83)m が存在する。 0.77
Proof. (Proof of Proposition 5) If f is piecewise linear then we construct the function h : [0, 1] → Rnc as h(t) = f (x(1 − t) + ty). 証明。 (命題5の証明) f が分割線型であれば、関数 h : [0, 1] → rnc を h(t) = f (x(1 − t) + ty) として構成する。 0.71
Assume that h is constructed by m different linear sections. h は m 個の異なる線型切断によって構成されると仮定する。 0.55
Then j=1 Ij = [0, 1] such that h restricted to interval j is a linear function in a region Rj. このとき、j=1 Ij = [0, 1] で区間 j に制限された h は領域 Rj の線型函数である。 0.84
The desired inequality can then be obtained by an application of the triangle inequality as follows, 所望の不等式は、以下の三角形の不等式を適用することで得られる。 0.67
||f (x) − f (y)||p = ||h(0) − h(1)||p ≤ m(cid:88) m(cid:88) ≤ m(cid:88) ≤ m(cid:88) ||f(x) − f(y)||p = ||h(0) − h(1)|p ≤ m(cid:88) m(cid:88) ≤ m(cid:88) ≤ m(cid:88) ≤ m(cid:88) 0.76
j=1 j=1 j=1 j=1 j=1 j=1 0.59
= ||h(tj+1) − h(tj)||p = ||h(tj+1) − h(tj)|p 0.83
||Jf (Rj)(y − x)(tj+1 − tj)||p ||Jf (Rj)(y − x)(tj+1 − tj)||p 0.86
||Jf (Rj)||p||y − x||p(tj+1 − tj) ||Jf(Rj)||p||y − x||p(tj+1 − tj) 0.61
K(tj+1 − tj)||x − y||p K(tj+1 − tj)||x − y||p 0.69
(5) (6) (7) (5) (6) (7) 0.85
(8) (9) j=1 (8) (9) j=1 0.76
= K||x − y||p. K||x − y||p。 0.61
Proof. (Proof of Proposition 6) The relevant term in the loss function is 証明。 (命題6の証明)損失関数の関連用語は、 0.61
(cid:80) − log (cid:80) -ログ 0.75
exp(fi(x)) j exp(fj(x)) exp(fi(x)) j exp(fj(x)) 0.85
14 14 0.85
英語(論文から抽出)日本語訳スコア
where i is the class x is classified into. i はクラス x に分類される。 0.60
If f classifies this point correctly we have that fi(x) > fj(x) for all j (cid:54)= i. f がこの点を正しく分類すると、すべての j (cid:54)= i に対して fi(x) > fj(x) となる。 0.83
Thus, for any c > 1, c(fj(x) − fi(x)) < fj(x) − fi(x). したがって、任意の c > 1 に対して c(fj(x) − fi(x)) < fj(x) − fi(x) である。 0.88
Summing over j = 1, . j = 1 を総和する。 0.65
. . , n we get . . 分かりました 0.64
(cid:88) (cid:88) (cid:80) (cid:88) (cid:88)(cid:80) 0.76
j c(fj(x) − fi(x)) < j c(fj(x) − fi(x)) < 0.85
fj(x) − fi(x) fj(x) − fi(x) 0.85
− log exp(cfi(x)) j exp(cfj(x)) -ログ exp(cfi(x)) j exp(cfj(x)) 0.78
j < − log (cid:80) j <-ログ (cid:80) 0.77
exp(fi(x)) j exp(fj(x)) exp(fi(x)) j exp(fj(x)) 0.85
. which is equivalent to . これに匹敵するものです 0.60
This shows that the loss at x decreases, as claimed. これはxでの損失が減少することを示している。 0.78
Proof. (Proof of proposition 7) Choose the vector v such that a step in the direction of v multiplies the weights Wi and bias bi at layer i and the bias at all subsequent layers j > i with a constant c > 0. 証明。 (命題7の証明) v の方向のステップが、重み Wi とバイアス Bi を層 i で乗算し、次のすべての層 j > i におけるバイアスが定数 c > 0 であるようなベクトル v を選択する。 0.70
For i = 1, ..., n this step will create a new sequence of functions f i c. Since no change has been made to parameters in layers k < i we have that f i i = 1, ..., n の場合、このステップは新しい関数列 f i c を生成する。 0.37
(cid:26)ReLU(cWkf k−1(x) + cbk) = cf k(x), (cid:26)ReLU(cWkf k−1(x) + cbk) = cf k(x) 0.95
c = f i. c = f i である。 0.85
For k ≥ i we obtain k ≥ i に対して得られる 0.71
f k c (x) = f k c (x) = 0.85
ReLU(Wkcf k−1(x) + cbk) = cf k(x), ReLU(Wkcf k−1(x) + cbk) = cf k(x) 0.88
for k = i for k > i k = i for k > i 0.73
√ c = cf n = cf as desired. √ c = cf n = cf を所望とする。 0.89
Thus we see that f n Lemma 2. したがって、fn Lemma 2 である。 0.67
When x, y ∼ Normaln(0, I) then, approximately when n is large, ||x − y|| ∼ Normal( √ Proof. x, y > Normaln(0, I) であれば、n が大きければ、||x − y|| > Normal( > Proof) となる。 0.76
We get (x− y)/ when n is large, n が大きければ (x− y)/ を得る。 0.71
2 ∼ Normal(0, I) and ||x− y||2/2 ∼ χ2 2 > 正規(0, I) と ||x− y||2/2 0.65
n, so as a first-order approximation n, so as a first-order approximation 0.94
2n, 1). and as a further approximation when n is large, 2n,1。 さらに n が大きい場合の近似として 0.72
||x − y||2 ∼ Normal(n, 2n) ||x − y||2 , normal(n, 2n) 0.72
1 2 ||x − y|| ∼ Normal( 1 2 ||x − y|| ? 0.70
√ 2n, 1). A.2 Experimental details √ 2n,1。 A.2 実験的詳細 0.74
All experiments are carried out in PyTorch [9] and the code can be obtained on github3. すべての実験はPyTorch [9]で行われ、コードはgithub3で取得できる。 0.74
Every network is trained for 150 epochs and 750 random training points are chosen at the beginning of the training where the slope is subsequently measured at every epoch. 各ネットワークは150のエポックでトレーニングされ、各エポックで次にスロープを測定するトレーニングの開始時に750のランダムなトレーニングポイントが選択される。 0.79
To connect the slope with the generalization properties of the models we need to obtain a model that has a good generalization capability, i.e, we want to obtain an "optimal" model. 斜面とモデルの一般化特性をつなぐためには、優れた一般化能力を持つモデル、すなわち「最適」モデルを得る必要がある。
訳抜け防止モード: 私たちが必要とするモデルの一般化特性と斜面を結びつけるには 優れた一般化能力を持つモデルを得るのです つまり、"最適な"モデルを得たいのです。
0.85
This is done by choosing the optimal model to be the model at the epoch where the lowest validation loss was obtained when training the network for 150 epochs. これは,150エポックのネットワークトレーニングにおいて,最下位のバリデーション損失が得られたエポックのモデルとして最適モデルを選択することで実現される。 0.78
Every network was trained with Stochastic Gradient Descent with a learning rate of 0.001, momentum of 0.8, batch size of 64 and every experiment is repeated 5 times. どのネットワークも0.001の学習速度、0.8の運動量、64のバッチサイズで訓練され、全ての実験は5回繰り返された。 0.73
The considered fully connected model architectures are obtained by varying the number of hidden layers as 1,2,3 and varying the number of neurons in the hidden layers (every hidden layer has the same number of neurons) as 25,50,100,200. 完全に連結されたモデルアーキテクチャは、隠れた層の数を1,2,3に変化させ、隠れた層(すべての隠れた層が同じ数のニューロンを持っている)のニューロン数を25,50,100,200に変化させることで得られる。 0.58
For the convolutional model architectures we vary the number of hidden layers as 3,6 and the number of channels (all hidden layers has the same number of channels) as 3,6,12,24. 畳み込みモデルアーキテクチャでは、隠れたレイヤの数を3,6、チャネルの数(すべての隠れたレイヤが同じチャネル数を持つ)を3,6,12,24と定義します。 0.63
After the convolutional layer the feature representation is flattened and fed through a fully connected layer to the final output layer. 畳み込み層の後、特徴表現はフラット化され、完全な連結層を通して最終出力層に供給される。 0.76
All convolutional layers uses padding such that the feature representation maintains the same shape throughout the network. すべての畳み込み層はパディングを使用し、特徴表現がネットワーク全体にわたって同じ形状を維持する。
訳抜け防止モード: すべての畳み込み層はパディングを使い 特徴表現はネットワーク全体にわたって同じ形状を維持する。
0.82
A.3 Info regarding the optimal models A.3 最適モデルに関する情報 0.67
The validation accuracies and validation losses for all of the optimal models, both convolutional and fully connected, can be found in Table 1 - 4. すべての最適モデル(畳み込みモデルと完全連結モデルの両方)の検証精度と検証損失は、表1 - 4で見ることができる。 0.77
All tables contain the mean and standard deviation of 5 runs. すべてのテーブルは平均と標準の5ランの偏差を含む。 0.78
While some models achieve a higher accuracy/lower loss than others, it can be argued that all models generalize. 一部のモデルは、他のモデルよりも高い精度/低い損失を達成するが、全てのモデルは一般化すると主張することができる。 0.60
3github.com/antonFJo hansson/slope_and_ge neralization 3github.com/antonFJo hansson/slope_and_ generalization 0.17
15 15 0.85
英語(論文から抽出)日本語訳スコア
(1, 25) (1, 50) (1, 100) (1, 200) (2, 25) (2, 50) (2, 100) (2, 200) (3, 25) (3, 50) (3, 100) (3, 200) (1, 25) (1, 50) (1, 100) (1, 200) (2, 25) (2, 50) (2, 100) (2, 200) (3, 25) (3, 50) (3, 100) (3, 200) 0.85
MNIST 0.965 ± 1.13e − 03 0.975 ± 8.15e − 04 0.979 ± 1.85e − 04 0.981 ± 7.93e − 04 0.965 ± 8.84e − 04 0.973 ± 5.04e − 04 0.977 ± 5.84e − 04 0.980 ± 8.93e − 04 0.963 ± 1.24e − 03 0.971 ± 7.88e − 04 0.975 ± 6.91e − 04 0.978 ± 7.91e − 04 MNIST 0.965 ± 1.13e − 03 0.975 ± 8.15e − 04 0.979 ± 1.85e − 04 0.981 ± 7.93e − 04 0.965 ± 8.84e − 04 0.973 ± 5.04e − 04 0.977 ± 5.84e − 04 0.980 ± 8.93e − 04 0.963 ± 1.24e − 03 0.971 ± 7.88e − 04 0.975 ± 6.91e − 04 0.978 ± 7.91e − 04 0.60
KMNIST 0.819 ± 3.00e − 03 0.856 ± 2.16e − 03 0.878 ± 2.19e − 03 0.891 ± 7.52e − 04 0.822 ± 2.64e − 03 0.852 ± 2.07e − 03 0.875 ± 2.80e − 03 0.886 ± 2.49e − 03 0.815 ± 3.84e − 03 0.846 ± 4.88e − 03 0.863 ± 3.25e − 03 0.877 ± 2.88e − 03 KMNIST 0.819 ± 3.00e − 03 0.856 ± 2.16e − 03 0.878 ± 2.19e − 03 0.891 ± 7.52e − 04 0.822 ± 2.64e − 03 0.852 ± 2.07e − 03 0.875 ± 2.80e − 03 0.886 ± 2.49e − 03 0.815 ± 3.84e − 03 0.846 ± 4.88e − 03 0.863 ± 3.25e − 03 0.877 ± 2.88e − 03 0.60
FashionMNIST 0.869 ± 1.72e − 03 0.876 ± 1.62e − 03 0.882 ± 1.39e − 03 0.887 ± 5.95e − 04 0.869 ± 2.02e − 03 0.876 ± 5.12e − 04 0.878 ± 6.69e − 04 0.883 ± 1.39e − 03 0.864 ± 4.36e − 03 0.872 ± 1.40e − 03 0.876 ± 8.08e − 04 0.879 ± 1.67e − 03 FashionMNIST 0.869 ± 1.72e − 03 0.876 ± 1.62e − 03 0.882 ± 1.39e − 03 0.887 ± 5.95e − 04 0.869 ± 2.02e − 03 0.876 ± 5.12e − 04 0.878 ± 6.69e − 04 0.883 ± 1.39e − 03 0.864 ± 4.36e − 03 0.872 ± 1.40e − 03 0.876 ± 8.08e − 04 0.879 ± 1.67e − 03 0.60
Forest Cover 0.718 ± 4.60e − 03 0.721 ± 2.62e − 03 0.723 ± 2.18e − 03 0.728 ± 2.08e − 03 0.722 ± 1.56e − 03 0.727 ± 3.41e − 03 0.730 ± 2.12e − 03 0.734 ± 2.58e − 03 0.724 ± 5.11e − 03 0.725 ± 3.50e − 03 0.732 ± 4.27e − 03 0.739 ± 3.98e − 03 0.718 ± 4.60e − 03 0.721 ± 2.62e − 03 0.723 ± 2.18e − 03 0.728 ± 2.08e − 03 0.722 ± 1.56e − 03 0.727 ± 3.41e − 03 0.730 ± 2.12e − 03 0.734 ± 2.58e − 03 0.724 ± 5.11e − 03 0.725 ± 3.50e − 03 0.732 ± 4.27e − 03 0.7339 ± 3.98e − 03 0.61
Table 1: Validation accuracies for the optimal fully connected models for each data set. 表1:各データセットの最適完全連結モデルに対する妥当性の検証。 0.83
(1, 25) (1, 50) (1, 100) (1, 200) (2, 25) (2, 50) (2, 100) (2, 200) (3, 25) (3, 50) (3, 100) (3, 200) (1, 25) (1, 50) (1, 100) (1, 200) (2, 25) (2, 50) (2, 100) (2, 200) (3, 25) (3, 50) (3, 100) (3, 200) 0.85
MNIST 0.0019 ± 4.97e − 05 0.0013 ± 4.39e − 05 0.0011 ± 3.09e − 05 0.0010 ± 1.61e − 05 0.0019 ± 4.87e − 05 0.0014 ± 2.82e − 05 0.0012 ± 5.71e − 05 0.0010 ± 3.29e − 05 0.0020 ± 4.42e − 05 0.0016 ± 4.50e − 05 0.0013 ± 2.80e − 05 0.0012 ± 3.34e − 05 mnist 0.0019 ± 4.97e − 05 0.0013 ± 4.39e − 05 0.0011 ± 3.09e − 05 0.0010 ± 1.61e − 05 0.0019 ± 4.87e − 05 0.0014 ± 2.82e − 05 0.0012 ± 5.71e − 05 0.0010 ± 3.29e − 05 0.0020 ± 4.42e − 05 0.0016 ± 4.50e − 05 0.0013 ± 2.80e − 05 0.0012 ± 3.34e − 05 0.60
KMNIST 0.0097 ± 9.81e − 05 0.0079 ± 8.03e − 05 0.0067 ± 7.18e − 05 0.0060 ± 4.32e − 05 0.0098 ± 2.99e − 04 0.0082 ± 2.80e − 05 0.0070 ± 1.39e − 04 0.0064 ± 1.19e − 04 0.0103 ± 2.74e − 04 0.0086 ± 2.00e − 04 0.0076 ± 2.09e − 04 0.0069 ± 4.06e − 05 KMNIST 0.0097 ± 9.81e − 05 0.0079 ± 8.03e − 05 0.0067 ± 7.18e − 05 0.0060 ± 4.32e − 05 0.0098 ± 2.99e − 04 0.0082 ± 2.80e − 05 0.0070 ± 1.39e − 04 0.0064 ± 1.19e − 04 0.0103 ± 2.74e − 04 0.0086 ± 2.00e − 04 0.0076 ± 2.09e − 04 0.0069 ± 4.06e − 05 0.60
FashionMNIST 0.0058 ± 7.17e − 05 0.0055 ± 3.34e − 05 0.0053 ± 2.73e − 05 0.0051 ± 2.57e − 05 0.0058 ± 6.17e − 05 0.0055 ± 3.31e − 05 0.0054 ± 2.72e − 05 0.0053 ± 5.91e − 05 0.0061 ± 1.65e − 04 0.0058 ± 1.01e − 04 0.0056 ± 4.08e − 05 0.0055 ± 2.60e − 05 0.0058 ± 7.17e − 05 0.0055 ± 3.34e − 05 0.0053 ± 2.73e − 05 0.0051 ± 2.57e − 05 0.0058 ± 6.17e − 05 0.0055 ± 3.31e − 05 0.0054 ± 2.72e − 05 0.0053 ± 5.91e − 05 0.0061 ± 1.65e − 04 0.0058 ± 1.01e − 04 0.0056 ± 4.08e − 05 0.0055 ± 2.60e − 05 0.60
Forest Cover 0.0106 ± 3.68e − 05 0.0105 ± 6.94e − 05 0.0104 ± 4.54e − 05 0.0103 ± 3.88e − 05 0.0105 ± 9.92e − 05 0.0103 ± 7.35e − 05 0.0101 ± 6.72e − 05 0.0100 ± 3.60e − 05 0.0105 ± 7.99e − 05 0.0103 ± 6.18e − 05 0.0101 ± 6.51e − 05 0.0099 ± 4.22e − 05 森林被覆 0.0106 ± 3.68e − 05 0.0105 ± 6.94e − 05 0.0104 ± 4.54e − 05 0.0103 ± 3.88e − 05 0.0105 ± 9.92e − 05 0.0103 ± 7.35e − 05 0.0101 ± 6.72e − 05 0.0100 ± 3.60e − 05 0.0105 ± 7.99e − 05 0.0103 ± 6.18e − 05 0.0101 ± 6.51e − 05 0.0099 ± 4.22e − 05 0.60
Table 2: Validation losses for the optimal fully connected models for each data set. 表2: 各データセットの最適完全連結モデルに対する検証損失。 0.76
(3, 3) (3, 6) (3, 12) (3, 24) (6, 3) (6, 6) (6, 12) (6, 24) (3, 3) (3, 6) (3, 12) (3, 24) (6, 3) (6, 6) (6, 12) (6, 24) 0.85
MNIST 0.980 ± 1.20e − 03 0.983 ± 1.24e − 03 0.985 ± 1.13e − 03 0.986 ± 9.83e − 04 0.983 ± 9.60e − 04 0.984 ± 1.84e − 03 0.985 ± 1.56e − 03 0.985 ± 8.50e − 04 MNIST 0.980 ± 1.20e − 03 0.983 ± 1.24e − 03 0.985 ± 1.13e − 03 0.986 ± 9.83e − 04 0.983 ± 9.60e − 04 0.984 ± 1.84e − 03 0.985 ± 1.56e − 03 0.985 ± 8.50e − 04 0.60
KMNIST 0.851 ± 5.88e − 03 0.879 ± 6.71e − 03 0.899 ± 3.31e − 04 0.907 ± 1.34e − 03 0.862 ± 8.26e − 03 0.886 ± 3.11e − 03 0.896 ± 6.14e − 03 0.904 ± 4.00e − 04 KMNIST 0.851 ± 5.88e − 03 0.879 ± 6.71e − 03 0.899 ± 3.31e − 04 0.907 ± 1.34e − 03 0.862 ± 8.26e − 03 0.886 ± 3.11e − 03 0.896 ± 6.14e − 03 0.904 ± 4.00e − 04 0.60
FashionMNIST 0.889 ± 3.32e − 03 0.900 ± 2.94e − 03 0.903 ± 2.13e − 03 0.908 ± 6.95e − 04 0.893 ± 2.12e − 03 0.898 ± 4.92e − 03 0.900 ± 2.45e − 03 0.900 ± 2.46e − 03 FashionMNIST 0.889 ± 3.32e − 03 0.900 ± 2.94e − 03 0.903 ± 2.13e − 03 0.908 ± 6.95e − 04 0.893 ± 2.12e − 03 0.898 ± 4.92e − 03 0.900 ± 2.45e − 03 0.900 ± 2.46e − 03 0.60
Table 3: Validation accuracies for the optimal convolutional networks for each data set. 表3:各データセットの最適畳み込みネットワークに対する妥当性の検証。 0.82
FashionMNIST 0.0050 ± 1.44e − 04 (3, 3) 0.0045 ± 1.56e − 04 (3, 6) 0.0044 ± 1.06e − 04 (3, 12) 0.0043 ± 6.18e − 05 (3, 24) 0.0048 ± 1.94e − 04 (6, 3) 0.0045 ± 2.35e − 04 (6, 6) 0.0045 ± 9.90e − 05 (6, 12) 0.0045 ± 8.23e − 05 (6, 24) Table 4: Validation losses for the optimal convolutional models for each data set 0.0050 ± 1.44e − 04 (3, 3) 0.0045 ± 1.56e − 04 (3, 6) 0.0044 ± 1.06e − 04 (3, 12) 0.0043 ± 6.18e − 05 (3, 24) 0.0048 ± 1.94e − 04 (6, 3) 0.0045 ± 2.35e − 04 (6, 6) 0.0045 ± 9.90e − 05 (6, 12) 0.0045 ± 8.23e − 05 (6, 24) 表 4: 各データセットの最適畳み込みモデルの検証損失。 0.82
KMNIST 0.0087 ± 2.20e − 04 0.0070 ± 2.33e − 04 0.0061 ± 1.16e − 04 0.0056 ± 1.77e − 04 0.0079 ± 5.92e − 04 0.0070 ± 1.61e − 04 0.0064 ± 3.00e − 04 0.0058 ± 1.85e − 04 KMNIST 0.0087 ± 2.20e − 04 0.0070 ± 2.33e − 04 0.0061 ± 1.16e − 04 0.0056 ± 1.77e − 04 0.0079 ± 5.92e − 04 0.0070 ± 1.61e − 04 0.0064 ± 0.0e − 04 0.0058 ± 1.85e − 04 0.60
MNIST 0.0010 ± 1.05e − 04 0.0008 ± 7.39e − 05 0.0007 ± 3.35e − 05 0.0006 ± 4.04e − 05 0.0009 ± 6.79e − 05 0.0008 ± 8.20e − 05 0.0008 ± 4.61e − 05 0.0007 ± 2.98e − 05 mnist 0.0010 ± 1.05e − 04 0.0008 ± 7.39e − 05 0.0007 ± 3.35e − 05 0.0006 ± 4.04e − 05 0.0009 ± 6.79e − 05 0.0008 ± 8.20e − 05 0.0008 ± 4.61e − 05 0.0007 ± 2.98e − 05 0.60
16 16 0.85
                                 ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。