論文の概要、ライセンス

# (参考訳) 反復学習:層二元化による二元重みニューラルネットワークの探索 [全文訳有]

Iterative Training: Finding Binary Weight Deep Neural Networks with Layer Binarization ( http://arxiv.org/abs/2111.07046v1 )

ライセンス: CC BY 4.0
Cheng-Chou Lan(参考訳) 低レイテンシやモバイルアプリケーションでは、計算の複雑さが低下し、メモリフットプリントが低下し、エネルギー効率が向上することが望まれる。 冗長パラメータを削除することで、多くの先行研究がこのニーズに対処する。 パラメータ量子化は浮動小数点算術を低い精度の固定点算術に置き換え、さらに複雑さを減らす。 量子化重みニューラルネットワークの典型的なトレーニングは、完全な量子化重みから始まります。 量子化はランダムノイズを生み出す。 このノイズを補償する手段として、訓練中は浮動小数点精度を維持しながら重みを定量化することを提案する。 ディープニューラルネットワークには多くのレイヤがある。 完全に量子化された重みネットワークに到達するには、1つの量子化層から始めて、さらに多くの層を量子化します。 層量化の順序が精度に影響することを示す。 ディープニューラルネットワークでは、順序数が大きい。 層量子化順序を導出するための感度事前学習を提案する。 重み二項化の最近の研究は、重み-入出力行列乗法を加算に置き換えている。 提案する反復学習を重み付け二元化に適用する。 実験では,MNIST,CIFAR-10,Imag eNetデータセット上の完全接続および畳み込みネットワークについて検討した。 完全二進法ではなく部分二進法の重みから、トレーニングがより大きく深いネットワークに対してより良い精度で完全二進法の重みネットワークに到達することを実証的に示す。 前列における層バイナライゼーションは、より良い精度をもたらす。 誘導層二元化は、それをさらに改善することができる。 改良は訓練期間の延長を犠牲にしている。

In low-latency or mobile applications, lower computation complexity, lower memory footprint and better energy efficiency are desired. Many prior works address this need by removing redundant parameters. Parameter quantization replaces floating-point arithmetic with lower precision fixed-point arithmetic, further reducing complexity. Typical training of quantized weight neural networks starts from fully quantized weights. Quantization creates random noise. As a way to compensate for this noise, during training, we propose to quantize some weights while keeping others in floating-point precision. A deep neural network has many layers. To arrive at a fully quantized weight network, we start from one quantized layer and then quantize more and more layers. We show that the order of layer quantization affects accuracies. Order count is large for deep neural networks. A sensitivity pre-training is proposed to guide the layer quantization order. Recent work in weight binarization replaces weight-input matrix multiplication with additions. We apply the proposed iterative training to weight binarization. Our experiments cover fully connected and convolutional networks on MNIST, CIFAR-10 and ImageNet datasets. We show empirically that, starting from partial binary weights instead of from fully binary ones, training reaches fully binary weight networks with better accuracies for larger and deeper networks. Layer binarization in the forward order results in better accuracies. Guided layer binarization can further improve that. The improvements come at a cost of longer training time.
公開日: Sat, 13 Nov 2021 05:36:51 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
ITERATIVE TRAINING: FINDING BINARY WEIGHT DEEP イテレーティブトレーニング:バイナリーウェイトディープを固定する 0.46
NEURAL NETWORKS WITH LAYER BINARIZATION 階層バイナライゼーションを有するニューラルネットワーク 0.50
1 2 0 2 v o N 3 1 1 2 0 2 v o n 3 1 である。 0.54
] G L . s c [ ] G L。 sc [ 0.47
1 v 6 4 0 7 0 1 v 6 4 0 7 0 0.42
. 1 1 1 2 : v i X r a . 1 1 1 2 : v i X r a 0.42
Cheng-Chou Lan Rakuten Mobile, Inc. 清華楽天移動株式会社 0.36
rick.lan@rakuten.com rick.lan@rakuten.com 0.29
ABSTRACT In low-latency or mobile applications, lower computation complexity, lower memory footprint and better energy efficiency are desired. ABSTRACT 低レイテンシやモバイルアプリケーションでは、計算の複雑さが低下し、メモリフットプリントが低下し、エネルギー効率が向上することが望まれる。 0.46
Many prior works address this need by removing redundant parameters. 冗長パラメータを削除することで、多くの先行研究がこのニーズに対処する。 0.50
Parameter quantization replaces floating-point arithmetic with lower precision fixed-point arithmetic, further reducing complexity. パラメータ量子化は浮動小数点算術を低い精度の固定点算術に置き換え、さらに複雑さを減らす。 0.60
Typical training of quantized weight neural networks starts from fully quantized weights. 量子化重みニューラルネットワークの典型的なトレーニングは、完全な量子化重みから始まります。 0.59
Quantization creates random noise. 量子化はランダムノイズを生み出す。 0.58
As a way to compensate for this noise, during training, we propose to quantize some weights while keeping others in floating-point precision. このノイズを補償する手段として、訓練中は浮動小数点精度を維持しながら重みを定量化することを提案する。 0.72
A deep neural network has many layers. ディープニューラルネットワークには多くのレイヤがある。 0.59
To arrive at a fully quantized weight network, we start from one quantized layer and then quantize more and more layers. 完全に量子化された重みネットワークに到達するには、1つの量子化層から始めて、さらに多くの層を量子化します。
訳抜け防止モード: 完全に量子化された重みネットワークに到達する。 1つの量子化層から始まり、さらに多くの層を定量化します。
0.67
We show that the order of layer quantization affects accuracies. 層量化の順序が精度に影響することを示す。 0.67
Order count is large for deep neural networks. ディープニューラルネットワークでは、順序数が大きい。 0.72
A sensitivity pre-training is proposed to guide the layer quantization order. 層量子化順序を導出するための感度事前学習を提案する。 0.59
Recent work in weight binarization replaces weight-input matrix multiplication with additions. 重み二項化の最近の研究は、重み-入出力行列乗法を加算に置き換えている。 0.43
We apply the proposed iterative training to weight binarization. 提案する反復学習を重み付け二元化に適用する。 0.61
Our experiments cover fully connected and convolutional networks on MNIST, CIFAR-10 and ImageNet datasets. 実験では,MNIST,CIFAR-10,Imag eNetデータセット上の完全接続および畳み込みネットワークについて検討した。 0.56
We show empirically that, starting from partial binary weights instead of from fully binary ones, training reaches fully binary weight networks with better accuracies for larger and deeper networks. 完全二進法ではなく部分二進法の重みから、トレーニングがより大きく深いネットワークに対してより良い精度で完全二進法の重みネットワークに到達することを実証的に示す。 0.59
Layer binarization in the forward order results in better accuracies. 前列における層バイナライゼーションは、より良い精度をもたらす。 0.61
Guided layer binarization can further improve that. 誘導層二元化は、それをさらに改善することができる。 0.48
The improvements come at a cost of longer training time. 改良は訓練期間の延長を犠牲にしている。 0.68
1 Introduction Recent works using deep convolutional networks have been successfully applied to a large variety of computer vision tasks, such as image recognition [He et al , 2016], object segmentation [He et al , 2017] and scene segmentation [Chen et al , 2018]. 1 はじめに 深層畳み込みネットワークを用いた最近の研究は、画像認識(he et al , 2016)、オブジェクトセグメンテーション(he et al , 2017)、シーンセグメンテーション(chen et al , 2018)など、様々なコンピュータビジョンタスクにうまく適用されている。
訳抜け防止モード: 1 はじめに 深層畳み込みネットワークを用いた最近の研究は、様々なコンピュータビジョンタスクにうまく適用されている。 画像認識[he et al, 2016]などです。 オブジェクトのセグメンテーション [he et al, 2017] とシーンセグメンテーション [chen et al, 2018] 。
0.57
These networks are large. これらのネットワークは大きい。 0.80
For example, ResNet-152 has 60.2 million parameters [Zagoruyko and Komodakis, 2016] and requires 11.3 billion FLOPs [He et al , 2016]. 例えば、ResNet-152は6200万のパラメータ(ZagoruykoとKomodakis, 2016)を持ち、113億のFLOPを必要とする(He et al , 2016)。 0.66
A large number of parameters results in a large memory footprint. 多数のパラメータが大量のメモリフットプリントをもたらす。 0.69
At 32-bit floating-point precision, 229.64 MB is needed to store the ResNet-152 parameter values. 32ビット浮動小数点精度では、ResNet-152パラメータ値を格納するために229.64MBが必要である。 0.57
In low-latency or mobile applications, lower computation complexity, lower memory footprint and better energy efficiency are desired. 低レイテンシやモバイルアプリケーションでは、計算の複雑さが低下し、メモリフットプリントが低下し、エネルギー効率が向上することが望まれる。 0.50
Many prior works address this need of lower computation complexity. 多くの先行研究がこの計算の複雑さを減らす必要性に対処している。 0.50
In a survey paper Cheng et al [2018], efficient computation of neural networks is organized into four categories: network pruning, low-rank decomposition, teacher-student network and network quantization. 調査論文Cheng et al[2018]では、ニューラルネットワークの効率的な計算は、ネットワークプルーニング、低ランク分解、教師学生ネットワーク、ネットワーク量子化の4つのカテゴリに分けられている。 0.70
Network pruning removes redundant parameters which are not sensitive to performance. ネットワークプルーニングは、性能に敏感でない冗長パラメータを取り除く。 0.82
Low-rank decomposition uses matrix or tensor decomposition methods to reduce number of parameters. 低ランク分解は行列やテンソル分解法を使ってパラメータの数を減らす。 0.63
In teacher-student network, knowledge transfer is exploited to train a smaller student network using a bigger teacher network. 教員間ネットワークでは、より大きな教師ネットワークを用いて、より小さな生徒ネットワークを訓練するために知識伝達が利用される。
訳抜け防止モード: 教員ネットワークにおける知識伝達の活用 より大きな教師ネットワークを使って より小さな学生ネットワークを訓練します
0.81
In these three categories, their common theme is a reduction of number of parameters. これら3つのカテゴリでは、共通のテーマはパラメータ数の削減である。 0.74
During forward propagation, one of the most computationally intensive operation in a neural network is the matrix multiplication of parameters with input. 前方伝播中、ニューラルネットワークにおける最も計算集約的な操作の1つは、入力を持つパラメータの行列乗算である。 0.69
With reduced parameters, FLOPs and memory footprint reduce. パラメータの削減により、FLOPとメモリフットプリントは減少する。 0.70
With reduced FLOPs, energy efficiency improves. フロップの削減によりエネルギー効率が向上する。 0.67
In the fore-mentioned categories, network parameters typically use floating-point precision. 前述したカテゴリでは、ネットワークパラメータは通常浮動小数点精度を使用する。 0.62
In the last category, network quantization, the parameters and, for some works, all computations are quantized. 最後のカテゴリでは、ネットワーク量子化、パラメータ、そしていくつかの作品では、全ての計算は量子化される。 0.65
For many low-latency or mobile 低レイテンシやモバイルでは 0.56
英語(論文から抽出)日本語訳スコア
Iterative Training: Finding Binary Weight Deep Neural Networks with Layer Binarization 反復学習:層二元化による二元重みニューラルネットワークの探索 0.75
applications, we typically train offline and deploy pre-trained models. アプリケーションは通常、オフラインでトレーニングし、トレーニング済みのモデルをデプロイします。 0.50
Thus, the main goal is the efficiency in forward propagation. したがって、主な目標は前方伝播の効率である。 0.71
It is desirable to compute backward propagation and parameter updates in floating-point precision. 後方伝播とパラメータ更新を浮動小数点精度で計算することが望ましい。 0.78
The seminal work Courbariaux et al [2015] matches our scope. Courbariaux et al [2015]は私たちのスコープと一致する。 0.64
They quantize network weights to binary values, e g -1.0 and 1.0, while also keeping weight values in floating-point precision for backward propagation. ネットワーク重みを、例えばg-1.0と1.0の2進値に量子化し、浮動小数点精度で後方伝播する。 0.74
During forward propagation, instead of matrix multiplication of weights with input, the sign of these binary weights specify addition or subtraction of inputs. 前方伝播の間、入力と重みの行列乗算の代わりに、これらの二進重みの符号は入力の加算または減算を規定する。 0.70
Memory footprint is dramatically reduced to 1 bit per weight. メモリフットプリントは1重量あたり1ビットに劇的に削減される。 0.69
Energy efficiency improves because addition is more energy efficient than multiplication Horowitz [2014]. 加算が乗算ホロウィッツ [2014] よりもエネルギー効率が高いため、エネルギー効率が向上する。 0.70
Prior works in network quantization [Courbariaux et al , 2015, Li et al , 2016, Hubara et al , 2016, Zhou et al , 2016, Wu et al , 2018] typically start training from quantizing all weights in the network. ネットワーク量子化(Courbariaux et al , 2015 Li et al , 2016 Hubara et al , 2016 Zhou et al , 2016 Wu et al , 2018)は、一般的に、ネットワーク内のすべての重みの定量化からトレーニングを開始する。 0.72
Quantization creates error which is the difference between the original value and its quantized value. 量子化は、元の値とその量子化値の違いであるエラーを生成する。
訳抜け防止モード: 量子化はエラーを発生させ 元の値と定量化された値の違いです
0.78
In other words, actual weight value, wq, is 言い換えれば、実際の重量値 wq は 0.61
wq = w − werror wq = w − werror 0.43
(1) To reduce the impact of werror, we hypothesize that if we quantize some weights while leaving others in floating-point precision, the latter ones would be able to compensate for the error introduced by quantization. (1) werrorの影響を減らすために、ある重みを浮動小数点精度で残しながら定量化すれば、後者の重みは量子化によって引き起こされる誤差を補うことができると仮定する。 0.57
To reach a fully quantized network, we propose an iterative training, where we gradually quantize more and more weights. 完全量子化ネットワークに到達するために,我々は徐々に重みを定量化する反復学習を提案する。 0.74
This raises two questions. これは2つの疑問を提起する。 0.51
First, how to choose the grouping of weights to quantize together at each iteration. まず、重みのグルーピングを選択して、各イテレーションで一緒に定量化する方法。 0.66
Second, how to choose the quantization order across groups. 次に、グループ間で量子化順序を選択する方法。 0.68
A feedforward, deep neural network has many layers. フィードフォワードのディープニューラルネットワークには、多くのレイヤがある。 0.55
One natural grouping choice is one group per layer. 1つの自然なグループ選択は層ごとに1つのグループである。 0.57
For the quantization order of groups, we propose a sensitivity pre-training to choose the order. 群の量子化順序について,その順序を選択するための感度事前学習を提案する。 0.64
A random order and other obvious orders are chosen as comparison. ランダムな順序とその他の明らかな順序を比較として選択する。 0.68
Contributions. • We propose an iterative training regime that gradually finds a full binary weight network starting from an 貢献。 •我々は,徐々に2元重み付きネットワークを見出す反復学習方式を提案する。 0.51
initial partial binary weight network. 初期部分二分重みネットワーク。 0.74
• We demonstrate empirically that starting from a partial binary weight network result in higher accuracy than • 部分二分重みネットワークから始めると精度がより高くなることを実証的に示す。 0.74
starting from a full binary weight one. 完全な二分体重から始まります 0.61
• We demonstrate empirically that the forward order is best, compared to other obvious orders. • 他の明らかな順序と比較して、前方順序が最善であることを実証的に示す。 0.62
In addition, sensitivity pre-training can further improve that. また、 感度事前学習によりさらに改善される。 0.52
• Code is available at https://github.com/r akutentech/iterative _training. • コードはhttps://github.com/r akutentech/iterative _trainingで入手できる。 0.49
In the sections that follow, we describe the iterative training algorithm in detail. 以下に示すセクションでは、反復学習アルゴリズムについて詳述する。 0.61
Next, we present the iterative training of fully connected networks using the MNIST dataset [Lecun et al , 1998] and of convolutional neural networks using the CIFAR-10 [Krizhevsky, 2009] and ImageNet [Russakovsky et al , 2015] datasets. 次に、MNISTデータセット(Lecun et al , 1998)とCIFAR-10データセット(Krizhevsky, 2009)とImageNetデータセット(Russakovsky et al , 2015)を用いた畳み込みニューラルネットワークを用いて、完全連結ネットワークの反復訓練を行う。 0.82
Then we present the sensitivity pre-training for convolution neural networks. 次に,畳み込みニューラルネットワークの感度事前学習について述べる。 0.63
Finally, we discuss related work and conclusion. 最後に、関連する作業と結論について論じる。 0.59
2 Iterative Training A feedforward, deep neural network has many layers, say, L. We study iterative training by quantizing more and more weights layer-by-layer. 2 反復訓練 フィードフォワード型のディープニューラルネットワークには,レイヤ毎の重み付けを定量化することによって,反復トレーニングを研究できるレイヤが多数存在する。
訳抜け防止モード: 2 反復訓練 フィードフォワード深層ニューラルネットワークには多くの層がある 言って L. 反復訓練の研究 より多くの重みを - 層によって - 定量化する。
0.49
Iterative training starts from one quantized layer while all other layers are in floating-point precision. 反復トレーニングは1つの量子化層から始まり、他のすべての層は浮動小数点精度である。 0.57
Each iteration trains for a fixed number of epochs, N. Next, we quantize the next layer and trains for another N epochs. 各イテレーションは一定数のエポックをトレーニングし、次に次のレイヤを量子化し、別のnエポックをトレーニングします。 0.49
Iterative training stops when there are no more layers to quantize. 反復的なトレーニングは、定量化のレイヤがなくなると停止する。 0.55
In the case of ResNet architectures, same as the original paper, we reduce learning rate by 10 twice and continue training. ResNetアーキテクチャの場合、元の論文と同様、学習率を10倍に削減し、トレーニングを継続する。 0.64
Algorithm 1 illustrates the iterative training regime. アルゴリズム1は反復訓練方式を示す。 0.71
As the experiments will show, this regime consistently finds fully quantized network with better accuracies than starting from an initial fully quantized network (our baseline). 実験が示すように、この規則は、最初の完全に量子化されたネットワーク(ベースライン)から始めるよりも、精度の良い完全量子化されたネットワークを一貫して見つける。 0.58
For quantization scheme, we follow weight binarization in Courbariaux et al [2015], but, for simplicity, without "tricks": no weight clipping and no learning rate scaling. 量子化スキームでは、courbariaux et al [2015]のウェイトバイナリ化をフォローするが、シンプルさのために、"トリック"がない: ウェイトクリッピングなし、学習率スケーリングなし。 0.69
In addition, we use softmax instead of square hinge loss. さらに、角ヒンジの損失の代わりにsoftmaxを使用します。 0.66
The inner for-loop in Algorithm 1 is the same as the training regime in Courbariaux et al [2015], except that a state variable is introduced to control whether a layer needs binarization or not. Algorithm 1の内側のforループは、Courbariaux et al [2015]のトレーニングレシエーションと同じだが、状態変数は層がバイナライゼーションを必要とするかどうかを制御するために導入される。 0.75
We use the PyTorch framework Paszke et al [2019]. 私たちはPyTorchフレームワークPaszkeなどを使っています。 0.61
ImageNet results in the biggest GPU memory needs and longest training time, which are about 10 GB and about one day to train one model on a Nvidia V100, respectively. ImageNetは、Nvidia V100でそれぞれ1つのモデルをトレーニングするのに約10GBと約1日という、最大のGPUメモリ要件と最長のトレーニング時間を達成します。 0.83
As shown by order count in Table 1, there is a large number of layer binarization order for a deep neural network. テーブル1のオーダーカウントで示されるように、ディープニューラルネットワークには多数のレイヤバイナリ化順序があります。 0.67
In this work, we experiment with random and obvious orders, to show that starting from a partially quantized weight network is better than starting from fully quantized one. 本研究では、ランダムで明らかな順序を用いて、部分的に量子化された重み付けネットワークから始める方が、完全量子化されたネットワークから始めるよりよいことを示す。 0.59
In a later section, we introduce the proposed sensitivity pre-training to select a layer binarization order. 後段では、層双対化順序を選択するための感度事前学習を提案する。 0.62
2 2 0.42
英語(論文から抽出)日本語訳スコア
Iterative Training: Finding Binary Weight Deep Neural Networks with Layer Binarization 反復学習:層二元化による二元重みニューラルネットワークの探索 0.75
Algorithm 1 Iterative Training Input: Input data and label Parameter: Number of iterations, N Parameter: Number of layers, L Parameter: Total number of epochs, T Parameter: BinarizationOrder array, length L Output: A trained neural network with binary weights 1: BinarizationState ← zeros(L). アルゴリズム1 反復トレーニング入力: 入力データとラベルパラメータ: イテレーション数、n パラメータ: レイヤ数、l パラメータ: 総エポック数、t パラメータ: バイナリ化順序配列、長さ l 出力: トレーニングされたニューラルネットワークで、バイナリ重み値 1: バイナリ化状態が 0s(l) である。 0.76
2: for j ← 1 to L do layer ← BinarizationOrder[j]. 2: j > 1 から L に対して、層 > BinarizationOrder[j] は成り立つ。 0.62
3: 4: BinarizationState[layer] ← 1. 3: 4:binarizationstate[layer] 1 である。 0.69
for i ← 1 to N do 5: 6: 7: 8: 9: end for 10: 11: end for 12: i ← L ∗ N 13: while i < T do 14: 15: 16: 17: 18: end while i < t do 14: 15: 16: 17: 18: end while. i < t do 5: 6: 7: 8: 9: end for 10: 11: end for 12: i ∗ l ∗ n 13: while i < t do 14: 15: 16: 17: 18: end while 0.36
BinarizeWeights(Bina rizationState). BinarizeWeights(Bina rizationState)。 0.78
ForwardPropagation() . forward Propagation() 0.37
BackwardPropagation( ). 後方プロパゲーション()。 0.68
UpdateParameters(). UpdateParameters()。 0.39
BinarizeWeights(Bina rizationState). BinarizeWeights(Bina rizationState)。 0.78
ForwardPropagation() . forward Propagation() 0.37
BackwardPropagation( ). 後方プロパゲーション()。 0.68
UpdateParameters(). UpdateParameters()。 0.39
Network 300-100-10 ネットワーク 300-100-10 0.50
784-784-10 784-784-10 0.20
Vgg-5 Convolutional layers Vgg-5 畳み込み層 0.45
Fully connected layers Dataset Train / Validation / Test Batch size 完全接続レイヤ データセット トレーニング/バリデーション/テストバッチサイズ 0.79
300, 100, 10 MNIST 55K / 5K / 10K 55K / 5K / 10K 45K / 5K / 10K 45K / 5K / 10K 45K / 5K / 10K 100 300,100,10 MNIST 55K / 5K / 10K 55K / 5K / 10K 45K / 5K / 10K 45K / 5K / 10K 45K / 5K / 10K 100 0.40
784, 784, 10 MNIST 天平17年(784年)、天平17年(784年)、10MNIST 0.20
256, 256, 10 CIFAR-10 256,256,10 CIFAR-10 0.44
100 100 100 100 100 100 0.43
64, 64 Vgg-9 64, 64 128, 128 256, 256 256, 256, 10 CIFAR-10 64, 64 Vgg-9 64, 64 128, 128 256, 256 256, 256, 10 CIFAR-10 0.45
ResNet-20 16, 3x[16, 16] 3x[32, 32] 3x[64, 64] 10 CIFAR-10 ResNet-20 16, 3x[16, 16] 3x[32, 32] 3x[64, 64] 10 CIFAR-10 0.46
Optimizer Adam Pre-training epochs, K 150 150 Epochs per layer 3 Layers, L 450 Total epochs, T 6 Order count Weight count 266,200 最適化 アダム プレトレーニングエポック k 150 150 epochs per layer 3 layers, l 450 total epochs, t6 order count weight count 266,200 0.69
Adam 150 150 3 450 6 1,237,152 アダム 150 150 3 450 6 1,237,152 0.48
Adam 200 150 5 750 120 4,300,992 アダム 200 150 5 750 120 4,300,992 0.48
Adam 450 150 9 1350 362,880 2,261,184 アダム 450 150 9 1350 362,880 2,261,184 0.45
ResNet-21 64, 4x[64] 5x[128], 5x[256] 5x[512] 1000 ImageNet 2012 1.2M / 0 / 50K 256 SGD Momentum 0.9 ResNet-21 64, 4x[64] 5x[128], 5x[256] 5x[512] 1000 ImageNet 2012 1.2M / 0 / 50K 256 SGD Momentum 0.9 0.44
128 SGD Momentum 0.9 Weight decay 1e-4 Weight decay 1e-4 300 50 20 1200 2e+18 268,336 128 sgd運動量0.9 重量崩壊 1e-4 重量崩壊 1e-4 300 50 20 1200 2e+18 268,336 0.52
20 2 21 67 5e+19 About 11e6 20 2 21 67 5e+19 約 11e6 0.35
Table 1: Summary of network architectures and their hyper-parameters. 表1:ネットワークアーキテクチャとそのハイパーパラメータの概要。 0.81
For obvious orders, we experiment with the forward order, i.e., quantizing layer-by-layer from input layer towards output layer and the reverse order, i.e., from output layer towards input layer. 明らかな順序について,入力層から出力層へ,出力層から入力層へ,すなわち出力層から入力層へ,層間を量子化する前方順序を実験する。 0.83
We then compare to training when: (1) all weights are quantized from start (baseline) (2) all weights are in floating-point precision and stay so. 1) 全ての重みがスタート(ベースライン)から定量化され、(2)全ての重みが浮動小数点精度で保持される場合、トレーニングと比較する。 0.77
As the experiments will show, for bigger and deeper networks, the forward order consistently finds fully quantized network with better accuracies than other orders. 実験が示すように、より大きく深いネットワークでは、前方の順序は他の順序よりも精度の良い完全量子化されたネットワークが常に見つかる。 0.65
In the following subsections, we discuss experimental results for fully connected and convolutional networks. 以下の節では、完全連結および畳み込みネットワークの実験結果について論じる。 0.78
2.1 Iterative Training for Fully Connected Networks 2.1 完全接続ネットワークのための反復学習 0.51
We investigate iterative training of fully connected networks with the MNIST dataset, which has 60,000 training and 10,000 test images. 本研究では、6万のトレーニングと10,000の試験画像を持つmnistデータセットと完全接続ネットワークの反復的トレーニングについて検討する。
訳抜け防止モード: 完全連結ネットワークのMNISTデータセットによる反復学習について検討する。 6万の訓練と1万の試験画像があります
0.63
We use the last 5,000 images from the training set for validation and the remaining 55,000 as トレーニングセットからの最後の5000枚と残りの55,000枚を使って検証します。
訳抜け防止モード: トレーニングセットからの最後の5000枚の画像を使って検証する 残りの5万5千は
0.72
3 3 0.42
英語(論文から抽出)日本語訳スコア
Iterative Training: Finding Binary Weight Deep Neural Networks with Layer Binarization 反復学習:層二元化による二元重みニューラルネットワークの探索 0.75
Figure 1: Left: Test errors for 300-100-10 network. 図1: 左: 300-100-10ネットワークのテストエラー。 0.74
Right: Test errors for 784-784-10 network. 右: 784-784-10ネットワークのテストエラー。 0.72
Case Binary Float Reverse Forward ケースバイナリーが逆向きに浮かぶ 0.65
300-100-10 0.023 0.015 0.024 0.026 300-100-10 0.023 0.015 0.024 0.026 0.20
784-784-10 0.021 0.014 0.018 0.016 784-784-10 0.021 0.014 0.018 0.016 0.20
Improvement 0.002 0.001 0.006 0.010 改良0.002 0.001 0.006 0.010 0.49
Table 2: Error improvement from using 784-784-10 over 300-100-10. 表2: 784-784-10 over 300-100-10 の誤差改善。 0.62
training images for all MNIST experiments. すべてのMNIST実験のためのトレーニングイメージ。 0.72
We use no data augmentation. データ拡張は使用しません。 0.65
We use batch normalization [Ioffe and Szegedy, 2015], no drop-out and weight initialization as He et al [2015]. バッチ正規化(ioffe and szegedy, 2015], he et al [2015]のようにドロップアウトもウェイト初期化も不要です。
訳抜け防止モード: We use batch normalization [Ioffe and Szegedy, 2015 ] ドロップなし - He et al [2015 ] のように、アウトとウェイトの初期化。
0.82
We use softmax as classifier. 分類にはSoftmaxを使用します。 0.61
For iterative training, we train for 150 epochs per layer. 反復的なトレーニングでは、1層あたり150エポックのトレーニングを行います。 0.60
For each network architecture, the total number of training epochs is number of layers multiplied by 150 epochs. 各ネットワークアーキテクチャでは、トレーニングエポックの総数は150エポックのレイヤー数である。 0.62
Because there are three layers for the chosen networks, all MNIST experiments are trained for 450 epochs. 選択されたネットワークには3つの層があるため、全てのMNIST実験は450エポックで訓練される。 0.68
For all cases, we find the best learning rate from the best error on the validation set. すべてのケースにおいて、検証セットの最良のエラーから最高の学習率を見つけます。 0.76
For layer-by-layer binarization cases, the best error is selected from epochs when all layers are binarized. 層間二項化の場合、すべての層が二項化されると、最適誤差がエポックから選択される。 0.59
We then use each corresponding best learning rate for the error on the test set. 次に、各テストセットのエラーに対して、対応する最高の学習率を使用します。 0.69
We vary the seed for 5 training sessions and report the learning curves of the average test errors in the figures. 5回のトレーニングセッションの種数を変えて、平均的なテストエラーの学習曲線を報告します。 0.68
Table 1 reports other hyper-parameters. 表1は他のハイパーパラメータを報告します。 0.52
For network architectures, we study the 300-100-10 network [Lecun et al , 1998] and a bigger variant, 784-784-10. ネットワークアーキテクチャでは, 300-100-10 ネットワーク (Lecun et al , 1998) とより大きな変種 784-784-10 について検討する。 0.69
Figure 1 shows test errors for the 300-100-10 and 784-784-10 networks. 図1は300-100-10と784-784-10ネットワークのテストエラーを示している。 0.56
The float case is training where all weights are in floating-point precision and stay so. フロートケースは、すべての重量を浮動小数点精度で保持する訓練である。 0.77
The binary case (baseline) is training where all weights are binarized from the start. バイナリケース(ベースライン)は、すべてのウェイトが最初からバイナリ化されるトレーニングです。 0.67
The forward case is training where layer binarization is in the forward order, the reverse in the reverse order. フォワードケースは、レイヤーバイナライゼーションがフォワード順、リバース順、というトレーニングである。
訳抜け防止モード: 前方のケースはトレーニングの場所です 層二項化は前順 逆順
0.43
The solid lines are the mean across multiple runs and the matching shaded color is one standard deviation. ソリッドラインは複数のランの平均であり、一致するシェードカラーは1つの標準偏差である。 0.74
For the smaller network, 300-100-10, the binary case reaches a lower error than forward and reverse orders. 300-100-10の小さなネットワークでは、バイナリケースは前方および逆順よりも低いエラーに達する。 0.76
Next best is the reverse order then the forward one. 次に最善は逆順、次に前順である。 0.77
This shows that order of layer binarization matters for accuracy. これは、二項化の順序が正確であることを示している。 0.38
On the contrary, for the bigger network, 784-784-10, the forward and reverse cases does better than the binary one. 逆に、より大きなネットワークである 784-784-10 の場合、前方および逆の場合の方がバイナリの場合より優れている。 0.67
Binarization operation is not differentiable. 双対化操作は微分不可能である。 0.44
According to Equation 1, it injects a random error signal into the network. Equation 1 によれば、ランダムなエラー信号をネットワークに注入する。 0.74
During iterative training, some of the weights are in floating-point precision. 反復訓練中、いくつかの重量は浮動小数点精度である。 0.66
We hypothesize that they are compensating for the random error. 私たちは、彼らがランダムなエラーを補償していると仮定する。 0.51
At the same time, we think bigger networks are more robust due to more parameters. 同時に、より多くのパラメータにより、より大きなネットワークがより堅牢であると考えています。 0.70
The error improvement of upgrading to a bigger network is given in Table 2. テーブル2では、より大きなネットワークへのアップグレードのエラー改善が与えられる。 0.89
The forward and reverse orders have significantly higher improvement than float and binary, showing that iterative training is beneficial. 前と逆の順序はフロートやバイナリよりも大幅に改善されており、反復的なトレーニングが有用であることを示している。 0.54
In addition, the forward order has a higher improvement than reverse. 加えて、前方の順は逆よりも改善されている。 0.75
We observe the same pattern for subsequent network architectures. 我々は、後続のネットワークアーキテクチャに対して同じパターンを観察します。 0.60
Namely, for bigger and deeper networks, starting from partial binary weight network, instead of full binary weight network, iterative training with forward weight quantization order finds full binary weight network with higher accuracies. すなわち、より大きく深いネットワークでは、完全二分重みネットワークではなく、部分二分重みネットワークから始まる、前方二分重量化順序による反復的なトレーニングにより、より高い精度の完全な二分重みネットワークが見つかる。 0.61
2.2 Iterative Training for Convolutional Networks 2.2 畳み込みネットワークのための反復学習 0.46
We investigate iterative training of convolutional networks with the CIFAR-10 dataset, which has 50,000 training and 10,000 test images. 我々は,CIFAR-10データセットを用いて,5万のトレーニングと1万のテスト画像を持つ畳み込みネットワークの反復的トレーニングについて検討する。 0.53
We randomly choose 5,000 images from the training set as the validation set and the remaining 45,000 as training images for all CIFAR-10 experiments. 我々は,CIFAR-10実験のトレーニング画像として,トレーニングセットから5000枚を検証セットとして,残りの45,000枚をランダムに選択した。
訳抜け防止モード: トレーニングセットからランダムに5000枚の画像を検証セットとして選択します 残りの45,000はcifar-10実験の訓練画像です
0.79
We use the same data augmentation as He et al [2016]: 4 私たちは、he et al[2016]と同じデータ拡張を使用します。 0.68
4 0200400Epochs0.0100. 0150.0200.0250.030Er rorFloatBinaryForwar dReverse0200400Epoch s0.0100.0150.0200.02 50.030ErrorFloatBina ryForwardReverse 4 0200400Epochs0.0100. 0150.0250.030ErrorFl oatBinaryForwardReve rse0200400Epochs0.01 00.0150.0200.030Erro rFloatBinaryForwardR everse 0.23
英語(論文から抽出)日本語訳スコア
Iterative Training: Finding Binary Weight Deep Neural Networks with Layer Binarization 反復学習:層二元化による二元重みニューラルネットワークの探索 0.75
Figure 2: Left: Test errors for Vgg-5 network. 図2: 左: Vgg-5ネットワークのテストエラー。 0.87
Right: Test errors for Vgg-9 network. 右: vgg-9ネットワークのテストエラー。 0.84
Case Binary Float Reverse Forward ケースバイナリーが逆向きに浮かぶ 0.65
Vgg-5 Vgg-9 0.30 0.16 0.22 0.22 Vgg-5 Vgg-9 0.30 0.16 0.22 0.22 0.22
0.28 0.08 0.1126 0.1025 0.28 0.08 0.1126 0.1025 0.23
Improvement 0.02 0.08 0.1074 0.1175 改良0.02.08 0.1074 0.1175 0.26
Table 3: Error improvement from using Vgg-9 over Vgg-5. 表3: vgg-9 による vgg-5 上のエラー改善。 0.74
pixels are padded on each side, and a 32x32 crop is randomly sampled from the padded image or its horizontal flip. 各側面に画素をパディングし、パディング画像またはその水平フリップから32×32クロップをランダムにサンプリングする。
訳抜け防止モード: ピクセルは左右にパディングされます 32x32の収穫物は パッド画像や水平フリップからランダムにサンプリングされます
0.83
We use batch normalization, no drop-out and weight initialization as He et al [2015]. he et al [2015]のように、バッチ正規化、ドロップアウト、ウェイト初期化は使用しません。 0.54
We use softmax as classifier. 分類にはSoftmaxを使用します。 0.61
We experiment with VGG [Simonyan and Zisserman, 2015] and ResNet [He et al , 2016] architectures. VGG [Simonyan and Zisserman, 2015] と ResNet [He et al , 2016] アーキテクチャを実験した。 0.79
For iterative training of VGG architectures, we train for 150 epochs per layer. VGGアーキテクチャの反復的なトレーニングでは、1層あたり150エポックのトレーニングを行います。 0.64
For iterative training of ResNet-20 architecture, we train for 50 epochs per layer. ResNet-20アーキテクチャの反復的なトレーニングでは、レイヤ毎に50のエポックをトレーニングします。 0.55
Same as the original paper, we reduce learning rate by a factor 10 twice, once at 1000 epochs and a second time at 1100 epochs. 原論文と同様,1000エポックで1回,1100エポックで2回,学習率を10倍に下げる。 0.54
Then stop training at 1200 epochs. そして1200エポックでトレーニングを中止します。 0.63
Using same methodology as MNIST experiments, for all cases, we use the validation set to tune the learning rate and test set to report errors. mnistの実験と同じ手法で、あらゆるケースで検証セットを使用して学習率とテストセットをチューニングし、エラーを報告します。 0.64
Table 1 reports other hyper-parameters. 表1は他のハイパーパラメータを報告します。 0.52
For VGG architecture, we study a shallower, Vgg-5, and a deeper network, Vgg-9. VGGアーキテクチャでは、より浅いVgg-5と深いネットワークであるVgg-9を研究する。 0.84
As their names suggest, Vgg-5 has 5 layers and Vgg-9, 9. 彼らの名前が示すように、Vgg-5は5つの層を持ち、Vgg-9,9である。 0.53
Figure 2 shows test errors for Vgg-5 and Vgg-9 networks. 図2は、Vgg-5とVgg-9ネットワークのテストエラーを示しています。 0.56
The float case is training where all weights are in floating-point precision and stay so. フロートケースは、すべての重量を浮動小数点精度で保持する訓練である。 0.77
The binary case (baseline) is training where all weights are binarized from the start. バイナリケース(ベースライン)は、すべてのウェイトが最初からバイナリ化されるトレーニングです。 0.67
The forward case is training where layer binarization is in the forward order, the reverse in the reverse order and the random case, a randomly selected order. フォワードケースは、層バイナライゼーションが前順、逆順、ランダムケースがランダムに選択された順であるように訓練する。
訳抜け防止モード: フォワードケースは、レイヤのバイナリ化がフォワードオーダーにあるトレーニングです。 逆順序とランダムケースの逆は、ランダムに選択された順序である。
0.65
For both network architectures, the binary case has the highest error and the float case the lowest error. 両方のネットワークアーキテクチャにおいて、バイナリケースは最もエラーが多く、floatケースは最もエラーが少ない。 0.71
In the same pattern as the larger MNIST network, starting from partial binary weight networks, iterative training finds full binary weight networks that have lower error than the binary cases. より大規模なMNISTネットワークと同じパターンで、部分二分重ネットワークから始まる反復トレーニングは、二分重ネットワークよりもエラーが少ない完全二分重ネットワークを見つける。 0.75
For Vgg-5, a shallower network, the ascending error ranking is reverse, forward then random. より浅いネットワークであるVgg-5では、上昇エラーランキングは逆、前方、ランダムである。 0.73
For Vgg-9, a deeper network, the ranking is forward, random then reverse. より深いネットワークであるVgg-9では、ランキングは前方、ランダム、そして逆である。 0.71
This shows again that layer binarization order matters. これは、層バイナライゼーションの順序が重要であることを示す。 0.39
The error improvement of upgrading to Vgg-9 from Vgg-5 is summarized in Table 3. Vgg-5からのVgg-9へのアップグレードの誤差改善は表3にまとめられている。 0.71
There is a small improvement for the binary case. バイナリケースには小さな改善点がある。 0.59
The float case has a significantly higher improvement than binary. フロートケースはバイナリよりも大幅に改善されている。 0.66
Next higher is the reverse case. 次は逆の場合である。 0.58
Finally, the forward case has the highest improvement. 最後に、フォワードケースが最も改善されている。 0.66
In the same pattern as in the MNIST experiments, favoring iterative training and the forward order. MNIST実験と同じパターンで、反復的なトレーニングと前方順が好まれる。 0.60
As shown in Table 1, although Vgg-9 has a smaller number of weight parameters than Vgg-5, it has more layers. 表1に示すように、Vgg-9は重量パラメータがVgg-5より少ないが、より多くの層を持つ。 0.78
Iterative training continues to be beneficial. 反復訓練は引き続き有益である。 0.70
We hypothesize that this is due to a more gradual rate of total binarization. これは、より漸進的な全双対化の速度によるものであると仮定する。 0.50
For Vgg-9, as each layer is binarized, relatively more weights stay in floating-point precision to compensate for the random noise injected by the binarization operation. vgg-9では、各層が双対化されているため、比較的多くの重みが浮動小数点精度に留まり、双対化操作によって注入されるランダムノイズを補償する。
訳抜け防止モード: Vgg-9の場合、各層が二項化されているため、相対的に重みが浮動小数点精度に留まる バイナライズ操作によるランダムノイズの補償。
0.67
For an even deeper network, we study ResNet-20 from He et al [2016], which has 20 layers, as its name suggests. さらに深いネットワークでは、名前が示すように、20層を持つHe et al [2016]からResNet-20を調査します。 0.83
Figure 3 shows test errors for the ResNet-20 network. 図3はResNet-20ネットワークのテストエラーを示しています。 0.68
The binary case has the highest error and the float case has the lowest error. バイナリケースが最もエラーが多く、フロートケースが最もエラーが少ない。 0.61
In the same pattern as other network architectures, iterative training finds full binary weight networks that have lower error than the binary case. 他のネットワークアーキテクチャと同じパターンで、反復的なトレーニングは、バイナリケースよりもエラーが少ない完全なバイナリ重みネットワークを見つける。 0.74
In increasing error order is forward, random and reverse. エラー順序の増加は前方、ランダム、逆である。 0.74
Again, showing もう一度 ご覧ください 0.55
5 0250500750Epochs0.15 0.200.250.300.350.40 ErrorFloatBinaryForw ardReverseRandom0500 1000Epochs0.050.100. 150.200.250.30ErrorF loatBinaryForwardRev erseRandom 5 0250500750Epochs0.15 0.200.250.350.350Err orFloatBinaryForward ReverseRandom0500100 0Epochs0.050.100.150 .200.250.30ErrorFloa tForwardReverseRando m 0.22
英語(論文から抽出)日本語訳スコア
Iterative Training: Finding Binary Weight Deep Neural Networks with Layer Binarization 反復学習:層二元化による二元重みニューラルネットワークの探索 0.75
Figure 3: Left: Test errors for ResNet-20 network. 図3: 左: ResNet-20ネットワークのテストエラー。 0.88
Right: Zoom to final epochs. 右:最後のエポックまで拡大。 0.69
Learning rate is reduced by 10x at 1000 and again at 1100 epochs. 学習率は1000で10倍減少し、1100エポックで再び低下する。 0.77
Figure 4: Left: Test errors for Vgg-5 network. 図4: 左: Vgg-5ネットワークのテストエラー。 0.87
Right: Test errors for Vgg-9 network. 右: vgg-9ネットワークのテストエラー。 0.84
Ascending and descending orders are chosen by sensitivity pre-training. 昇降順序は、感度事前訓練によって選択される。 0.59
that the order of binarization matter and the forward order has advantage. 二項化の順序と 前方の順序が有利だということです 0.69
In the next section, we propose a sensitivity pre-training to select a binarization order. 次に,二元化順序を選択するための感度事前学習を提案する。 0.64
3 Sensitivity Pre-training In prior sections we demonstrated empirically that starting from a partial binary weight network results in higher accuracy than starting from a fully binary weight one for larger and deeper networks. 3 感度事前学習 以前のセクションでは、部分二分重みネットワークから始めると、より大きく深いネットワークのための完全二分重みネットワークから始めるよりも高い精度が得られることを示した。 0.68
In this section, we describe the proposed sensitivity pre-training to choose a the binarization order. 本稿では,2値化順序を選択するための感度事前学習について述べる。 0.62
For shallower neural networks like the 3-layer fully connected networks for the MNIST dataset, exhaustive search for the best binarization order is possible. MNISTデータセットの3層完全連結ネットワークのような浅層ニューラルネットワークでは、最適な二項化順序を徹底的に探索することが可能である。 0.71
For deeper neural networks such as Vgg-5, Vgg-9 and Resnet-20, it is impractical to do so, as shown by order count in Table 1. Vgg-5、Vgg-9、Resnet-20のようなより深いニューラルネットワークでは、表1の順序数で示すように、それを実行できない。 0.71
However, we can obtain a measure of error sensitivity to layer quantization. しかし,層量子化に対する誤差感度の測定は可能である。 0.81
Then let the sensitivity be a guide for binarization ordering. 次に、感度を二項化順序付けのガイドとする。 0.65
Sensitivity is computed as follows. 感度は次のように計算される。 0.57
We train L models, where in each model only the weights of the L-th layer is binarized while others are in floating-point precision. 各モデルにおいてL層の重みのみを二項化し、他のモデルは浮動小数点精度でLモデルを訓練する。 0.76
We train for K epochs and, as before, use validation set to tune the learning rate to get the best validation error for each sensitivity model. 我々はkエポックのトレーニングを行い、以前と同様に検証セットを使用して学習率をチューニングし、各感度モデルで最高の検証誤差を得る。 0.69
K for Vgg-5 is 200 and for Vgg-9 is 450. KはVgg-5は200、Vgg-9は450である。 0.74
K for ResNet-20 is 300. K for ResNet-20 は 300 である。 0.72
For ResNet, same as the original paper, we reduce learning rate by 10 twice, one at epoch 200 and again at epoch 250. 原論文と同じResNetでは,1回はエポック200,もう1回はエポック250の学習率を10倍に削減しています。 0.68
Then we rank these L best validation errors in ascending order. 次に、これらのLの最良の検証誤差を昇順でランク付けする。 0.56
This becomes the ascending layer binarization order for iterative training. これは反復トレーニングの上昇層二乗化順序となる。 0.69
During iterative training using ascending order, the layer that had the lowest error will be binarized first, while the layer that had the highest error last, meaning the latter stays in floating-point precision the longest during training. 昇順を用いた反復訓練では、最も低い誤差の層がまず二項化され、最も高い誤差の層が最後となるため、後者は訓練中に最長の浮動小数点精度に留まる。 0.72
As shown in Figure 4 for Vgg-5 and Vgg-9, the ascending order results in a fully binary weight network with the lowest error, beating the forward ones. Vgg-5 と Vgg-9 の図 4 に示すように、昇順は最小誤差の完全な二分重みネットワークとなり、前方のネットワークを圧倒する。 0.74
Also shown is the descending order, which is the reverse of the ascending one. また、下降順であり、上降順の逆である。 0.53
For both 6 05001000Epochs0.00.2 0.40.60.8ErrorFloatB inaryForwardReverseR andom105011001150120 0Epochs0.10.20.30.4E rrorFloatBinaryForwa rdReverseRandom02505 00750Epochs0.160.180 .200.220.240.260.28E rrorForwardReverseAs cendDescendRandom050 01000Epochs0.080.090 .100.110.120.130.14E rrorForwardReverseAs cendDescendRandom 二人とも 6 05001000Epochs0.00.2 0.40.60.8ErrorFloatB inaryForwardReverseR andom105011001150120 0Epochs0.10.20.30.4E rrorFloatBinaryForwa rdReverseRandom02507 50Epochs0.160.180.20 0.220.240.260.28Erro rForwardReverseAscen dDescendRandom050010 00Epochs0.080.090.10 0.110.120.130.130.14 ErrorForwardReverseA scendDescendRandom 0.29
英語(論文から抽出)日本語訳スコア
Iterative Training: Finding Binary Weight Deep Neural Networks with Layer Binarization 反復学習:層二元化による二元重みニューラルネットワークの探索 0.75
Figure 5: Left: Test errors for Resnet-20 network. 図5: 左: Resnet-20ネットワークのテストエラー。 0.87
Right: Zoom to final epochs. 右:最後のエポックまで拡大。 0.69
Ascending and descending orders are chosen by sensitivity pre-training. 昇降順序は、感度事前訓練によって選択される。 0.59
Figure 6: Left: Test errors for ResNet-21 network. 図6: 左: ResNet-21ネットワークのテストエラー。 0.88
Right: Zoom to final epochs. 右:最後のエポックまで拡大。 0.69
Ascending order are chosen by sensitivity pre-training. 昇順は感度事前訓練によって選択される。 0.58
networks, the descending order results in error higher than ascending, showing again that binarization order matters. ネットワークでは、下降順序は上昇よりも誤差が高く、二項化順序が重要であることを示す。
訳抜け防止モード: ネットワーク 降下順は 上昇よりも誤差が高い バイナライゼーションの順序が重要なことを また示します
0.69
In the case of Vgg-5, the random order is worst while descending one follows closely behind. Vgg-5の場合、ランダムな順序は最悪であり、降下する順は後続する。 0.79
In the case of Vgg-9, the descending one is the worst of all. Vgg-9の場合、下降するものが最悪です。 0.63
In short, the lower the error for one order, the higher its reverse order would be. つまり、1つの順序の誤差が低ければ低いほど、その逆の順序は高くなる。 0.76
For ResNet-20, Figure 5 shows the test errors with ascending and descending orders. resnet-20では、図5が昇降順でテストエラーを示しています。 0.69
Unlike for Vgg-5 and Vgg-9, the forward order reaches accuracy better than both ascending and descending orders. vgg-5やvgg-9とは異なり、前方の順は上下の順よりも精度が良い。 0.68
The proposed sensitivity pre-training considers binarization of layers independently. 提案する感度事前学習は,レイヤの2値化を独立に考慮する。 0.39
We hypothesize that there may be interactions between multiple layers. 複数の層の間に相互作用があると仮定する。 0.69
For ImageNet, we experiment with ResNet-18 He et al [2016]. ImageNetについては、ResNet-18 He et al [2016]で実験します。 0.73
Since it has 21 layers, we will refer to it as ResNet-21. 21のレイヤがあるので、ResNet-21と呼びます。 0.70
The optimizer is SGD with momentum 0.9 and weight decay 1e-4. 最適化器は、運動量0.9と重量減衰1e-4のSGDである。 0.49
For sensitivity pre-training, K is 20 epochs. 感度事前トレーニングでは、Kは20エポックである。 0.55
For each layer, we sweep 3 learning rates and use the last-epoch errors of the test set to choose the ascending order. 各層について、3つの学習率をスイープし、テストセットの最後の反復エラーを使用して、昇順を選択する。 0.65
In the full training, we choose 2 epochs per layer. フルトレーニングでは、レイヤ毎に2つのエポックを選択します。 0.46
The starting learning rate, 0.01, comes from the best learning rate in sensitivity pre-training. 開始学習率 0.01 は、感度事前学習において最高の学習率から得られる。 0.76
Same as the orginal paper, we reduce learning rate by 10 twice, after 42 epochs and again after 57 epochs. また,本論文と同様に,42エポック後,57エポック後の学習率を10倍に削減した。 0.64
We stop training after 67 epochs. 67時間後にトレーニングを中止します。 0.59
The floating-point training is just one run, while all other binarization training are from 5 random-seeded runs. 浮動小数点トレーニングは1回のランで、他の2値化トレーニングは5つのランダムシードランから行われる。 0.55
Figure 6 shows the test errors with forward and ascending orders. 図6は、前方および上向きの順序でテストエラーを示す。 0.79
The ascending order has a lower mean error than forward. 昇順は前方よりも平均誤差が低い。 0.57
Both of which are better than binary. どちらもバイナリよりも優れています。 0.72
Again, binarization order matters and ascending order is better than the forward one. 繰り返しますが、二項化順序と昇順は前段よりも優れているのです。 0.64
3.1 Exhaustive Search For shallower neural networks like the 3-layer fully connected network for the MNIST dataset, exhaustive search for the best binarization order is possible. 3.1 徹底探索 MNISTデータセットの3層完全連結ネットワークのような浅層ニューラルネットワークでは、最適な二項化順序を網羅的に探索することが可能である。 0.70
Figure 7 shows result for all combinations of layer binarization order for 300-100-10 and 784-784-10 networks. 図 7 は、300-100-10 と 784-784-10 の層バイナライゼーション順序を全て組み合わせた結果を示している。 0.54
For the former, a smaller network, the ascending order turns out to be same as reverse. 前者の場合、より小さなネットワークでは、上昇順序は逆であることがわかった。 0.70
Errors for all combinations are very close. すべての組み合わせのエラーは非常に近い。 0.80
The best order is not the ascending one, but 132 and 312, both of which are better 最高位は上昇順ではなく、132位と312位である。 0.51
7 05001000Epochs0.1250 .1500.1750.2000.2250 .250ErrorForwardReve rseAscendDescendRand om100010501100115012 00Epochs0.120.130.14 0.150.160.17ErrorFor wardReverseAscendDes cendRandom0204060Epo chs0.30.40.50.60.70. 80.91.0ErrorFloatBin aryForwardAscend5055 6065Epochs0.4500.475 0.5000.5250.5500.575 0.600ErrorFloatBinar yForwardAscend 7 05001000Epochs0.1250 .1500.1750.2000.2250 .250ErrorForwardReve rseDescendRandom1000 1050110011501200Epoc hs0.120.130.140.160. 17ErrorForwardDescen dRandom0204060Epochs 0.30.40.50.60.70.80. 91.0ErrorFloatBinary ForwardAscend5055656 5Epochs0.4500.4750.5 000.50.50.50.5500.55 050.600ErrorFloatBin aryForwardAscend 0.22
英語(論文から抽出)日本語訳スコア
Iterative Training: Finding Binary Weight Deep Neural Networks with Layer Binarization 反復学習:層二元化による二元重みニューラルネットワークの探索 0.75
Figure 7: Left: Test errors for 300-100-10 network. 図7: 左: 300-100-10ネットワークのテストエラー。 0.75
Right: Test errors for 784-784-10 network. 右: 784-784-10ネットワークのテストエラー。 0.72
132 means binarization order is layer 1, layer 3 then layer 2. 132は、二項化順序が層1、層3、層2を意味する。 0.65
Forward order is 123. than binary by a small margin. 順は123。 二進法よりも小さなマージンです 0.54
132 means binarization order is layer 1, layer 3 then layer 2. 132は、二項化順序が層1、層3、層2を意味する。 0.65
Thus, also for 300-100-10, starting from partial weight binarization is better than from full weight binarization. したがって, 300-100-10では, 偏重バイナライゼーションは全重バイナライゼーションより優れている。 0.61
For the bigger network, 784-784-10, the ascending order is better than forward and reverse ones. より大きなネットワークである784-784-10では、昇順は前方と逆のネットワークより優れている。 0.68
The descending order is worst of all others. 下降順は他の何よりも最悪だ。 0.77
This is consistent with the results from convolutional networks. これは畳み込みネットワークの結果と一致している。 0.76
Here, the ascending one shares with another in best accuracy. ここで、上昇する側が最善の精度で他の側と共有する。 0.57
In summary, we proposed using sensitivity pre-training as a guide for layer binarization order. 要約すると,層二元化順序のガイドとして感度事前学習の利用を提案する。 0.63
For 784-784-10, Vgg-5, Vgg-9 and ResNet-21, we have shown empircally that better accuracies are achieved. 784-784-10, Vgg-5, Vgg-9, ResNet-21では, 精度の向上が実証された。 0.64
This improvement comes at a cost of pre-training additional L models. この改善には、追加のLモデルを事前訓練するコストがかかる。 0.67
4 Related Work Our work introduces an iterative layer-by-layer quantization training regime. 4 関連作業 本研究は,反復的層別量子化訓練手法を提案する。 0.64
Although we demonstrated the results using weight binarization, the regime is independent of quantization schemes. 重み2乗法を用いて結果を示したが, 量子化法には依存していない。 0.50
We think other schemes, e g , Li et al [2016] (where weights are ternary: -1.0, 0 and 1.0), may yield similar trends. 他のスキーム、eg , Li et al [2016] (重みが3つある場合:-1.0, 0, 1.0) も同様の傾向をもたらすかもしれない。 0.71
Hu et al [2018] transforms weight binarization as a hashing problem. Hu et al [2018] はハッシュ問題としてウェイトバイナライゼーションを変換する。 0.66
Same as ours, their iterative method also operates layer-by-layer, from input layer towards output layer. 私たちのものと同様、反復的手法も入力層から出力層へと層単位で動作します。 0.68
However, they start from a pre-trained network and, after weight quantization without fine-tuning, fine-tune the biases. しかし、それらは事前訓練されたネットワークから始まり、微調整なしで重量量子化した後、バイアスを微調整する。
訳抜け防止モード: しかし、トレーニング済みのネットワークから始まり、 微調整なしでの重量量子化の後 - チューニング, ファイン バイアスを調整しろ
0.57
Ours starts from an untrained network and gradually trains a full binary weight network, which we believe allows the network to adapt to the random noise created by the quantization operation. 我々のネットワークは、訓練されていないネットワークから始まり、徐々に完全な二分重ネットワークを訓練し、量子化演算によって生じるランダムノイズに適応できると考えている。 0.73
In addition, their final weights are not pure binary, but power-of-2 multiples. さらに、最後の重みは純粋なバイナリではなく、2倍のパワーを持つ。 0.57
When constrained to pure binary, they report non-convergence. 純粋なバイナリに制約された場合、非収束を報告します。 0.44
Our iterative training does not require pure binary weights. 我々の反復訓練は純粋な二分重を必要としない。 0.58
For future work, we can binarize using power-of-2 multiples. 今後の作業では、power-of-2の倍数を使ってバイナリ化できます。 0.47
Zhou et al [2017] iterates over both pruning and quantization techniques. Zhou et al [2017]はプルーニングと量子化の両方のテクニックを反復する。 0.71
First, weights are partitioned into two groups. まず、重みは2つのグループに分けられる。 0.65
Then, weights in first group are quantized to power-of-2 multiples or zero. そして、第1群の重みを2の倍数または0の倍数に量子化する。 0.59
Next, weights in the second groups are fine-tuned, while the first group receives no parameter updates. 次に、第2グループ内の重みは微調整され、第1グループはパラメータ更新を受け付けない。 0.70
In the next iteration, some of weights in second group is assigned to the first group. 次のイテレーションでは、第2グループ内のいくつかの重みが第1グループに割り当てられる。 0.76
The process is repeated until all weights are members of the first group. この過程は、全ての重みが最初のグループのメンバーになるまで繰り返される。 0.71
In this partitioning scheme, the first group contains weights from all layers. この分割スキームでは、第一群はすべての層からの重みを含む。 0.64
It is possible to merge both methods because their partitioning is orthogonal to ours. 分割が我々のものと直交するため、両方のメソッドをマージすることは可能である。 0.62
Once weights join the first group, their values stay unchanged for the rest of the fine-tuning. 重みが最初のグループに加わると、その値は細調整の残りの部分で変わらない。 0.69
Because our binarization is based on [Courbariaux et al , 2015], floating-point weights prior to quantization are saved for parameter updates. 我々の双項化は[Courbariaux et al , 2015]に基づいており、量子化前の浮動小数点重みはパラメータ更新のために保存される。 0.63
Thus, during iterative training of later layers, weights of prior layer are allowed to adapt and flip signs. したがって、後層の反復的な訓練の間、前層の重みは適応およびフリップサインが許される。 0.64
However, the disadvantage is more memory are required during training. しかし、トレーニング中により多くの記憶が必要になるという欠点がある。 0.54
In low-rank decompositions and teacher-student network, weights are still in floating-point precision. 低ランクの分解と教師と学生のネットワークでは、重みはまだ浮動小数点精度である。 0.52
For lowrank decomposition, the implementation requires decomposition operation, which is computationally expensive, and factorization requires extensive model retraining to achieve convergence when compared to the original model [Cheng et al , 2018]. 低ランクな分解には計算コストのかかる分解操作が必要であり、分解は元のモデル(Cheng et al , 2018)と比較して収束を達成するために広範囲なモデル再訓練を必要とする。 0.61
Similarly, due to iterative nature of our proposed training regime, training time is also lengthened. 同様に、提案する訓練体制の反復的な性質により、訓練時間も延長される。 0.71
8 300400Epochs0.0200.0 220.0240.0260.028Err orBinaryFor/DesRev/A sc132213231312300400 Epochs0.0140.0160.01 80.0200.022ErrorBina ryForRev132Des (213)231Asc (312) 8 300400Epochs0.0200.0 220.0240.026ErrorBin aryFor/DesRev/Asc132 2132323300Epochs0.01 40.0160.0180.0200.02 2ErrorBinaryForRev13 2Des (213)231Asc (312) 0.28
英語(論文から抽出)日本語訳スコア
Iterative Training: Finding Binary Weight Deep Neural Networks with Layer Binarization 反復学習:層二元化による二元重みニューラルネットワークの探索 0.75
5 Conclusions and Further Work 5 結論と更なる作業 0.74
In this work, we proposed a simple iterative training that gradually trains a partial binary weight network to a full binary weight network layer-by-layer. 本研究では,2次重みネットワークを2次重みネットワーク層に段階的にトレーニングする簡単な反復学習を提案する。 0.69
We showed empirically that this regime results in higher accuracy than starting training from a fully binarized weight network. 実験の結果,完全二元化重みネットワークからのトレーニング開始よりも精度が高いことがわかった。 0.70
The order of layer binarization matters. 層二元化の順序が問題となる。 0.59
We show empircally that, for larger and deeper neural networks, the forward order achieves better accuracies than other binarization orders. より大きく深いニューラルネットワークでは、前方順は他の双項化命令よりも精度が良いことを実証的に示す。 0.63
We proposed a sensitivity pre-training for selection of binarization order. 双対化順序の選択のための感度事前学習を提案する。 0.61
For 784-784-10, Vgg-5, Vgg-9 and ResNet-21, this guided order achieve better accuracies than the forward order. 784-784-10、Vgg-5、Vgg-9、ResNet-21では、この誘導順序は前方よりも精度が高い。 0.56
Iterative training has a cost, which is lengthened training. 反復訓練にはコストがかかり、訓練が延長される。 0.67
This trade-off may be acceptable in many applications where pre-trained models are deployed, because efficiency in only forward propagation is needed. このトレードオフは、事前トレーニングされたモデルがデプロイされる多くのアプリケーションで許容される可能性がある。 0.55
A binary weight neural network dramatically reduces computation complexity, memory footprint and, thus, increases energy efficiency. 二重項ニューラルネットワークは計算複雑性、メモリフットプリントを大幅に削減し、それによってエネルギー効率が向上する。
訳抜け防止モード: 二重ニューラルネットワークは計算複雑性とメモリフットプリントを大幅に削減する ですから エネルギー効率を高めます
0.79
For future work, we would like to understand analytically why layer quantization works and the optimal quantization order. 今後の研究のために、なぜ層量子化が機能するのか、そして最適な量子化順序を解析的に理解したい。
訳抜け防止モード: 今後の仕事には 層量子化が機能する理由と 最適な量子化順序を解析的に理解するためです
0.76
References Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. 参照: Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun。 0.69
Deep Residual Learning for Image Recognition. 画像認識のための深い残差学習 0.78
In 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 770–778. 2016年 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 770–778頁。 0.60
IEEE, 2016. 2016年、IEEE。 0.61
Kaiming He, Georgia Gkioxari, Piotr Dollar, and Ross Girshick. カイミング・彼、ジョージア・グキオサリ、ピョートル・ドル、ロス・ガーシック。 0.48
Mask R-CNN. In 2017 IEEE International Conference on Computer Vision (ICCV), pages 2980–2988. マスクR-CNN。 2017年、IEEE International Conference on Computer Vision (ICCV)、2980-2988頁。 0.71
IEEE, oct 2017. IEEE、2017年。 0.78
ISBN 978-1-5386-1032-9. ISBN 978-1-5386-1032-9。 0.37
doi:10.1109/ICCV.201 7.322. doi:10.1109/iccv.201 7.322。 0.23
Liang-chieh Chen, Yukun Zhu, George Papandreou, Florian Schroff, and Hartwig Adam. Liang-chieh Chen、Yukun Zhu、George Papandreou、Florian Schroff、Hartwig Adam。 0.35
Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation. 画像セグメンテーションのための可分分離畳み込みを伴うエンコーダデコーダ 0.68
In European Conference on Computer Vision, pages 833–851, feb 2018. 欧州コンピュータビジョン会議』853-851頁、2018年2月。 0.78
Sergey Zagoruyko and Nikos Komodakis. Sergey Zagoruyko と Nikos Komodakis。 0.81
Wide residual networks. 広範囲のネットワーク。 0.75
In Edwin R. Hancock Richard C. Wilson and William A. P. Smith, editors, Proceedings of the British Machine Vision Conference (BMVC), pages 87.1–87.12. Edwin R. Hancock Richard C. Wilson and William A. P. Smith, editors, Proceedings of the British Machine Vision Conference (BMVC), page 87.1–87.12。
訳抜け防止モード: エドウィン・R・ハンコック・リチャード・C・ウィルソンとウィリアム・A・P・スミス。 編集者、英国機械ビジョン会議(BMVC)の主催者。 87.1-87.12頁。
0.55
BMVA Press, September 2016. bmva、2016年9月。 0.62
ISBN 1-901725-59-6. ISBN 1-901725-59-6。 0.23
doi:10.5244/C.30.87. doi:10.5244/c.30.87。 0.26
Yu Cheng, Duo Wang, Pan Zhou, and Tao Zhang. ユー・チェン、デュオ・ワン、パン・周、タオ・チャン。 0.36
A Survey of Model Compression and Acceleration for Deep Neural 深層神経のモデル圧縮と加速度に関する研究 0.73
Networks. IEEE Signal Processing Magazine, 35(1):126–136, 2018. ネットワーク。 IEEE Signal Processing Magazine, 35(1):126–136, 2018 0.61
Matthieu Courbariaux, Yoshua Bengio, and Jean-Pierre David. Matthieu Courbariaux、Yoshua Bengio、Jean-Pierre David。 0.40
BinaryConnect: Training Deep Neural Networks with BinaryConnect: ディープニューラルネットワークのトレーニング 0.77
binary weights during propagations. In Neural Information Processing Systems, nov 2015. 伝播中の二分重 Neural Information Processing Systems, nov 2015 (英語) 0.71
Mark Horowitz. マーク・ホロウィッツ 0.56
1.1 Computing’s energy problem (and what we can do about it). 1.1 コンピューティングのエネルギー問題(そしてそれについて何ができるか)。 0.84
In 2014 IEEE International Solid-State Circuits Conference Digest of Technical Papers (ISSCC), pages 10–14. 2014年、ieee international solid-state circuits conference digest of technical papers (isscc) 10-14ページ。 0.77
IEEE, feb 2014. IEEE、2014年。 0.64
ISBN 978-1-4799-0920-9. ISBN 978-1-4799-0920-9。 0.18
doi:10.1109/ISSCC.20 14.6757323. doi:10.1109/isscc.20 14.6757323 0.12
Fengfu Li, Bo Zhang, and Bin Liu. Fengfu Li、Bo Zhang、Bin Liu。 0.66
Ternary Weight Networks. 三元重みネットワーク 0.51
In NIPS 2016, 1st International Workshop on Efficient nips 2016第1回国際効率的ワークショップに参加して 0.51
Methods for Deep Neural Networks, 2016. ディープニューラルネットワークの手法 - 2016年。 0.72
Itay Hubara, Matthieu Courbariaux, Daniel Soudry, Ran El-Yaniv, and Yoshua Bengio. Itay Hubara、Matthieu Courbariaux、Daniel Soudry、Ran El-Yaniv、Yoshua Bengio。 0.37
Binarized neural networks. バイナリニューラルネットワーク。 0.56
In D. Lee, M. Sugiyama, U. Luxburg, I. Guyon, and R. Garnett, editors, Advances in Neural Information Processing Systems, volume 29. D. Lee, M. Sugiyama, U. Luxburg, I. Guyon, R. Garnett, editors, Advances in Neural Information Processing Systems, Volume 29。
訳抜け防止モード: D. Lee, M. Sugiyama, U. Luxburg, I. Guyon 編集長のR. Garnett氏, ニューラル情報処理システムの進歩 巻29。
0.78
Curran Associates, Inc., 2016. curran associates, inc.、2016年。 0.57
Shuchang Zhou, Yuxin Wu, Zekun Ni, Xinyu Zhou, He Wen, and Yuheng Zou. 周周、ウーユキシン、ゼクンに、新遊周、ヘ・ウェン、ユーヘン・ゾウ。 0.49
DoReFa-Net: Training Low Bitwidth DoReFa-Net: 低ビット幅のトレーニング 0.64
Convolutional Neural Networks with Low Bitwidth Gradients, Jun 2016. ビット幅勾配の低い畳み込みニューラルネットワーク,jun 2016 0.65
Shuang Wu, Guoqi Li, Feng Chen, and Luping Shi. 周武(しゅうぐん)、広義理(ぐっきり)、風陳(ふんちん)、林子(りんし)。 0.31
Training and Inference with Integers in Deep Neural Networks. ディープニューラルネットワークにおける整数を用いたトレーニングと推論 0.68
In International Conference on Learning Representations, pages 1–14, feb 2018. 院 英語) international conference on learning representations, 1–14ページ、2018年2月。 0.55
Yann Lecun, Léon Bottou, Yoshua Bengio, and Patrick Haffner. Yann Lecun、Léon Bottou、Yoshua Bengio、Patrick Haffner。 0.33
Gradient-based learning applied to document 文書への勾配学習の適用 0.73
recognition. volume 86, pages 2278–2324, 1998. 認識 巻86、2278-2324、1998年。 0.55
Alex Krizhevsky. アレックス・クリゾフスキー 0.49
Learning Multiple Layers of Features from Tiny Images. 小さな画像から複数の特徴の層を学ぶこと。 0.74
Technical report, 2009. 技術報告、2009年。 0.65
Olga Russakovsky, Jia Deng, Hao Su, Jonathan Krause, Sanjeev Satheesh, Sean Ma, Zhiheng Huang, Andrej Karpathy, Aditya Khosla, Michael Bernstein, Alexander C. Berg, and Li Fei-Fei. Olga Russakovsky, Jia Deng, Hao Su, Jonathan Krause, Sanjeev Satheesh, Sean Ma, Zhiheng Huang, Andrej Karpathy, Aditya Khosla, Michael Bernstein, Alexander C. Berg, Li Fei-Fei 0.41
ImageNet Large Scale Visual Recognition Challenge. imagenet 大規模視覚認識チャレンジ。 0.66
In International Journal of Computer Vision (IJCV), volume 115, pages 211–252, 2015. international journal of computer vision (ijcv), volume 115, pages 211–252, 2015 (英語) 0.83
doi:10.1007/s1126301 5-0816-y. 10.1007/s11263015-08 16-y。 0.14
Adam Paszke, Sam Gross, Francisco Massa, Adam Lerer, James Bradbury, Gregory Chanan, Trevor Killeen, Zeming Lin, Natalia Gimelshein, Luca Antiga, Alban Desmaison, Andreas Kopf, Edward Yang, Zachary DeVito, Martin Raison, Alykhan Tejani, Sasank Chilamkurthy, Benoit Steiner, Lu Fang, Junjie Bai, and Soumith Chintala. Adam Paszke, Sam Gross, Francisco Massa, Adam Lerer, James Bradbury, Gregory Chanan, Trevor Killeen, Zeming Lin, Natalia Gimelshein, Luca Antiga, Alban Desmaison, Andreas Kopf, Edward Yang, Zachary DeVito, Martin Raison, Alykhan Tejani, Sasank Chilamkurthy, Benoit Steiner, Lu Fang, Junjie Bai, Soumith Chintala
訳抜け防止モード: アダム・パスケ サム・グロス フランシスコ・マッサ アダム・レラー ジェームズ・ブラッドベリー グレゴリー・チャナン トレヴァー・キリーン ゼミング・リン natalia gimelshein, luca antiga, alban desmaison, andreas kopf, エドワード・ヤン ザカリー・デヴィト マーティン・レイソン アリカン・テジャニ sasank chilamkurthy, benoit steiner, lu fang, junjie bai, そして すみとちんたら。
0.51
Pytorch: An imperative style, high-performance deep learning library. Pytorch: 命令型で高性能なディープラーニングライブラリです。 0.77
In H. Wallach, H. Larochelle, A. Beygelzimer, H. Wallach, H. Larochelle, A. Beygelzimer 0.44
9 9 0.42
英語(論文から抽出)日本語訳スコア
Iterative Training: Finding Binary Weight Deep Neural Networks with Layer Binarization 反復学習:層二元化による二元重みニューラルネットワークの探索 0.75
F. d'Alché-Buc, E. Fox, and R. Garnett, editors, Advances in Neural Information Processing Systems 32, pages 8024–8035. F. d'Alché-Buc, E. Fox, R. Garnett, editors, Advances in Neural Information Processing Systems 32, page 8024–8035。
訳抜け防止モード: f. d'alché - buc、e. fox、r. garnett。 編集者、神経情報処理システム32、8024-8035ページ。
0.68
Curran Associates, Inc., 2019. curran associates, inc.、2019年。 0.53
Sergey Ioffe and Christian Szegedy. セルゲイ・ヨッフェと クリスチャン・セゲディ 0.47
Batch Normalization: Accelerating Deep Network Training by Reducing Internal バッチ正規化:内部の削減によるディープネットワークトレーニングの高速化 0.69
Covariate Shift. In International Conference on Machine Learning, volume 37, pages 448–456, 2015. 共変量シフト。 機械学習に関する国際会議、第37巻、2015年448-456頁。 0.68
Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. he、xiangyu zhang、shaoqing ren、jian sunの開明。 0.54
Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification. 整流器:imagenetの分類における人間レベルの性能を上回っている。 0.60
In 2015 IEEE International Conference on Computer Vision (ICCV), pages 1026–1034. 2015年、IEEE International Conference on Computer Vision (ICCV) 1026-1034頁。 0.77
IEEE, 2015. 2015年、IEEE。 0.69
Karen Simonyan and Andrew Zisserman. カレン・シモンヤンとアンドリュー・ジッセルマン 0.57
Very Deep Convolutional Networks for Large-Scale Image Recognition. 大規模画像認識のための深層畳み込みネットワーク 0.77
In International Conference on Learning Representations, 2015. 院 2015年、国際学習表象会議。 0.56
Qinghao Hu, Peisong Wang, and Jian Cheng. Qinghao Hu、Peisong Wang、Jian Cheng。 0.65
From Hashing to CNNs: Training Binary Weight Networks via Hashing. ハッシュからcnnへ:ハッシュによるバイナリ重みネットワークのトレーニング。 0.70
In Thirty-Second AAAI Conference on Artificial Intelligence (AAAI-18), pages 3247–3254, 2018. 人工知能に関するAAAI会議(AAAI-18)において、3247-3254, 2018。 0.65
Aojun Zhou, Anbang Yao, Yiwen Guo, Lin Xu, and Yurong Chen. Aojun Zhou, Anbang Yao, Yiwen Guo, Lin Xu, Yurong Chen 0.32
Incremental Network Quantization: Towards Lossless CNNs with Low-Precision Weights. インクリメンタルネットワーク量子化:低精度重み付きロスレスCNNを目指して 0.59
In International Conference on Learning Representations, pages 1–14, feb 2017. 英語) international conference on learning representations, 1–14 page 1–14, feb 2017年2月。 0.59
10 10 0.43
                     ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。