論文の概要、ライセンス

# (参考訳) 群重み変換をもつ二元重み付きネットワークにおける厳密なバックプロパゲーション [全文訳有]

Exact Backpropagation in Binary Weighted Networks with Group Weight Transformations ( http://arxiv.org/abs/2107.01400v1 )

ライセンス: CC BY 4.0
Yaniv Shulman(参考訳) 量子化に基づくモデル圧縮は、精度の高い浮動小数点に対して高い圧縮されたモデルをもたらす推論のための高性能で高速なアプローチとして機能する。 最も極端な量子化はパラメータの 1 ビット表現であり、通常は -1(0) または +1 の 2 つの値しか持たない。 重みをバイナリ値に制限するモデルは、リソース制約付き推論に有用である浮動小数点乗算を必要とせずに、ユビキタスドット製品の実装を効率的に行うことができる。 この研究の主な貢献は、経験的リスク最小化とバックプロパゲーションによって与えられた目的に対する期待損失を最小限に抑えるために、重みの2進ベクトルを決定する組合せ問題を円滑に行う方法の導入である。 これは、実数値連続パラメータの決定論的かつ微分可能な変換を利用して重み付け上の多変量二項状態の近似によって達成される。 提案手法はトレーニングのオーバーヘッドを少なくし、元のアーキテクチャに実質的な変更を加えることなく容易に適用でき、飽和した非線型性や補助的な損失を導入せず、アクティベーションをバイナライズするための他の方法の適用も禁止しない。 文献における一般的な主張とは対照的に、二元重み付きネットワークは、学習率の高い運動量SGDと、正規化の$L_2$の標準最適化手法と、それと同等のハイパーパラメータ設定で、うまくトレーニングすることができる。 ソースコードはhttps://bitbucket.or g/YanivShu/binary_we ighted_networks_publ icで公開されている。

Quantization based model compression serves as high performing and fast approach for inference that yields highly compressed models compared to their full-precision floating point counterparts. The most extreme quantization is a 1-bit representation of parameters such that they have only two possible values, typically -1(0) or +1. Models that constrain the weights to binary values enable efficient implementation of the ubiquitous dot product by additions only without requiring floating point multiplications which is beneficial for resources constrained inference. The main contribution of this work is the introduction of a method to smooth the combinatorial problem of determining a binary vector of weights to minimize the expected loss for a given objective by means of empirical risk minimization with backpropagation. This is achieved by approximating a multivariate binary state over the weights utilizing a deterministic and differentiable transformation of real-valued continuous parameters. The proposed method adds little overhead in training, can be readily applied without any substantial modifications to the original architecture, does not introduce additional saturating non-linearities or auxiliary losses, and does not prohibit applying other methods for binarizing the activations. It is demonstrated that contrary to common assertions made in the literature, binary weighted networks can train well with the same standard optimization techniques and similar hyperparameters settings as their full-precision counterparts, namely momentum SGD with large learning rates and $L_2$ regularization. The source code is publicly available at https://bitbucket.or g/YanivShu/binary_we ighted_networks_publ ic
公開日: Sat, 3 Jul 2021 10:29:34 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
1 2 0 2 l u J 1 2 0 2 l u J 0.85
3 ] G L . 3 ] G L。 0.81
s c [ 1 v 0 0 4 1 0 sc [ 1 v 0 0 4 1 0 0.68
. 7 0 1 2 : v i X r a . 7 0 1 2 : v i X r a 0.85
Draft under review, may contain errors and content may be revisited in subsequent versions. レビュー中のドラフトにはエラーが含まれ、コンテンツはその後のバージョンで再検討される可能性がある。 0.51
Exact Backpropagation in Binary Weighted Networks with Group グループを持つ二元重み付きネットワークにおける厳密なバックプロパゲーション 0.56
Weight Transformations Yaniv Shulman yaniv@aleph-zero.inf o 体重変換 Yaniv Shulman yaniv@aleph-zero.inf o 0.68
Abstract Quantization based model compression serves as high performing and fast approach for inference that yields highly compressed models compared to their full-precision floating point counterparts. 抽象量子化に基づくモデル圧縮は、実精度浮動小数点よりも高い圧縮されたモデルを生成する推論のための高性能で高速なアプローチとして機能する。 0.67
The most extreme quantization is a 1-bit representation of parameters such that they have only two possible values, typically -1(0) or +1. 最も極端な量子化はパラメータの 1 ビット表現であり、通常は -1(0) または +1 の 2 つの値しか持たない。 0.81
Models that constrain the weights to binary values enable efficient implementation of the ubiquitous dot product by additions only without requiring floating point multiplications which is beneficial for resources constrained inference. 重みをバイナリ値に制限するモデルは、リソース制約付き推論に有用である浮動小数点乗算を必要とせずに、ユビキタスドット製品の実装を効率的に行うことができる。 0.70
The main contribution of this work is the introduction of a method to smooth the combinatorial problem of determining a binary vector of weights to minimize the expected loss for a given objective by means of empirical risk minimization with backpropagation. この研究の主な貢献は、経験的リスク最小化とバックプロパゲーションによって与えられた目的に対する期待損失を最小限に抑えるために、重みの2進ベクトルを決定する組合せ問題を円滑に行う方法の導入である。 0.75
This is achieved by approximating a multivariate binary state over the weights utilizing a deterministic and differentiable transformation of real-valued continuous parameters. これは、実数値連続パラメータの決定論的かつ微分可能な変換を利用して重み付け上の多変量二項状態の近似によって達成される。 0.61
The proposed method adds little overhead in training, can be readily applied without any substantial modifications to the original architecture, does not introduce additional saturating non-linearities or auxiliary losses, and does not prohibit applying other methods for binarizing the activations. 提案手法はトレーニングのオーバーヘッドを少なくし、元のアーキテクチャに実質的な変更を加えることなく容易に適用でき、飽和した非線型性や補助的な損失を導入せず、アクティベーションをバイナライズするための他の方法の適用も禁止しない。 0.70
It is demonstrated that contrary to common assertions made in the literature, binary weighted networks can train well with the same standard optimization techniques and similar hyperparameters settings as their full-precision counterparts, namely momentum SGD with large learning rates and L2 regularization. 文献における一般的な主張とは対照的に、二元重み付きネットワークは、学習率の高い運動量SGDやL2正規化など、完全精度のものと同一の標準最適化手法と類似したハイパーパラメータ設定でうまくトレーニングできる。 0.66
To conclude experiments demonstrate the method performs remarkably well across a number of inductive image classification tasks with various architectures compared to their full-precision counterparts. 結論として,本手法は,様々なアーキテクチャを用いた帰納的画像分類タスクにおいて,精度の高い性能を示す。 0.72
The source code is publicly available at https://bitbucket.or g/YanivShu/binary_we ighted_networks_publ ic. ソースコードはhttps://bitbucket.or g/YanivShu/binary_we ighted_networks_publ icで公開されている。 0.43
英語(論文から抽出)日本語訳スコア
1. Introduction Contemporary artificial neural networks (ANN) have achieved state-of-the-art results in a multitude of learning tasks. 1. はじめに 現代の人工知能ニューラルネットワーク(ANN)は、数多くの学習タスクにおいて最先端の結果を得た。 0.67
Often these models include millions of parameters which form dense structures enabling efficient parallel computing by utilising specialized software and hardware. これらのモデルには数百万のパラメータが含まれており、特別なソフトウェアやハードウェアを利用することで効率的な並列計算を可能にする。 0.54
However the dependency of these models on substantial hardware resources limits their utility on resource constrained hardware such as mobile and low power embedded devices. しかし、これらのモデルのハードウェアリソースへの依存は、モバイルや低消費電力の組み込みデバイスのようなリソース制約のあるハードウェアへのユーティリティを制限する。 0.70
One approach to reduce computational resources is model compression that transforms an initial cumbersome architecture into a more efficient architecture that require less space and compute resources while minimizing performance loss to an acceptable degree. 計算資源を減らす一つのアプローチはモデル圧縮であり、初期の厄介なアーキテクチャをより効率的なアーキテクチャに変換し、少ないスペースと計算リソースを必要とする一方で、パフォーマンスの損失を許容できる程度に最小化する。 0.73
Model compression is typically achieved by reducing the number of parameters in the model and/or by quantizing the parameters and activations so that they use less bits to encode the data flowing through the network. モデル圧縮は通常、モデル内のパラメータの数を減らしたり、パラメータやアクティベーションを定量化して、ネットワークを流れるデータをエンコードするためにより少ないビットを使用するようにすることで実現される。 0.79
There are many approaches suggested for reducing the number of parameters including weight pruning [14], architecture learning [36], distilling knowledge [16], structured pruning [38] and L0 regularization [26, 34]. 重み付きプルーニング[14], アーキテクチャ学習[36], 蒸留知識[16], 構造化プルーニング[38], l0正規化[26, 34]など, パラメータの数を減らすための多くのアプローチが提案されている。 0.86
The intersted reader is referred to [5, 9] for recent reviews. 最近のレビューでは、intersted readerを[5, 9]と呼ぶ。 0.80
Quantization based model compression serves as high performing and fast approach for inference that yields highly compressed models compared to their full-precision floating point counterparts. 量子化に基づくモデル圧縮は、精度の高い浮動小数点に対して高い圧縮されたモデルをもたらす推論のための高性能で高速なアプローチとして機能する。 0.63
The most extreme quantization is a 1-bit representation of parameters and activations such that they have only two possible values, typically -1(0) or +1. 最も極端な量子化はパラメータとアクティベーションの 1 ビット表現であり、通常は -1(0) または +1 の2つの値しか持たない。 0.80
An ANN that is restricted to binary representations is typically known as a Binary Neural Network (BNN). バイナリ表現に制限されたANNは通常、バイナリニューラルネットワーク(BNN)として知られている。 0.74
Models that constrain the weights to binary values enable efficient implementation of the ubiquitous dot product by additions only without requireing floating point multiplications. 重みをバイナリ値に制約するモデルは、浮動小数点乗算を必要とせずに、追加によってユビキタスドット積を効率的に実装できる。 0.62
Furthermore networks which restrict both weights and activations to binary values enable significant computational acceleration in inference by utilizing highly efficient bitwise XNOR and Bitcount operations that can be further optimized in specilaized hardware. さらに、重みとアクティベーションの両方をバイナリ値に制限するネットワークは、より効率的なビットワイドXNORとビットカウント演算を利用して推論において大きな計算加速を可能にする。 0.72
Therefore these models are an attractive alternative to full-precision ANNs where power efficiency and constrained compute resources are important considerations [29, 10, 31, 35]. したがって、これらのモデルは、電力効率と制約付き計算資源が重要な考慮事項である[29, 10, 31, 35]フル精度アンの魅力的な代替品である。 0.67
Another compelling approach is to binarize only parts of the network that benefit the most from the quantization and keep other layers at high precision. もう1つの説得力のあるアプローチは、量子化の恩恵を受けるネットワークの一部のみをバイナリ化し、他の層を高精度に保つことである。 0.57
In fact most proposed BNNs use partial binarization since typically at least the fully connected output layer and the first convolution layer weights are kept at a higher precision [35, 29]. 実際、ほとんどのbnnは、少なくとも完全連結出力層と第1畳み込み層重みを高い精度[35,29]で保持するため、部分二元化を用いる。 0.63
Additional examples include retaining the parameters of the batch normalization layers at high precision [41], apply a scaling factor to the binary weights [31, 6, 27, 33] or floating point parametrized activations [7, 27]. その他の例として、バッチ正規化層のパラメータを高精度に保持する[41]、バイナリ重み[31, 6, 27, 33]または浮動小数点パラメトリケーション[7, 27]にスケーリング係数を適用する[7, 27]などがある。 0.80
Many learning algorithms and in particular neural networks typicaly employ gradient-based optimizers such as the Backpropagation algorithm [32]. 多くの学習アルゴリズム、特にニューラルネットワークは、バックプロパゲーションアルゴリズム[32]のような勾配に基づく最適化を採用している。 0.68
Models that are designed to have a continuous relationship between parameters and the training objective enable the computation of exact gradients which in turn enable efficient optimization [4]. パラメータとトレーニング目的との連続的な関係を持つように設計されたモデルは、正確な勾配の計算を可能にし、結果として効率的な最適化を可能にします[4]。
訳抜け防止モード: パラメータと学習目標との間に連続的な関係を持つように設計されたモデル 効率的な最適化を可能にする正確な勾配の計算を有効にする[4 ]。
0.80
Many of the existing methods in the literature for ANN quantization such as [19, 24, 8, 11, 30] employ non-differntiable quantization techniques that require the use of gradient estimators resulting in divergence between the forward pass and backpropagation and therefore decreased training efficacy [23]. 19,24,8,11,30]のようなアン量子化の文献における既存の方法の多くは、前方通過と後方伝播の相違をもたらす勾配推定器の使用を必要とする非拡散量子化技術を用いており、トレーニング効果は低下している [23]。 0.77
The challenge is then combining discrete valued weights for which the gradient is undefined with the effective backpropagation method for training neural networks. 課題は、勾配が定義されていない離散値重みと、ニューラルネットワークのトレーニングに有効なバックプロパゲーション法を組み合わせることである。 0.61
The main contribution of this work is the introduction of a method to smooth the combinatorial problem of finding a binary vector of weights to minimize the expected loss for a given objective by means of empirical risk minimization with backpropagation. この研究の主な貢献は、バックプロパゲーションによる経験的リスク最小化により、与えられた目的に対する期待損失を最小限に抑えるために重みのバイナリベクトルを見つけるという組合せ問題を円滑にする手法の導入である。 0.76
This is achieved by approximating a multivariate binary state over the weights utilizing a deterministic and differentiable transformation of real-valued continuous parameters. これは、実数値連続パラメータの決定論的かつ微分可能な変換を利用して重み付け上の多変量二項状態の近似によって達成される。 0.61
The proposed method adds little 提案手法はほとんど追加されない 0.57
2 2 0.85
英語(論文から抽出)日本語訳スコア
overhead in training, can be readily applied without any modifications to the original architecture, does not introduce additional saturating non-linearities or auxilary losses and does not prohibit applying other methods for binarizing the activations. トレーニングのオーバーヘッドは、元のアーキテクチャを変更することなく容易に適用でき、追加の飽和した非線形性や補助的な損失を導入せず、アクティベーションをバイナライズするための他の方法を適用することを禁止しない。 0.61
It is demonstrated that contrary to common assertions made in the literature, binary weighted networks can train well with the same standard optimization techniques and similar hyperparameters settings as their full-precision counterparts, namely momentum SGD with large learning rates and L2 regularization [29]. 文献に共通する主張とは対照的に,二分重み付きネットワークは,標準最適化手法と類似のハイパーパラメータ設定を,その全精度条件,すなわち学習率が大きい運動量sgdとl2正規化 [29] でよく訓練できることが実証された。 0.72
To conclude experiments demonstrate little and even a modest gain in accuracy for a number of inductive image classification tasks compared to their full-precision counterparts. 実精度と比較して、多数の帰納的画像分類タスクにおいて、実験の精度が適度に向上することすら少ない。 0.64
The source code is publicly available at https://bitbucket.or g/YanivShu/binary_we ighted_networks_publ ic. ソースコードはhttps://bitbucket.or g/YanivShu/binary_we ighted_networks_publ icで公開されている。 0.43
Note the term differential is used in this paper in the context of training neural networks, i.e. この論文では、ニューラルネットワークのトレーニングの文脈、すなわち、差分という用語が使われている。 0.67
allowing a small number of points where the first order derivatives do not exist. 1階微分が存在しない少数の点を許容する。 0.49
A common example is the use of rectifiers in the calculation graph such as the Relu activation [28]. 一般的な例は、Relu アクティベーション[28]のような計算グラフにおける整流器の使用である。 0.80
2. Proposed method 2.1. 2. 提案方法 2.1. 0.77
Binary group weight transformations Let π ∈ {−1, 1}|π| be the binary valued weights (parameters) of a hypothesis h(·, π) : X → Y such as a binary weighted neural network where|π| denotes the cardinality of π. 二元群重み変換は、π ∈ {−1, 1}|π| を仮定 h(·, π) : x → y の二元値重み(パラメータ)とし、ここで|π| は π の濃度を表す。
訳抜け防止モード: 二元群重み変換は π ∈ { −1, 1}|π| を仮説 h ( ·,) の二元値重み (パラメータ) とする。 π ) : x → y は二元重み付きニューラルネットワークのように、|π| は π の濃度を表す。
0.79
Let D be a training set consisting of N i.i.d. D を N i.i.d からなる訓練集合とする。 0.75
instances {(x1, y1), . インスタンス {(x1, y1), . 0.84
. . , (xN, yN)}. . . , (xN, yN)}。 0.82
The empirical risk R associated with the hypothesis h(·, π) is defined as: 仮説 h(·, π) に付随する経験的リスク r は次のように定義される。 0.71
 N(cid:88) i=1 ※N(出典:88) i=1 0.61
L(cid:0)h(xi; π), yi L(cid:0)h(xi; π) yi 0.90
(cid:1) Rh(π) = (cid:1)。 Rh(π) = 0.79
1 N (1) ∗ = arg min 1N (1) ∗ = arg min 0.83
Rh(π) π π (2) Where π is constrained to take values in {−1, 1} and L : Y × Y → R≥0 is a loss function that measures the discrepancy between the true value yi and the predicted outcome ˆyi = h(xi; π). Rh(π) π π 2) π が {−1, 1} と L : Y × Y → R≥0 の値を取ることが制約されているとき、真の値 yi と予測結果 yi = h(xi; π) との差を測定する損失関数である。 0.86
The goal of the optimization problem is to find π∗ given the hypothesis h and data D for which the empirical risk Rh(π) is minimal. 最適化問題の目標は、仮説hと実験リスクRh(π)が最小となるデータDからπ∗を求めることである。 0.75
Minimizing the objective (1) provably is a hard combinatorial problem with complexity exponential in respect to|π|. 目的 (1) を最小化することは、|π| に関して複雑性が指数関数的なハードコンビネータ問題である。
訳抜け防止モード: 目的 (1 ) の最小化 証明可能は、|π| に関する複雑性指数の難しい組合せ問題である。
0.70
Alternative methods such as gradient based optimization cannot be readily used due to Rh(π) not being differentiable w.r.t. 勾配に基づく最適化のような代替方法は、rh(π) がw.r.t を微分できないため容易には使用できない。 0.63
π. To overcome this challenge a deterministic differentiable relaxation of the hard binary constraints governing π is proposed that enables solving a surrogate minimization problem efficiently and deterministically using common gradient based optimizers. π. この課題を克服するために、π を規定するハードバイナリ制約の決定論的微分可能緩和が提案され、共通勾配に基づくオプティマイザを用いて、サロゲート最小化問題を効率的かつ決定的に解くことができる。 0.69
To enable efficient backpropagation during training the hard constraint of the weights π being exactly binary may be relaxed and replaced with a soft constraint of being approximately one or negative one. トレーニング中の効率的なバックプロパゲーションを可能にするために、重み π の厳密な制約を正確に二分して緩和し、ほぼ1つまたは負の制約に置き換えることができる。 0.66
Let φ ∈ R|π| be a real valued vector and u(·) : R → [−1, 1] be a differential function from the real numbers to the range [−1, 1] e g the hyperbolic tangent tanh(·). φ ∈ R|π| を実値ベクトルとし、u(·) : R → [−1, 1] を実数から超双曲接点 tanh(·) の範囲 [−1, 1] e g への微分函数とする。 0.81
Equations (3) - (7) define a deterministic and differentiable transfor- 方程式 (3) - (7) 決定論的かつ微分可能な超越を定義する- 0.69
mation g(·,·) that maps vectors in R|π| to be approximately binary i.e. R|π| のベクトルをおよそ二進数 i.e に写す mation g(·,·) について。 0.76
g(cid:0)φ, ζ(cid:1) ∈ {w||w| − 1 < } g(cid:0)φ, >(cid:1) ∈ {w||w| − 1 < >} 0.81
3 3 0.85
英語(論文から抽出)日本語訳スコア
for some small  ∈ R. ある小さな s ∈ R に対して。 0.79
w+ = {u(cid:0)φk (cid:1) | u(cid:0)φk w− = {u(cid:0)φk (cid:1) | u(cid:0)φk w+ − ¯w+(cid:17) (cid:16) (cid:16) w− − ¯w−(cid:17) w+ = {u(cid:0)φk (cid:1) | u(cid:0)φk w− = {u(cid:0)φk (cid:1) | u(cid:0)φk w+ − sw+(cid:17) (cid:16) (cid:16) w− − sw−(cid:17) 0.73
w1 = w−1 = w = w1 ∪ w−1 w1 = w−1 = w = w1 > w−1 0.72
e−ζ + 1 e−ζ − 1 e−n + 1 e−n − 1 0.70
(cid:12)(cid:12)(cid :12)φ (cid:1) > 0 , k = 1, . (cid:12)(cid:12)(cid :12)φ (cid:1) > 0 , k = 1 。 0.84
. . , (cid:12)(cid:12)(cid :12)φ (cid:1) ≤ 0 , k = 1, . . . , (cid:12)(cid:12)(cid :12)φ (cid:1) ≤ 0 , k = 1。 0.85
. . , (cid:12)(cid:12)(cid :12)} (cid:12)(cid:12)(cid :12)} . . , (cid:12)(cid:12)(cid :12) (cid:12)(cid:12) 0.87
(3) (4) (5) (3) (4) (5) 0.85
(6) (7) Where φk denotes the k-th element of φ; ¯w+ and ¯w− are the mean of w+ and w− respectively; and ζ ∈ R≥0. (6) (7) ここで φk は φ の k 番目の元を表し、w+ と w− はそれぞれ w+ と w− の平均である。 0.82
The transformation defined by g(·,·) conceptually comprises w of two partitions: w−1 and w1, such that by definition under the assumption that E(w−1) = −1 and E(w1) = 1. g(·,·) で定義される変換は概念的には、E(w−1) = −1 と E(w1) = 1 という仮定の下で定義されるように、2つの分割 w−1 と w1 の w を含む。 0.79
The variance of both w1 and w−1 is controlled by ζ and since k − w+ is exactly binary in the limit when ζ → ∞. w1 と w−1 の分散は、k − w+ が極限においてちょうど二元であるから ∞ で制御される。 0.68
Note the gradient of w w.r.t. w.r.t.の勾配に注意。 0.50
φ is non-degenerate Having defined g(·,·), reconsider the hypothesis h and associated empirical risk Rh following φ は g(·,·) の定義を持つ非退化であり、仮説 h と関連する経験的リスク rh を再考する。 0.77
(cid:12)(cid:12)(cid :12)w+ provided that 2 ≤(cid:12)(cid:12)(cid :12)w1(cid:12)(cid:1 2)(cid:12) ≤|w| − 2 i.e. (cid:12)(cid:12)(cid :12)(cid:12)(cid:12) (cid:12)(cid:12)w1(c id:12)(cid:12)(cid:1 2)≤|w| − 2 i。 0.74
there are at least two members in each of w+ and w−. w+とw−のそれぞれに少なくとも2人のメンバーがいる。 0.72
(cid:12)(cid:12)(cid :12) < 1 and (cid:12)(cid:12)(cid :12) < 1 および 0.78
(cid:12)(cid:12)(cid :12)w1(cid:12)(cid:1 2)(cid:12) > 0 then (cid:12)(cid:12)(cid :12) < 1 it may be set as small as practically useful and therefore w (cid:12)(cid:12)(cid :12)w1(cid:12)(cid:1 2)(cid:12) > 0 ならば (cid:12)(cid:12)(cid :12) < 1 である。 0.75
(cid:12)(cid:12)(cid :12)w−1(cid:12)(cid:12)(ci d:12) > 0 and (cid:12)(cid:12)(cid :12)w−1(cid:12)(cid:12)(ci d:12) > 0 0.72
(cid:12)(cid:12)(cid :12)w− (cid:12)(cid:12)(cid :12)w− 0.72
k − w− l k − w− うーん 0.70
l re-parametrization of π given a partition of π to M subsets π1 , . うーん π は M の部分集合 π1 , に π の分割を与える。 0.60
. . , πM: π = lim . . , πm: π = lim 0.86
ζ→∞ g(cid:0)φ, ζ(cid:1) , ζ→∞Rh(φ, ζ) = lim ζ→∞ g(cid:0) φ, s(cid:1) , s→∞rh(φ, ) = lim ~→∞ 0.81
lim 1 N ∗ = arg min リム 1 N ∗ = arg min 0.64
φ φ π = M(cid:91)  N(cid:88) L(cid:18) ζ→∞Rh(φ, ζ) φ φ π = M(cid:91) ^ N(cid:88) L(cid:18) ^ →∞Rh(φ, φ) 0.83
i=1 lim j=1 i=1 lim j=1 0.65
M(cid:91) (cid:16) M(cid:91) (cid:16) 0.78
j=1 (cid:12)(cid:12)(cid :12) ≥ 2 , (cid:12)(cid:12)(cid :12)π j (cid:19) j=1 (cid:12)(cid:12)(cid :12) ≥ 2 , (cid:12)(cid:12)(cid :12)π j (cid:19) 0.69
(cid:17) π j , φ = (cid:17) π j , φ = 0.82
φ j , h(xi;∪M φ j である。 h (複数形 hs) 0.65
j=1 g φ j, ζ , yi j=1g φ j 意(いい) 0.47
(8) (9) (10) (8) (9) (10) 0.85
The objectives in equations (1) and (9) are equivalent in the limit as ζ → ∞. 方程式 (1) と (9) の目的は、極限の極限において t → ∞ と等価である。 0.75
However for reasonably low values of ζ the formulation in equations (8) - (10) can be used as a differential surrogate to the objective in equation (1) due to replacement of the binary weights π with the smoothed approximate binary weights w. Subsequently this enables the use of gradient based optimizers to find an approximate solution to the original hard combinatorial problem with low quantization error. しかし、方程式 (8) - (10) における定式化は、二元重み π を滑らかな近似二元重み w に置き換えることによって、方程式(1) の目的に対する微分代入として使うことができる。
訳抜け防止モード: しかし、式 (8) - (10 ) の定式化を合理的に低い値にすると、二乗重み π を滑らかな近似二乗重み w に置き換えることにより、方程式 (1 ) の目的に対する微分代用として使うことができる。 量子化誤差の低い元のハード組合せ問題の 近似解を見つけること。
0.59
2.2. Reduction of quantization error with L2 regularization The inclusion of u(·) : R → [−1, 1] in equations (3) and (4) enables theoretical bounds on the divergence of the binarized weights w from ±1 respectively. 2.2. L2正則化による量子化誤差の低減 u(·) : R → [−1, 1] の方程式 (3) と (4) への包含は、それぞれ ±1 から二項化重量 w の発散に関する理論的境界を許容する。 0.76
The inclusion of such non-linearites is a common approach and often the hyperbolic tangent is used for this purpose in training BNNs [7, 27, 13, 21, 30] or the hard tanh and its variants [19, 33]. このような非線型の包含は一般的なアプローチであり、この目的のためにBNN[7, 27, 13, 21, 30]またはハードタンとその変種[19, 33]を訓練するのに、しばしば双曲的タンジェントが用いられる。 0.79
The inclusion of superfluous saturating non-linearities changes the objective in a non-trivial way and slows training as these typically have substantial areas of their domain where gradients are very small or practically zero. 超流動飽和非線形性の導入は、非自明な方法で目標を変更し、勾配が非常に小さいか事実上ゼロである領域のかなりの領域を持つため、トレーニングを遅くする。
訳抜け防止モード: 超流動飽和非線型の包含は、非自明な方法で目的を変化させる 訓練を遅くし これらの領域は概して、勾配が非常に小さいか事実上ゼロである領域である。
0.67
To mitigate these shortcomings it is proposed that in practice the function u(·) : R → [−1, 1] is removed and instead soft constraints are introduced on φ to encourage them to not diverge from each other. これらの欠点を軽減するために、実際には函数 u(·) : R → [−1, 1] は取り除かれ、φ 上でソフト制約が導入され、互いに分岐しないように促される。 0.74
This invalidates the theoretical guarantees about the variance of the positive and negative partitions of w as defined in equations (3) - (7) however it works well in practice and alleviates これにより、方程式 (3) - (7) で定義される w の正および負の分割の分散に関する理論的保証が無効になるが、実際はうまく機能し、緩和する。 0.73
4 4 0.85
英語(論文から抽出)日本語訳スコア
the need to introduce superfluous saturating non-linearities. 超流動飽和非線形性を導入する必要がある。 0.59
All results discussed in subsequent sections do not include any activations or saturating non-linearities added to the original fullprecision architectures in the forward or backward propagation and instead L2 regularization is applied to φ to encourage the full-precision parameters to not diverge far from zero. その後のセクションで議論された全ての結果は、前方または後方の伝播において元の完全精度アーキテクチャに付加された非線型性の活性化や飽和は含まないが、代わりにL2正則化がφに適用され、完全精度パラメータが0から遠く離れないように促される。
訳抜け防止モード: 次のセクションで議論されたすべての結果は、アクティベーションを含まない または、前方または後方の伝播において元の全精度アーキテクチャに追加される非線型性飽和 代わりに l2 正則化は φ に適用される 完全な精度パラメータがゼロから遠く離れないように促す。
0.66
2.3. Progressive binarization 2.3. プログレッシブバイナリ化 0.63
Experimental results demonstrate that it might be beneficial to gradually increase the separation between the quantized values during training by interpolating the binarized weights w and the continuous parameters φ as such: 実験の結果、二元化重み w と連続パラメータ φ を補間することにより、トレーニング中の量子化値の分離を徐々に増加させることが有益であることが示された。 0.69
wα (cid:66) αw + (1 − α) φ = αg(cid:0)φ, ζ(cid:1) + (1 − α) φ  min( wα (cid:66) αw + (1 − α) φ = αg(cid:0)φ, φ(cid:1) + (1 − α) φ > min( 0.91
Tα > 0 Tα = 0 Tα > 0 Tα = 0 0.92
t Tα∗T , 1) t Tα∗T , 1) 0.78
α = 1 (11) α = 1 (11) 0.85
(12) Where t is the training step number; T is the total number of training steps and Tα ∈ [0, 1] is a hyperparameter denoting the fraction of total training steps required for α to reach and remain at 1. (12) t がトレーニングステップ数である場合、T はトレーニングステップの総数であり、Tα ∈ [0, 1] は α が到達して 1 に留まるのに必要なトレーニングステップの分数を表すハイパーパラメータである。 0.86
2.4. Parameter partitioning 2.4. パラメータ分割 0.73
Partitioning the parameters φ is useful to limit the breadth of the dependencies introduced by the mean subtraction in equations (5) and (6). パラメータ φ の分割は、方程式 (5) と (6) における平均減算によって導入された依存関係の幅を制限するのに有用である。 0.67
Whilst the proposed method supports any arbitrary partitioning scheme, in this work the parameters are partitioned by filter for convolutional layers and by neurons for fully connected layers. 提案手法は任意の分割スキームをサポートしているが,本手法では畳み込み層に対するフィルタと,完全連結層に対するニューロンによってパラメータを分割する。 0.76
2.5. Inference In inference the parameters φ are binarized simply by using the sign(φ) function so that they are restricted to exact values {−1, 1}. 2.5. 推論におけるパラメータ φ は、単に sign(φ) 関数を使って二元化され、それらは厳密な値 {−1, 1} に制限される。 0.73
Note that any zero valued parameters are assigned the value -1. ゼロ値のパラメータは、値 -1 に割り当てられることに注意。 0.80
At the completion of training only the binarized weights w are retained, there is no need to keep the full-precision parameters φ nor any partitioning related information. 訓練が完了すると、二項化重み w のみが保持されるので、完全精度パラメータ φ や分割関連情報を保持する必要はない。 0.75
3. Related work The proposed method is closely related to the core idea proposed in [34] where a similar transformation is used to emulate a multivariate Bernoulli random variable. 3. 関連作品 提案手法は[34]で提案されたコアアイデアと密接に関連しており,同種の変換を用いて多変量ベルヌーイ確率変数をエミュレートする。 0.75
Whereas in [34] nuisance parameters are added to the model to calculate the MLE for multiplicative binary gates in the context of network pruning, in this work no additional parameters are introduced and the weights themselves are transformed to approximate a multivariate binary state over the network weights. ネットワークプルーニングの文脈で乗法二進ゲートのmleを計算するために[34]ニュアサンスパラメータがモデルに追加されるのに対して、この作業では追加パラメータが導入されず、重み自体がネットワーク重み上の多変量二進状態を近似するように変換される。 0.83
5 5 0.85
英語(論文から抽出)日本語訳スコア
(a) (c) (e) (a) (c) (e) 0.85
(b) (d) (f) (b) (d) (f) 0.85
Figure 1: Typical state evolution of a single layer during training when Tα = 0.9. 図1:tα = 0.9のトレーニング中の単一層の典型的な状態変化。 0.72
(a) L2 regularized full-precision parameters φ; (b) the interpolated progressively binarized weights wα equation (11); (c) the weights used in inference simply calculated as sign(φ); (d) the minimum, mean and maximum values of wα (e) value of α for training step; (f) value of ζ for training step. a) L2 正規化された完全精度パラメータ φ ; (b) 補間された漸進的に二項化されたウェイト wα 方程式 (11) (c) 推論で用いられるウェイトは単に sign(φ) として計算される; (d) トレーニングステップの α の値 wα (e) の最小値、平均値、最大値、および (f) トレーニングステップの値である。 0.78
Network quantization refers to quantizing the weights and/or the activations of an ANN. ネットワーク量子化は、ANNの重みおよび/または活性化を定量化する。 0.75
It is one of a few methods for model compression and efficient model inference and has a large body of work in the literature dedicated to it. これは、モデル圧縮と効率的なモデル推論のための数少ない方法の1つであり、それ専用の文献に多大な仕事がある。 0.77
The focus of the method proposed in this work is on the extreme scenario of weights binarization to {−1, 1} offering the maximal compression and speed 本研究で提案する手法の焦点は、最大圧縮と速度を提供する {−1, 1} への重みの双項化の極端なシナリオである。 0.77
6 6 0.85
英語(論文から抽出)日本語訳スコア
gains. Since there are far too many methods to mention in detail, the interested reader is referred to [9, 29, 35] for a thorough review. ゲインだ 詳しく述べるにはあまりにも多くの方法があるので、詳細なレビューのために興味のある読者を [9,29,35] と呼ぶ。 0.58
The reminder of this section will be dedicated to methods that solve the binarization problem by smoothing or reinterpreting the combinatorial problem in a way that enables use of exact gradients with backpropagation. この節のリマインダーは、バックプロパゲーションによる正確な勾配の活用を可能にする方法で、組合せ問題を平滑化または再解釈することで双項化問題を解決する方法に向けられる。 0.71
The work of [7] approximate the quantization function sign(·) with tan(·) such that the estimation error is controlled by gradually scaling the inputs to the quantizer during training. 7]の作業は、量子化関数の符号(·)とtan(·)とを近似し、トレーニング中に徐々に量子化器への入力をスケーリングすることで推定誤差を制御する。 0.75
A different approach is taken by [27] suggesting to train identical networks four times with an alternating teacher-student relationship. 27] では,教師と学生の交互な関係で同一のネットワークを4回トレーニングすることを提案している。 0.68
An auxiliary loss is added to coerce the networks to learn similar activations. ネットワークを強制して類似のアクティベーションを学ぶために補助的な損失が加えられる。 0.64
Furthermore they also utilize the hyperbolic tangent function to smooth the sign(·) function. さらに、双曲的接関数を利用して符号(·) 関数を滑らかにする。 0.72
Differntial Soft Quantization (DSQ) is a method proposed in [13] to approximate the standard binary and uniform quantization process. Differntial Soft Quantization (DSQ) は[13]で提案された標準のバイナリおよび均一な量子化過程を近似する手法である。 0.83
DSQ employs a series of hyperbolic tangent functions to form a smooth function that progressively approaches a discrete like state emulating low-bit uniform quantization e g , sign(·) for the 1-bit case. dsq は一連の双曲的接関数を用いて、低ビットの一様量子化 eg, sign(·) をエミュレートする離散的様状態に漸進的に近づく滑らかな関数を形成する。 0.74
Continuous Binarization introduced in [33] approximates the binary activation threshold operation using parametrized clipping functions and scaled binary activation function. 33]に導入された連続バイナリ化は、パラメータ化されたクリッピング関数とスケールドバイナリアクティベーション関数を使用してバイナリアクティベーションしきい値操作を近似する。 0.63
This enables training with exact gradients however the method relies on a custom and lengthy training regime for individual layers and additional regularization. これにより、正確な勾配でのトレーニングが可能になるが、この方法は個々のレイヤのカスタムで長いトレーニングレギュレーションと追加の正規化に依存している。
訳抜け防止モード: 正確な勾配で訓練できるが この方法は、個別のレイヤと追加の正規化のためのカスタムで長いトレーニングレジームに依存している。
0.59
Furthermore the clipping functions are rectified and therefore suffer from zero gradient outside the clip boundaries. さらに、クリップ関数は整流され、クリップ境界外の勾配がゼロとなる。 0.72
Self-Binarizing Networks introduced in [21] approach the binarization task by approximating the sign(·) with hyperbolic tangent which is iteratively sharpened during training. 21]で導入された自己双対化ネットワークは、訓練中に反復的に鋭化される双曲的接点を持つ符号(·)を近似することで双対化タスクにアプローチする。 0.55
Stochastic Quantization (SQ) [12] propose to quantize only a subset of the parameters at a time based on a stochastic selection criteria such that only a subset of the gradients are estimated during backpropagation. 確率的量子化(SQ) [12] は、バックプロパゲーション中に勾配のサブセットのみが推定される確率的選択基準に基づいて、パラメータのサブセットのみを一度に定量化する。 0.76
4. Experiments 4.1. 4. 実験 4.1. 0.77
Inductive image classification To demonstrate the effectiveness of the proposed method the top-1 accuracy is compared for a full-precision its binary weighted counterpart on a number of inductive image classification tasks. 誘導的画像分類 提案手法の有効性を示すため,多くの帰納的画像分類タスクにおいて,2値重み付き完全精度でトップ1の精度を比較する。 0.82
The methodology involves training each model twice, once with full-precision floating point weights and again using the proposed method. 提案手法では,各モデルを2回,フル精度浮動小数点重みでトレーニングし,提案手法を再度使用する。 0.73
Both networks are evaluated at the end of each epoch and the best result achieved on the validation set during training is reported. 両ネットワークは各時代末に評価され、訓練中に検証セットで得られた最良の結果が報告される。 0.72
The models are implemented in TensorFlow [2] using custom Dense and Conv2D layers. モデルはカスタムDenseとConv2Dレイヤを使用してTensorFlow [2]で実装されている。 0.60
The optimizer used in all experiments is the weight decay decoupled SGD momentum optimizer [25] with a linear learning rate warmup period of 5 epochs. 全ての実験で用いられるオプティマイザは, 5エポックの線形学習率ウォームアップ期間を有する重崩壊分離SGD運動量オプティマイザ[25]である。 0.67
An exponential reduction schedule is applied to both the learning rate and weight decay. 学習率と体重減少の両方に指数関数的減少スケジュールが適用される。 0.77
For the full-precision networks the schedule updates by a factor of 0.1 at 1/3 and 2/3 of the overall post-warmup training steps. 完全なネットワークでは、全体のウォームアップ後のトレーニングステップの1/3と2/3でスケジュールを0.1に更新する。 0.60
For the binary variants the updates occur at 0.1, 0.25, 0.4, 0.55, 0.7, 0.85 of the overall post-warmup training steps with a factor of 0.3. バイナリの変種では、更新は0.1, 0.25, 0.4, 0.55, 0.7, 0.85で起こる。 0.65
The parameters of the batch normalization layers are excluded from weight decay. バッチ正規化層のパラメータは、重量減衰から除外される。 0.73
In all experiments ζ is set to 1 for the initial 90% of training steps and during the last 10% of training ζ is incremented every step until a final value of 12. すべての実験では、最初の90%のトレーニングステップで1に設定され、最後の10%のトレーニングステップでは、最終値が12になるまで1ステップずつ増分される。 0.75
The training parameters for all experiments are summarised in table 2. すべての実験のトレーニングパラメータは、表2にまとめられている。 0.75
The residual blocks all use parameterless identity mapping that downsample skip connections by average pooling and concatenate zeros where required to match the number of activation planes. 残余ブロックはすべてパラメータレスIDマッピングを使用しており、平均プールによって接続をスキップし、アクティベーションプレーンの数にマッチするゼロを連結する。 0.73
For the CIFAR datasets classification tasks a basic augmentation of horizontal flip, random translation and zoom is used and in the binary weighted variants all layers are binarized except for the first and last layers of the networks. CIFARデータセット分類タスクでは、水平フリップ、ランダム翻訳、ズームの基本的な拡張が使用され、バイナリ重み付き変種では、ネットワークの最初の層と最後の層を除いて全ての層が双項化される。 0.69
Note there was no attempt to perform an exhaustive search of hyperparameters for the best possible result therefore these results should be taken as indicative only. 最善の結果のためにハイパーパラメーターを徹底的に探索する試みは無かったので、これらの結果は指標としてのみ考慮すべきである。 0.64
All image datasets were taken from 全ての画像データセットは 0.74
7 7 0.85
英語(論文から抽出)日本語訳スコア
Experiment 32b Error % 1b Error % Change % 実験 32bエラー%1bエラー%変化% 0.80
LeNet5 MNIST VGG-small CIFAR10 ResNet18 CIFAR100 Wide ResNet CIFAR100 LeNet5 MNIST VGG-small CIFAR10 ResNet18 CIFAR100 Wide ResNet CIFAR100 0.69
0.64 6.41 23.52 21.34 0.64 6.41 23.52 21.34 0.45
0.53 6.57 24.02 20.52 0.53 6.57 24.02 20.52 0.45
0.11 -0.16 -0.5 0.82 0.11 -0.16 -0.5 0.82 0.39
Table 1: Summary of experimental results by architecture, dataset and weight precision. 表1: アーキテクチャ、データセット、重量の精度による実験結果のまとめ。 0.85
The error rates are the minimum errors obtained during training for the validation set. エラー率は、検証セットのトレーニング中に得られる最小エラーである。 0.77
Experiment Bits Batch Epochs L.R. 実験 Bits Batch Epochs L.R. 0.83
W.D. LeNet5 MNIST W.D. LeNet5 MNIST 0.79
VGG-small CIFAR10 VGG小CIFAR10 0.63
ResNet18 CIFAR100 ResNet18 CIFAR100 0.71
Wide ResNet CIFAR100 Wide ResNet CIFAR100 0.94
32 1 32 1 32 1 32 1 32 1 32 1 32 1 32 1 0.85
100 128 128 100 128 128 0.85
128 200 300 128 200 300 0.85
300 400 300 400 300 400 300 400 0.85
0.01 0.1 0.05 0.1 0.05 0.1 0.05 0.01 0.1 0.05 0.1 0.05 0.1 0.05 0.51
1e-4 1e-3 5e-4 1e-3 5e-4 1e-3 5e-4 1e-3 1e-4 1e-3 5e-4 1e-3 5e-3 1e-3 0.42
Tα 0.900.90.9 Tα 0.900.90.9 0.54
Table 2: Summary of hyperparameters for all experiments. 表2:すべての実験用のハイパーパラメータの概要。 0.79
Bits is the bit depth of the network weights. ビットはネットワークの重みのビット深さである。 0.85
Batch is the batch size used in training. バッチはトレーニングで使用されるバッチサイズです。 0.69
Epochs is the total number of training epochs. エポック(epochs)は、トレーニングエポックの総数である。 0.60
L.R. is the initial post warmup learning rate. L.R。 ウォームアップ後の学習率です 0.53
W.D. is the initial weight decay scaler. W.D. 初期重量崩壊スケーラです 0.59
Tα denotes the fraction of total training steps required for α to reach and remain at 1, see equation (12). tα は α が 1 に到達し留まるのに必要な全訓練ステップの分数を意味する(方程式 (12) を参照)。 0.75
TensorFlow Datasets [1] with the default train/test split. TensorFlow Datasets [1] はデフォルトの Train/test スプリットを持つ。 0.78
The source code is publicly available at https://bitbucket.or g/YanivShu/binary_we ighted_networks_publ ic. ソースコードはhttps://bitbucket.or g/YanivShu/binary_we ighted_networks_publ icで公開されている。 0.43
4.2. LeNet5 MNIST classification 4.2. LeNet5 MNIST分類 0.81
The first experiment is the toy classification task of MNIST using the basic CNN LeNet5 [22]. 最初の実験は、基本的なCNN LeNet5[22]を用いたMNISTのおもちゃ分類である。 0.74
In the binary weighted variant all layers except for the last dense prediction layer are binarized. 二元重み付き変種では、最後の高密度予測層を除く全ての層は二元化される。 0.62
The full-precision network has achieved a minimal validation error of 0.64% and the binary variant of 0.53%, an increase of 0.11%. 完全精度ネットワークは0.64%の最小検証誤差、0.53%のバイナリ変数、0.11%の増加を達成した。 0.72
4.3. VGG-small CIFAR10 classification 4.3. VGG-small CIFAR10 分類 0.68
The second experiment is the classification task of the CIFAR10 dataset using a Vgg-Small like network similar to the one used in [41]. 2つ目の実験は、[41]で使われるものと似たvgg-smallライクなネットワークを使用してcifar10データセットの分類タスクである。 0.70
The full-precision network has achieved a minimal validation error of 6.41% and the binary variant of 6.57%, a decrease of 0.16%. 全精度ネットワークは、最小検証誤差が6.41%、バイナリ変種が6.57%となり、0.16%減少している。
訳抜け防止モード: 完全精度ネットワークは6.41 %の最小限の検証誤差を達成した 6.57 %の2次変量、0.16 %の減少。
0.77
4.4. ResNet18 CIFAR100 classification 4.4. ResNet18 CIFAR100分類 0.73
The third experiment is the classification task of the CIFAR100 dataset using the ResNet18 architecture [15] with identity mappings. 第3の実験は、IDマッピングを備えたResNet18アーキテクチャ[15]を使用して、CIFAR100データセットの分類タスクである。 0.64
The full-precision network has achieved a minimal validation error of 23.52% and the binary variant of 24.02% a decrease of 0.5%. 全精度ネットワークは、最小検証誤差が23.52%、バイナリ変種が24.02%で0.5%減少した。 0.69
8 8 0.85
英語(論文から抽出)日本語訳スコア
Method Architecture Error % 方法 アーキテクチャエラー% 0.73
VGG-Small LAB [17] [29] ResNet-20 DoReFa-Net [42] [29] VGG-Small BWN [31] [29] ResNet-20 LQ-Nets [41] [29] ResNet-20 DSQ [13] [29] ResNet-20 IR-Net [30] [29] Self-Binarizing Networks [21] VGG-Small ProxQuant [3] [29] ResNet-20 BWNH [18] BinaryConnect [10] [29] ProxQuant [3] SQ-BWN [12] Proposed method VGG-Small LAB [17] [29] ResNet-20 DoReFa-Net [42] [29] VGG-Small BWN [31] [29] ResNet-20 LQ-Nets [41] [29] ResNet-20 DSQ [13] [29] ResNet-20 IR-Net [30] [29] Self-Binarizing Networks [21] VGG-Small ProxQuant [3] [29] ResNet-20 BWNH [18] BinaryConnect [10] [29] ProxQuant [3] SQ-BWN [12] Proposed Method 0.90
VGG-Small ResNet-44 ResNet-56 VGG-Small VGG-Small ResNet-44 ResNet-56 VGG-Small 0.45
VGG9 10.5 10.0 9.9 9.9 9.8 9.8 9.4 9.3 9.2 8.3 7.8 7.2 6.6 VGG9 10.5 10.0 9.9 9.9 9.8 9.8 9.4 9.3 9.2 8.3 7.8 7.2 6.6 0.60
Table 3: Comparison of reported error rates on the CIFAR10 validation set for binary weighted networks. 表3:バイナリ重み付きネットワークに対するCIFAR10検証セットにおける報告されたエラー率の比較。 0.74
The citations indicate the paper where the method is proposed and the source of the results if different to the paper. 引用は,提案方法が提案されている論文と,論文と異なる場合の結果の出典を示す。 0.70
4.5. Wide ResNet CIFAR100 classification 4.5. Wide ResNet CIFAR100 分類 0.83
The fourth and last experiment is the classification task of the CIFAR100 dataset using the Wide Residual Network [40] architecture. 4番目の実験は、Wide Residual Network [40]アーキテクチャを使用したCIFAR100データセットの分類タスクである。 0.83
The baseline architecture is the WRN-28-10 no dropout with identity mappings. ベースラインアーキテクチャは、IDマッピングを備えたWRN-28-10のドロップアウトである。 0.56
A minor modification was done to the architecture by increasing the number of filters in the first convolution layer from 16 to 64. 最初の畳み込み層におけるフィルタの数を16から64に増やすことで、アーキテクチャに小さな変更が行われた。 0.81
The full-precision network has achieved a minimal validation error of 21.34% and the binary variant of 20.52% an increase of 0.82%. 全精度ネットワークは、最小検証誤差が21.34%、バイナリ変種が20.52%で0.82%増加した。 0.70
Note that training the full-precision network with the same hyperparamter settings and learning rate shcedule as specified in [40] resulted in a slightly reduced accuracy. 注意すべき点は、[40]で指定されているのと同じハイパーパラメータ設定と学習率シュドジュールで完全精度ネットワークをトレーニングすることで、精度がわずかに低下することである。 0.57
Method Architecture Error % 方法 建築 エラー% 0.76
Self-Binarizing Networks [21] BWN [31] [12] BWNH [18] SQ-BWN [12] Proposed method 21] BWN [31] [12] BWNH [18] SQ-BWN [12] 提案手法 0.72
VGG-Small ResNet-56 VGG-Small ResNet-56 0.50
VGG9 ResNet-56 VGG9 ResNet-56 0.69
Wide ResNet-28-10 Wide ResNet-28-10 0.50
36.5 35.01 34.35 31.56 20.5 36.5 35.01 34.35 31.56 20.5 0.44
Table 4: Comparison of reported error rates on the CIFAR100 validation set for binary weighted networks. 表4:バイナリ重み付きネットワークに対するCIFAR100検証セットにおける報告されたエラー率の比較。 0.74
The citations indicate the paper where the method is proposed and the source of the results if different to the paper. 引用は,提案方法が提案されている論文と,論文と異なる場合の結果の出典を示す。 0.70
4.6. Effect of Tα 4.6. Tαの効果 0.79
This section aims to quantify the effect of progressive binarization with different rates Tα. 本節では, 進行二項化の効果をTαで定量化する。 0.56
For this purpose models are trained a number of times with all settings unchanged except for modifying Tα. この目的のために、モデルはtαを変更する以外は設定を変更せずに何度も訓練される。 0.59
The results summarised in table 5 indicate that the models can train well with or without progressive binarization. 表5にまとめられた結果は、モデルが進行二項化の有無にかかわらずうまく訓練できることを示している。 0.59
Despite no strong evidence to support the usefulness of 有用性を支持する強い証拠はないが 0.68
9 9 0.85
英語(論文から抽出)日本語訳スコア
Experiment VGG-small CIFAR10 ResNet18 CIFAR100 Wide ResNet CIFAR100 実験 VGG-small CIFAR10 ResNet18 CIFAR100 Wide ResNet CIFAR100 0.72
0 6.57 24.61 20.59 0 6.57 24.61 20.59 0.53
0.3 0.5 0.7 0.3 0.5 0.7 0.59
0.9 7.04 24.78 20.67 0.9 7.04 24.78 20.67 0.53
6.94 24.81 20.96 6.94 24.81 20.96 0.47
7.2 24.56 20.92 7.2 24.56 20.92 0.47
6.88 24.02 20.52 6.88 24.02 20.52 0.47
Table 5: Best accuracy measured on the validation set during training for different values of Tα. 表5: Tαの異なる値に対するトレーニング中の検証セットの最良の精度。 0.78
applying progressive binarization it seems that for the deeper residual networks slow progressive binarization did slightly improve accuracy on the validation set. プログレッシブ・バイナライゼーションを適用すると, ディープ・残差ネットワークでは, プログレッシブ・バイナライゼーションは検証セットの精度をわずかに改善したようだ。
訳抜け防止モード: プログレッシブ・バイナライゼーションを より深い残差ネットワークでは 進行性二項化が 検証セットの精度を わずかに改善したようだ
0.81
(a) (c) (b) (a) (c) (b) 0.85
(d) Figure 2: (a, c) Accuracy measured on the validation sets for the VGG-small CIFAR10 and Wide Resnet CIFAR100 classification tasks for the binary weighted variant with different values of Tα over the entire training. (d) 図2: (a, c) vgg-small cifar10の検証セットで測定された精度と、トレーニング全体を通してtαの値が異なるバイナリ重み付き変種のためのワイドresnet cifar100分類タスク。 0.79
(b, d) The same for the last 50 epochs of training. (b,d)最後の50エポックのトレーニングも同様である。 0.69
5. Discussion In this section an analysis is performed to investigate the reasons leading to the outstanding experimental results. 5. 討論 本項では, 実験結果の卓越した原因を明らかにするため, 分析を行った。 0.75
Consider the dot product, the core operation of neural networks, and it’s gradient: ドットの積、ニューラルネットワークの中核となる操作を考えると、それは勾配です。 0.60
10 10 0.85
英語(論文から抽出)日本語訳スコア
(14) Where x, φ ∈ Rn; and σ is an arbitrary non-linearity. (14) ここで x, φ ∈ rn と σ は任意の非線形性である。 0.88
In comparison, consider the positive (or 比較すると、正(または)を考える。 0.56
σ(y) = = negative) group transformation proposed in this work and its gradient: σ(y) = = 負) この研究で提案された群変換とその勾配 0.81
y = φT x ∂σ ∂y y = φT x ∂σ ∂y 0.82
∂y ∂φ ∂ ∂φ ∂y ∂φ ∂ ∂φ 0.79
∂σ ∂y ∂σ ∂y である。 0.32
x (13) (cid:18)(cid:16) x (13) (cid:18)(cid:16) 0.82
z = wT x (cid:66) z = wT x (cid:66) 0.94
φ − ¯φ ∂ ∂φ φ − ¯φ ∂ ∂φ 0.91
σ(z) = ∂σ ∂z σ(z) = ∂σ ∂z である。 0.59
∂z ∂w ∂z ∂w である。 0.35
∂w ∂φ = ∂σ ∂z ∂w ∂φ = ∂σ ∂z である。 0.63
(cid:17) (cid:19)T e−ζ + 1 x 1 − 1 n − 1 − 1 ... (cid:17) (落語:19)T e−a + 1 x 1 − 1 n − 1 − 1 ... 0.79
n n  n n  0.68
. . . − 1 n . . . − 1 n 0.85
·········· − 1 ·········· − 1 0.36
... . . . − 1 ... . . . − 1 0.80
n n 1 − 1 n n n 1 − 1 n 0.85
− 1 n  − 1 n  0.68
x e−ζ (15) (16) x e− (15) (16) 0.84
Where ¯x =(cid:80) xi/n is the mean of the elements of the vector x. x =(cid:80) xi/n はベクトル x の元の平均である。 0.72
Equation (17) reveals a number 等式(17)は数を明らかにする 0.69
∂σ ∂z ∂σ ∂z である。 0.33
(17) (x − ¯x) e−ζ (17) (x − sx) e− 0.88
= of interesting properties of the proposed method. = 提案手法の興味深い性質についてです 0.76
The first is that for each of the partitions the gradients are zero centred due to the mean subtraction. 第一に、各分割について、勾配は平均減算によりゼロ中心となる。 0.65
This implies that after the gradient update the mean of the parameters will remain unchanged. これは、勾配更新後、パラメータの平均は変更されないことを意味する。 0.67
Assuming the parameters are initiailized with zero mean and considering this in conjunction with the L2 regularization this property may have a regularizing effect. パラメータがゼロ平均で初期化されることを仮定し、これをL2正則化と組み合わせて考えると、この性質は正則化効果を持つ。 0.58
If a probabilistic interpretation is assumed similar to [30], maintaining the parameters having a close to symmetric distribution with zero mean may increase the entropy of the weights distribution and therefore the representation power of the network. 確率論的解釈が[30]と類似していると仮定すると、ゼロ平均の対称分布に近いパラメータを維持することは、重み分布のエントロピーを増大させ、従ってネットワークの表現力を増大させる。
訳抜け防止モード: 確率的解釈が[30]に類似していると仮定される場合 平均値ゼロに近い対称分布を持つパラメータの維持 重み分布のエントロピーを増加させ、したがってネットワークの表現力を高めることができる。
0.83
Secondly, and more important perhaps, if ζ is set to zero and we assume that ¯x ≈ 0 then the original gradient of the full-precision network is recovered as per equation (14). 第二に、おそらくもっと重要なことは、もし s が 0 に設定され、x が 0 であると仮定すると、全精度ネットワークの元の勾配は方程式 (14) に従って復元される。 0.64
The assumption of ¯x ≈ 0 is reasonable for inputs that are normalized by methods such as batch normalization [20], instance normalization [37] or group normalization [39]. この仮定は、バッチ正規化 [20] やインスタンス正規化 [37] や群正規化 [39] のような方法で正規化される入力に対して妥当である。 0.73
This implies that despite training with approximate binary weights gradient descent can be utilized as efficiently as in the full-precision counterpart as long as the two aforementioned conditions are maintained. これは、二元重みのトレーニングにもかかわらず、上述の2つの条件が維持されている限り、勾配降下は全精度と同等に効果的に利用できることを意味する。 0.58
6. Conclusion This paper proposes a novel and effective method for training binary weighted networks by smoothing the combinatorial problem of finding a binary vector of weights to minimize the expected loss for a given objective by means of empirical risk minimization with backpropagation. 6. 結論 本稿では,実証的リスク最小化とバックプロパゲーションにより,与えられた目的に対する期待損失を最小限に抑えるために,重みの2進ベクトルを求める組合せ問題を円滑に解決し,二進重み付きネットワークを訓練するための新しい効果的な手法を提案する。 0.73
The method adds little computational complexity and can be readily applied to common architectures using automatic differentiation frameworks. この手法は計算の複雑さをほとんど加えず、自動微分フレームワークを使用して簡単に共通アーキテクチャに適用できる。 0.65
Theoretical analysis and experimental results demonstrate that binary weighted networks can train well with the same standard optimization techniques and similar hyperparameters settings as their full-precision counterparts, namely momentum SGD with large learning rates and L2 regularization. 理論的解析と実験結果から,二元重み付きネットワークは,学習率の高い運動量SGDやL2正規化といった,完全精度のネットワークと同等の標準最適化手法と類似したハイパーパラメータ設定でうまくトレーニングできることが示された。 0.68
11 11 0.85
英語(論文から抽出)日本語訳スコア
References [1] TensorFlow Datasets, a collection of ready-to-use datasets. 参考文献 [1] TensorFlow Datasets – 使用可能なデータセットのコレクション。 0.75
https://www.tensorfl ow.org/datasets. https://www.tensorfl ow.org/datasets 0.48
[2] M. Abadi, A. Agarwal, P. Barham, E. Brevdo, Z. Chen, C. Citro, G. S. Corrado, A. Davis, J. [2] Abadi, A. Agarwal, P. Barham, E. Brevdo, Z. Chen, C. Citro, G. S. Corrado, A. Davis, J. 0.95
Dean, M. Devin, S. Ghemawat, I. Goodfellow, A. Harp, G. Irving, M. Isard, Y. Jia, R. Jozefowicz, L. Kaiser, M. Kudlur, J. Levenberg, D. Man´e, R. Monga, S. Moore, D. Murray, C. Olah, M. Schuster, J. Shlens, B. Steiner, I. Sutskever, K. Talwar, P. Tucker, V. Vanhoucke, V. Vasudevan, F. Vi´egas, O. Vinyals, P. Warden, M. Wattenberg, M. Wicke, Y. Yu, and X. Zheng. Dean, M. Devin, S. Ghemawat, I. Goodfellow, A. Harp, G. Irving, M. Isard, Y. Jia, R. Jozefowicz, L. Kaiser, M. Kudlur, J. Levenberg, D. Man ́e, R. Monga, S. Moore, D. Murray, C. Olah, M. Schuster, J. Shlens, B. Steiner, I. Sutskever, K. Talwar, P. Tucker, V. Vanhoucke, V. Vasudevan, F. Vi ́egas, O. Vinyals, P. Warden, M. Watenberg, M. Wicke, Y. X. Zhen 0.88
TensorFlow: Large-scale machine learning on heterogeneous systems, 2015. TensorFlow: 異種システム上での大規模機械学習。 0.73
Software available from tensorflow.org. tensorflow.orgから入手できるソフトウェア。 0.72
[3] Y. Bai, Y.-X. [3]Y.Bai,Y.-X。 0.68
Wang, and E. Liberty. Wang, and E. Liberty 0.81
Proxquant: Quantized neural networks via proximal operators. Proxquant: 近位演算子による量子ニューラルネットワーク。 0.75
In International [4] Y. Bengio, N. L´eonard, and A. C. Courville. 海外では Y. Bengio, N. L ́eonard, A. C. Courville. 0.74
Estimating or propagating gradients through stochastic neurons for 確率的ニューロンによる勾配の推定または伝播 0.69
Conference on Learning Representations, 2019. 学習表現に関する国際会議、2019年。 0.58
conditional computation. CoRR, abs/1308.3432, 2013. 条件計算。 CoRR, abs/1308.3432, 2013 0.71
[5] D. W. Blalock, J. J. G. Ortiz, J. Frankle, and J. V. Guttag. D. W. Blalock, J. J. G. Ortiz, J. Frankle, J. V. Guttag. 0.92
What is the state of neural network pruning? ニューラルネットワークのプルーニング状態とは何か? 0.72
In I. S. Dhillon, D. S. Papailiopoulos, and V. Sze, editors, Proceedings of Machine Learning and Systems 2020, MLSys 2020, Austin, TX, USA, March 2-4, 2020. mlsys.org, 2020. I.S. Dhillon, D. S. Papailiopoulos, V. Sze, editors, Proceedings of Machine Learning and Systems 2020, MLSys 2020, Austin, TX, USA, March 2-4, 2020. mlsys.org, 2020。 0.97
[6] A. Bulat and G. Tzimiropoulos. 6] a. bulatとg. tzimiropoulos。 0.56
Xnor-net++: Improved binary neural networks. Xnor-net++: バイナリニューラルネットワークの改善。 0.60
CoRR, abs/1909.13863, 2019. CoRR, abs/1909.13863, 2019。 0.73
[7] A. Bulat, G. Tzimiropoulos, J. Kossaifi, and M. Pantic. A. Bulat, G. Tzimiropoulos, J. Kossaifi, M. Pantic. 0.72
Improved training of binary networks for human pose ポーズのためのバイナリネットワークの訓練の改善 0.78
estimation and image recognition. CoRR, abs/1904.05868, 2019. 推定と画像認識。 CoRR, abs/1904.05868, 2019。 0.71
[8] Z. Cai, X. [8] Z. Cai, X。 0.89
He, J. Sun, and N. Vasconcelos. 奴はjだ Sun、N. Vasconcelos。 0.60
Deep learning with low precision by half-wave gaussian quantization. 半波ガウス量子化による低精度深層学習 0.73
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 2017. 2017年7月、IEEE Conference on Computer Vision and Pattern Recognition (CVPR) に参加。 0.73
[9] Y. Cheng, D. Wang, P. Zhou, and T. Zhang. Y. Cheng, D. Wang, P. Zhou, T. Zhang. 0.73
A survey of model compression and acceleration for deep neural 深層神経のモデル圧縮と加速度に関する研究 0.76
networks. CoRR, abs/1710.09282, 2017. ネットワーク。 CoRR, abs/1710.09282, 2017。 0.69
[10] M. Courbariaux, Y. Bengio, and J.-P. David. 10] M. Courbariaux, Y. Bengio, J.-P. David 0.86
Binaryconnect: Training deep neural networks with binary weights during propagations. binaryconnect: 伝播中にバイナリ重みでディープニューラルネットワークをトレーニングする。 0.72
In C. Cortes, N. Lawrence, D. Lee, M. Sugiyama, and R. Garnett, editors, Advances in Neural Information Processing Systems, volume 28. C. Cortes, N. Lawrence, D. Lee, M. Sugiyama, R. Garnett, editors, Advances in Neural Information Processing Systems, Volume 28。 0.89
Curran Associates, Inc., 2015. curran associates, inc., 2015年。 0.63
[11] S. Darabi, M. Belbahri, M. Courbariaux, and V. P. Nia. [11]S. Darabi、M. Belbahri、M. Courbariaux、V. P. Nia。 0.80
BNN+: improved binary network training. BNN+ バイナリネットワークトレーニングの改善。 0.77
CoRR, [12] Y. Dong, R. Ni, J. Li, Y. Chen, J. Zhu, and H. Su. CoRR [12] Y. Dong, R. Ni, J. Li, Y. Chen, J. Zhu, H. Su 0.71
Learning accurate low-bit deep neural networks with stochastic 確率による高精度低ビット深部ニューラルネットワークの学習 0.65
abs/1812.11800, 2018. abs/1812.11800, 2018 0.66
quantization, 2017. 2017年、量子化。 0.68
[13] R. Gong, X. Liu, S. Jiang, T. Li, P. Hu, J. Lin, F. Yu, and J. Yan. [13]R.Gong、X.Liu、S.Jang、T.Li、P.Hu、J.Lin、F.Yu、J.Yan。
訳抜け防止モード: [13 ]R.Gong, X.Liu, S. Jiang, T. Li, P. Hu, J. Lin, F. Yu J.Yan。
0.86
Differentiable soft quantization: Bridging fullprecision and low-bit neural networks. 微分可能なソフト量子化: ブリッジングフル精度と低ビットニューラルネットワーク。 0.59
In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), October 2019. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV) 2019年10月。 0.92
[14] S. Han, J. [14]S. Han, J. 0.92
Pool, J. Tran, and W. J. Dally. pool、j. tran、w. j. dally。 0.70
Learning both weights and connections for efficient neural networks. 効率的なニューラルネットワークのための重みと接続の学習。 0.71
In Proceedings of the 28th International Conference on Neural Information Processing Systems - Volume 1, NIPS’15, page 1135–1143, Cambridge, MA, USA, 2015. The 28th International Conference on Neural Information Processing Systems - Volume 1, NIPS’15, page 1135–1143, Cambridge, MA, USA, 2015 に参加して 0.90
MIT Press. [15] K. He, X. Zhang, S. Ren, and J. MIT出版。 [15]K.He,X.Zhang,S. Ren,J. 0.71
Sun. Deep residual learning for image recognition. Sun 画像認識のための深い残差学習 0.67
In 2016 IEEE Conference on 2016 IEEE Conference に参加して 0.83
Computer Vision and Pattern Recognition (CVPR), pages 770–778, 2016. コンピュータビジョンとパターン認識(CVPR) 770-778頁、2016年。 0.86
[16] G. Hinton, O. Vinyals, and J. 16] G. Hinton, O. Vinyals, J. 0.77
Dean. Distilling the knowledge in a neural network. Dean ニューラルネットワークで知識を蒸留する。 0.59
In NIPS Deep Learning and Representation Learning Workshop, 2015. 深層学習とNIPS Representation Learning Workshop, 2015 (英語) 0.68
[17] L. Hou, Q. Yao, and J. T. Kwok. [17]L. Hou, Q. Yao, J. T. Kwok. 0.90
Loss-aware binarization of deep networks. ディープネットワークのロスアウェアバイナリ化。 0.59
In 5th International Conference on Learning Representations, ICLR 2017, Toulon, France, April 24-26, 2017, Conference Track Proceedings. 第5回Learning Representations, ICLR 2017, Toulon, France, April 24-26, Conference Track Proceedings
訳抜け防止モード: 第5回学習表現国際会議, ICLR 2017, Toulon 2017年4月24日~26日、フランスで開催。
0.74
OpenReview.net, 2017. 2017年、OpenReview.net。 0.65
[18] Q. Hu, P. Wang, and J. Cheng. [18] Q. Hu, P. Wang, J. Cheng 0.82
From hashing to cnns: Training binary weight networks via hashing. ハッシュからcnnへ:ハッシュによるバイナリ重みネットワークのトレーニング。 0.71
In S. A. McIlraith and K. Q. Weinberger, editors, AAAI, pages 3247–3254. S.A。 McIlraith and K. Q. Weinberger, editors, AAAI, page 3247–3254。 0.76
AAAI Press, 2018. AAAIプレス、2018年。 0.78
[19] I. Hubara, M. Courbariaux, D. Soudry, R. El-Yaniv, and Y. Bengio. [19]I. Hubara, M. Courbariaux, D. Soudry, R. El-Yaniv, Y. Bengio. 0.86
Binarized neural networks. バイナリニューラルネットワーク。 0.56
In D. Lee, M. Sugiyama, U. Luxburg, I. Guyon, and R. Garnett, editors, Advances in Neural Information Processing Systems, volume 29. D. Lee, M. Sugiyama, U. Luxburg, I. Guyon, R. Garnett, editors, Advances in Neural Information Processing Systems, Volume 29。 0.89
Curran Associates, Inc., 2016. Curran Associates, Inc., 2016 0.71
[20] S. Ioffe and C. Szegedy. [20]S.IoffeとC.Szegedy。 0.74
Batch normalization: Accelerating deep network training by reducing internal covariate shift. バッチ正規化: 内部共変量シフトの低減によるディープネットワークトレーニングの高速化。 0.65
In Proceedings of the 32nd International Conference on International Conference on Machine LearningVolume 37, ICML’15, page 448–456. 第32回In Proceedings of the 32nd International Conference on Machine LearningVolume 37, ICML’15, page 448–456。 0.82
JMLR.org, 2015. JMLR.org、2015年。 0.60
[21] F. Lahoud, R. Achanta, P. M´arquez-Neila, and S. S¨usstrunk. F. Lahoud, R. Achanta, P. M arquez-Neila, S. S susstrunk. 0.78
Self-binarizing networks, 2019. 自己双対ネットワーク、2019年。 0.58
[22] Y. Lecun, L. Bottou, Y. Bengio, and P. Haffner. [22] Y. Lecun, L. Bottou, Y. Bengio, P. Haffner 0.92
Gradient-based learning applied to document recognition. 文書認識への勾配学習の適用 0.76
In Proceedings of the IEEE, pages 2278–2324, 1998. 院 IEEEの成果、2278–2324頁、1998年。 0.61
[23] H. Li, S. De, Z. Xu, C. Studer, H. Samet, and T. Goldstein. H. Li, S. De, Z. Xu, C. Studer, H. Samet, T. Goldstein. 0.85
Training quantized nets: A deeper understanding. 量子化ネットのトレーニング: より深い理解。 0.80
In I. Guyon, U. V. Luxburg, S. Bengio, H. Wallach, R. Fergus, S. Vishwanathan, and R. Garnett, editors, Advances in Neural Information Processing Systems, volume 30. I. Guyon, U.V. Luxburg, S. Bengio, H. Wallach, R. Fergus, S. Vishwanathan, R. Garnett, editors, Advances in Neural Information Processing Systems, Volume 30。 0.95
Curran Associates, Inc., 2017. Curran Associates, Inc., 2017。 0.79
[24] Z. Liu, B. Wu, W. Luo, X. Yang, W. Liu, and K.-T. Cheng. [24] Z. Liu, B. Wu, W. Luo, X. Yang, W. Liu, K.-T. Cheng. 0.87
Bi-real net: Enhancing the performance of 1-bit bi-real net: 1ビットの性能向上 0.88
12 12 0.85
英語(論文から抽出)日本語訳スコア
cnns with improved representational capability and advanced training algorithm. 表現能力と高度な訓練アルゴリズムが向上したCNN。 0.71
In Proceedings of the European Conference on Computer Vision (ECCV), September 2018. 2018年9月、欧州コンピュータビジョン会議(ECCV)に参加。 0.66
[25] I. Loshchilov and F. Hutter. [25]I.LoshchilovとF.Hutter。 0.89
Decoupled weight decay regularization. decoupled weight decay regularization の略。 0.68
In 7th International Conference on Learning 第7回国際学習会議報告 0.78
Representations, ICLR 2019, New Orleans, LA, USA, May 6-9, 2019. Representations, ICLR 2019, New Orleans, LA, USA, May 6-9, 2019 0.88
OpenReview.net, 2019. OpenReview.net、2019年。 0.64
[26] C. Louizos, M. Welling, and D. P. Kingma. 26] c. louizos, m. welling, d. p. kingma. 0.83
Learning sparse neural networks through L0 regularization. L0正規化によるスパースニューラルネットワークの学習 0.71
In Inter- national Conference on Learning Representations, 2018. In Inter- 全国学習代表大会、2018年。 0.70
[27] B. Martinez, J. Yang, A. Bulat, and G. Tzimiropoulos. B. Martinez, J. Yang, A. Bulat, G. Tzimiropoulos. 0.74
Training binary neural networks with real-to-binary convo- real-to-binary convoによるバイナリニューラルネットワークのトレーニング 0.62
lutions. In International Conference on Learning Representations, 2020. 誘惑だ 2020年、国際学習表現会議に参加。 0.59
[28] V. Nair and G. E. Hinton. 28] V. Nair と G. E. Hinton 0.88
Rectified linear units improve restricted boltzmann machines. 整流線形単位は制限ボルツマン機械を改善する。 0.64
In J. F¨urnkranz and J・F・シュルンクランツと 0.58
T. Joachims, editors, ICML, pages 807–814. t. joachims, editors, icml, pages 807–814。 0.72
Omnipress, 2010. オムニプレス、2010年。 0.40
[29] H. Qin, R. Gong, X. Liu, X. Bai, J. [29]H.Qin,R.Gong,X.Liu,X .Bai,J。 0.79
Song, and N. Sebe. Song, and N. Sebe 0.80
Binary neural networks: A survey. binary neural networks: サーベイ。 0.65
Pattern Recognition, 105:107281, Sep 2020. パターン認識 105:107281, Sep 2020。 0.69
[30] H. Qin, R. Gong, X. Liu, M. Shen, Z. Wei, F. Yu, and J. [30]H.Qin,R.Gong,X.Liu,M .Shen,Z.Wei,F.Yu,J. 0.82
Song. Forward and backward information retention for accurate binary neural networks. 歌。 正確なバイナリニューラルネットワークのための前方および後方情報保持 0.69
In 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2020, Seattle, WA, USA, June 13-19, 2020, pages 2247–2256. 2020年、IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2020, Seattle, WA, USA, June 13-19, 2020, pages 2247–2256。 0.91
IEEE, 2020. IEEE、2020年。 0.90
[31] M. Rastegari, V. Ordonez, J. Redmon, and A. Farhadi. [31]M. Rastegari、V. Ordonez、J. Redmon、A. Farhadi。 0.86
Xnor-net: Imagenet classification using binary convolutional neural networks. Xnor-net:バイナリ畳み込みニューラルネットワークを用いたイメージネット分類。 0.71
In B. Leibe, J. Matas, N. Sebe, and M. Welling, editors, Computer Vision - ECCV 2016 - 14th European Conference, Amsterdam, The Netherlands, October 11-14, 2016, Proceedings, Part IV, volume 9908 of Lecture Notes in Computer Science, pages 525–542. b. leibe, j. matas, n. sebe, and m. welling, editors, computer vision - eccv 2016 - 14th european conference, amsterdam, the netherlands, october 11-14, 2016 proceedings, part iv, volume 9908 of lecture notes in computer science, pages 525–542 0.80
Springer, 2016. スプリンガー、2016年。 0.60
[32] D. E. Rumelhart, G. E. Hinton, and R. J. Williams. D.E. Rumelhart、G.E. Hinton、R.J. Williams。 0.76
Learning Representations by Back-propagating Errors. バックプロパゲーションエラーによる表現の学習 0.70
Nature, 323(6088):533–536, 1986. 自然だ 323(6088):533–536, 1986. 0.75
[33] C. Sakr, J. Choi, Z. Wang, K. Gopalakrishnan, and N. R. Shanbhag. [33] C. Sakr, J. Choi, Z. Wang, K. Gopalakrishnan, N. R. Shanbhag 0.94
True gradient-based training of deep binary activated neural networks via continuous binarization. 連続二項化による深部二項活性化ニューラルネットワークの真の勾配に基づく訓練 0.64
In 2018 IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2018, Calgary, AB, Canada, April 15-20, 2018, pages 2346–2350. 2018年IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2018, Calgary, AB, Canada, April 15-20, 2018, page 2346–2350。 0.89
IEEE, 2018. 2018年、IEEE。 0.52
[34] Y. Shulman. [34]y.シュルマン 0.80
Diffprune: Neural network pruning with deterministic approximate binary gates and L0 regularization. diffprune: 決定論的近似バイナリゲートとl0正規化によるニューラルネットワークのプルーニング。 0.66
arXiv preprint arXiv:2012.03653, 2020. arXiv preprint arXiv:2012.03653, 2020 0.81
[35] T. Simons and D.-J. 35] t. simons と d.-j. 0.78
Lee. A review of binarized neural networks. Lee バイナリ化されたニューラルネットワークのレビュー。 0.58
Electronics, 8(6), 2019. エレクトロニックス、2019年8月6日。 0.58
[36] S. Srinivas and R. V. Babu. [36]S. SrinivasとR.V. Babu 0.91
Learning neural network architectures using backpropagation. バックプロパゲーションを用いたニューラルネットワークアーキテクチャの学習 0.68
In R. C. Wilson, E. R. Hancock, and W. A. P. Smith, editors, Proceedings of the British Machine Vision Conference 2016, BMVC 2016, York, UK, September 19-22, 2016. R.C. Wilson, E. R. Hancock, W. A. P. Smith, editors, Proceedings of the British Machine Vision Conference 2016 BMVC 2016, York, UK, September 19-22, 2016 0.90
BMVA Press, 2016. bmva press、2016年。 0.72
[37] D. Ulyanov, A. Vedaldi, and V. S. Lempitsky. D. Ulyanov, A. Vedaldi, V. S. Lempitsky 0.68
Instance normalization: The missing ingredient for fast stylization. インスタンス正規化: 高速なスタイライゼーションのための欠落成分。 0.59
CoRR, abs/1607.08022, 2016. CoRR, abs/1607.08022, 2016 0.76
[38] W. Wen, C. Wu, Y. Wang, Y. Chen, and H. Li. [38]W.Wn,C.Wu,Y.Wang,Y.C hen,H.Li 0.72
Learning structured sparsity in deep neural networks. 深層ニューラルネットワークにおける構造化空間の学習 0.73
In D. Lee, M. Sugiyama, U. Luxburg, I. Guyon, and R. Garnett, editors, Advances in Neural Information Processing Systems, volume 29. D. Lee, M. Sugiyama, U. Luxburg, I. Guyon, R. Garnett, editors, Advances in Neural Information Processing Systems, Volume 29。 0.89
Curran Associates, Inc., 2016. Curran Associates, Inc., 2016 0.71
[39] xxx. Group Normalization, Mar. [39] xxx。 グループ正規化、Mar。 0.79
2018. [40] S. Zagoruyko and N. Komodakis. 2018. [40] S. Zagoruyko と N. Komodakis 0.88
Wide residual networks. 広範囲のネットワーク。 0.75
In E. R. H. Richard C. Wilson and W. A. P. Smith, editors, Proceedings of the British Machine Vision Conference (BMVC), pages 87.1–87.12. e. r. h. richard c. wilson and w. a. p. smith, editors, proceedings of the british machine vision conference (bmvc) pages 87.1–87.12 0.71
BMVA Press, September 2016. bmva、2016年9月。 0.62
[41] D. Zhang, J. Yang, D. Ye, and G. Hua. [41]D.Zhang、J.Yang、D.Ye、G.Hua。 0.66
Lq-nets: Learned quantization for highly accurate and compact deep neural networks. lq-nets: 高精度でコンパクトなディープニューラルネットワークのための学習量子化。 0.62
In V. Ferrari, M. Hebert, C. Sminchisescu, and Y. Weiss, editors, Computer Vision – ECCV 2018, pages 373–390, Cham, 2018. V. Ferrari, M. Hebert, C. Sminchisescu, Y. Weiss, editors, Computer Vision – ECCV 2018, pages 373–390, Cham, 2018 0.90
Springer International Publishing. Springer International Publishing(英語) 0.71
[42] S. Zhou, Z. Ni, X. Zhou, H. Wen, Y. Wu, and Y. Zou. [42] S. Zhou, Z. Ni, X. Zhou, H. Wen, Y. Wu, Y. Zou 0.98
Dorefa-net: Training low bitwidth convolutional neural Dorefa-net:低ビット幅畳み込み神経の訓練 0.65
networks with low bitwidth gradients. ビット幅勾配の低いネットワークです 0.75
CoRR, abs/1606.06160, 2016. CoRR, abs/1606.06160, 2016 0.76
13 13 0.85
                           ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。