# (参考訳) A 14uJ/Decision Keyword Spotting Accelerator with In-SRAM-Computing and On Chip Learning for Customization [全文訳有]

A 14uJ/Decision Keyword Spotting Accelerator with In-SRAM-Computing and On Chip Learning for Customization ( http://arxiv.org/abs/2205.04665v1 )

ライセンス: CC BY 4.0
Yu-Hsiang Chiang, Tian-Sheuan Chang and Shyh Jye Jou(参考訳) 近年、キーワードスポッティングは消費者デバイスと対話する自然な方法として人気が高まっている。 しかし、常にオンになっている性質と音声の多様性から、低消費電力なデザインとユーザーカスタマイズが必要となる。 本稿では,SRAMベースのインメモリコンピューティング(IMC)とユーザカスタマイズのためのオンチップ学習を用いた低消費電力,エネルギー効率のキーワードスポッティングアクセラレータについて述べる。 しかし、IMCはマクロサイズ、限られた精度、非理想効果に制約されている。 上記の問題に対処するために,IMC対応モデル設計を用いたバイアス補償と微調整を提案する。 さらに,低精度エッジデバイスを用いた学習では量子化による誤差や勾配値がゼロとなるため,誤差スケーリングと小さな勾配蓄積を提案し,理想的なモデルトレーニングと同じ精度を実現する。 シミュレーションの結果,ユーザのカスタマイズにより,補正と微調整により精度損失を51.08\%から89.76\%に回復し,カスタマイズにより96.71\%に改善できることがわかった。 チップの実装は、決定当たり14ドルuj$でモデルの実行を成功させる。 最新技術と比較すると、より高精度なオンチップモデルカスタマイズ機能を備えた高効率な設計となる。

Keyword spotting has gained popularity as a natural way to interact with consumer devices in recent years. However, because of its always-on nature and the variety of speech, it necessitates a low-power design as well as user customization. This paper describes a low-power, energy-efficient keyword spotting accelerator with SRAM based in-memory computing (IMC) and on-chip learning for user customization. However, IMC is constrained by macro size, limited precision, and non-ideal effects. To address the issues mentioned above, this paper proposes bias compensation and fine-tuning using an IMC-aware model design. Furthermore, because learning with low-precision edge devices results in zero error and gradient values due to quantization, this paper proposes error scaling and small gradient accumulation to achieve the same accuracy as ideal model training. The simulation results show that with user customization, we can recover the accuracy loss from 51.08\% to 89.76\% with compensation and fine-tuning and further improve to 96.71\% with customization. The chip implementation can successfully run the model with only 14$uJ$ per decision. When compared to the state-of-the-art works, the presented design has higher energy efficiency with additional on-chip model customization capabilities for higher accuracy.
公開日: Tue, 10 May 2022 04:42:20 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。


    Page: /      
A 14uJ/Decision Keyword Spotting Accelerator with In-SRAM-Computing and On Chip Learning SRAMを用いた14uJ/決定キーワードスポッティング高速化とチップ学習 0.67
for Customization カスタマイズのために 0.59
Yu-Hsiang Chiang, Tian-Sheuan Chang, Senior Member, IEEE, and Shyh Jye Jou, Senior Member, IEEE Yu-Hsiang Chiang氏、Tian-Sheuan Chang氏、IEEEシニアメンバ、IEEEシニアメンバのShyh Jye Jou氏 0.67
1 2 2 0 2 y a M 0 1 1 2 2 0 2 y a m 0 1 である。 0.49
] R A . ] r a である。 0.44
s c [ 1 v 5 6 6 4 0 sc [ 1 v 5 6 6 4 0 0.34
. 5 0 2 2 : v i X r a . 5 0 2 2 : v i X r a 0.42
Abstract—Keyword spotting has gained popularity as a natural way to interact with consumer devices in recent years. abstract—keyword spottingは近年、消費者デバイスと対話するための自然な方法として人気を集めている。 0.63
However, because of its always-on nature and the variety of speech, it necessitates a low-power design as well as user customization. しかし、常にオンになっている性質と音声の多様性から、低消費電力なデザインとユーザーカスタマイズが必要となる。 0.67
This paper describes a low-power, energy-efficient keyword spotting accelerator with SRAM based in-memory computing (IMC) and on-chip learning for user customization. 本稿では,SRAMベースのインメモリコンピューティング(IMC)とユーザカスタマイズのためのオンチップ学習を用いた低消費電力,エネルギー効率のキーワードスポッティングアクセラレータについて述べる。 0.63
However, IMC is constrained by macro size, limited precision, and nonideal effects. しかし、IMCはマクロサイズ、限られた精度、非理想効果に制約されている。 0.62
To address the issues mentioned above, this paper proposes bias compensation and fine-tuning using an IMC-aware model design. 上記の問題に対処するために,IMC対応モデル設計を用いたバイアス補償と微調整を提案する。 0.76
Furthermore, because learning with low-precision edge devices results in zero error and gradient values due to quantization, this paper proposes error scaling and small gradient accumulation to achieve the same accuracy as ideal model training. さらに,低精度エッジデバイスを用いた学習では量子化による誤差や勾配値がゼロとなるため,誤差スケーリングと小さな勾配蓄積を提案し,理想的なモデルトレーニングと同じ精度を実現する。 0.83
The simulation results show that with user customization, we can recover the accuracy loss from 51.08% to 89.76% with compensation and fine-tuning and further improve to 96.71% with customization. シミュレーションの結果,ユーザのカスタマイズにより,補正と微調整により精度損失を51.08%から89.76%に回復し,カスタマイズにより96.71%に改善した。 0.81
The chip implementation can successfully run the model with only 14uJ per decision. チップの実装は、決定毎にわずか14uJでモデルを実行することができる。 0.66
When compared to the state-of-the-art works, the presented design has higher energy efficiency with additional on-chip model customization capabilities for higher accuracy. 最新技術と比較すると、より高精度なオンチップモデルカスタマイズ機能を備えた高効率な設計となる。 0.61
Index Terms—Quantized training, model personalization, on- 索引項-量化トレーニング、モデルパーソナライゼーション、on- 0.70
chip training I. INTRODUCTION チップトレーニング I. イントロダクション 0.67
Motivated by the breakthrough of deep learning in speech recognition, voice recognition using keyword spotting (KWS) is a natural and increasingly popular way to interact with consumer devices. 音声認識におけるディープラーニングのブレークスルーに動機づけられ、キーワードスポッティング(kws)を用いた音声認識は、消費者デバイスと対話するための自然な方法であり、ますます普及している。
訳抜け防止モード: 音声認識における深層学習のブレークスルーに動機づけられた キーワードスポッティング(KWS)を用いた音声認識は、消費者デバイスと対話する自然な、そしてますます人気のある方法である。
Since KWS is always on, it should have very low power for edge devices. KWSは常にオンなので、エッジデバイスにとって非常に低電力であるべきです。 0.69
Various works have been proposed for low-power KWS. 低出力kwに対する様々な研究が提案されている。 0.46
Zhang et al [1] implements several different KWS models on micro controllers to compare their accuracy and memory/compute requirements. Zhang et al [1] は、マイクロコントローラ上でいくつかの異なる KWS モデルを実装し、その正確さとメモリ/計算要求を比較する。
訳抜け防止モード: Zhang et al [ 1 ] はマイクロコントローラ上で複数の異なる KWS モデルを実装する 正確さとメモリ/計算要求を比較する。
Zheng et al [2] proposes a binary Zheng et al [2] はバイナリーを提案する 0.81
Manuscript received February 7, 2022; revised April 5, 2022; accepted May 2022年2月7日、2022年4月5日改正、5月受理。 0.62
2, 2022. This work was supported in part by Taiwan Semiconductor Manufacturing Company (TSMGrant and in part by the Ministry of Science and Technology, Taiwan, under Grant 110-2634-F-009-017,G rant 109-2639-E-009-001, Grant 110-2221-E-A49-148-M Y3, and Grant 110-26Grant 22-8-009-018-SB. 2, 2022. この研究は台湾半導体製造会社(tsmgrant)と台湾科学技術省が110-2634-f-009-017,g rant 109-2639-e-009-001, grant 110-2221-e-a49-148-m y3, grant 110-26grant 22-8-009-018-sbによって支援された。 0.48
The authors are with the Institute of Electronics, National Yang Ming Chiao Tung University, Hsinchu 30010, Taiwan (e-mail: q123783293@gmail.com , tschang@nycu.edu.tw, jerryjou@g2.nctu.edu .tw) 著者は、台湾の中央30010(eメール:q123783293@gmail.co m, tschang@nycu.edu.tw, jerryjou@g2.nctu.edu .tw)にある。 0.74
© 2022 IEEE. 2022年、IEEE。 0.49
Personal use of this material is permitted. この素材の個人使用は許可されている。 0.65
Permission from IEEE must be obtained for all other uses, in any current or future media, including reprinting/republish ing this material for advertising or promotional purposes, creating new collective works, for resale or redistribution to servers or lists, or reuse of any copyrighted component of this work in other works. IEEEからの許可は、広告又は宣伝目的のためにこの資料を再印刷または再出版すること、新しい集団作品の作成、サーバやリストの再販売または再配布、この作品の著作権のあるコンポーネントの再利用を含む、現在又は将来のメディアのあらゆる用途で取得されなければならない。 0.67
Y. -H. Chiang, T. -S. y -h。 Chiang, T. -S。 0.74
Chang and S. J. Jou, ”A 14uJ/Decision Keyword Spotting Accelerator with In-SRAM-Computing and On Chip Learning for Customization,” in IEEE Transactions on VLSI systems, 2022. changとs.j. jouは、ieee transactions on vlsi systems, 2022で、“14uj/decision keyword spotting accelerator with in-sram-computing and on chip learning for customization”と書いている。 0.49
doi: 10.1109/TVLSI.2022.3 172685. doi: 10.1109/tvlsi.2022.3 172685。 0.38
neural network-based design with on-chip self-learning to update the entire model. モデル全体を更新するためのオンチップセルフラーニングによるニューラルネットワークベースの設計。 0.63
Dbouk et al [3] uses recurrent attention network and hybrid digital and multibit in-memory computing for ultra low power KWS. Dbouk et al [3] は、超低消費電力 KWS のためのリカレントアテンションネットワークとハイブリッドデジタルおよびマルチビットインメモリコンピューティングを使用する。 0.85
Guo et al [4] proposes hybrid digital circuits and 16 64x64 SRAM-based in-memory computing (IMC) macros with 3-bit ADC for recurrent neural network-based KWS. Guo et al [4]は1664x64 SRAMベースのインメモリコンピューティング(IMC)マクロと3ビットADCのハイブリッドデジタル回路を提案する。 0.74
Liu et al [5] uses precision self-adaptive computing for a binary weight network to reduce power, and [6] uses mixed mode computing for low-power KWS. Liu et al [5] は二重項ネットワークの高精度自己適応計算を用いて消費電力を削減し, [6] は低消費電力 KWS に対して混合モード計算を用いる。 0.74
In summary, they reduce power consumption through recurrent models, quantized/binary neural network models, or voice activity detection. 要約すると、リカレントモデル、量子化/バイナリニューラルネットワークモデル、音声活動検出による消費電力を低減する。 0.72
However, their model design did not consider the underlying hardware constraints or non-ideal effects for IMC. しかし、彼らのモデル設計はハードウェアの制約やiccの理想的でない影響を考慮していなかった。 0.56
In addition to the low-power requirement, KWS models often face accuracy degradation due to the accent and pronunciation of different users in different regions. 低消費電力の要求に加えて、KWSモデルは、異なる地域の異なるユーザのアクセントと発音のために、しばしば精度の低下に直面します。 0.57
To recover accuracy, model personalization or customization is a popular technique for applications with data that vary significantly from person to person, such as KWS [7], human activity recognition [8], and handwriting recognition [9], which are demanded for edge AI devices. 精度を回復するために、モデルパーソナライズまたはカスタマイズは、エッジAIデバイスに要求されるKWS[7]、ヒューマンアクティビティ認識[8]、手書き認識[9]など、人によって大きく異なるデータを持つアプリケーションにとって一般的なテクニックである。 0.67
Model customization can be executed on either the chip or server side. モデルカスタマイズは、チップまたはサーバ側で実行することができる。 0.75
For KWS, on-chip model customization is preferred over the server-side one due to the privacy concern to retrain the entire model or finetune a pre-trained model with a small amount of local data. KWSの場合、オンチップモデルのカスタマイズは、モデル全体をトレーニングしたり、少量のローカルデータで事前訓練されたモデルを微調整するというプライバシー上の懸念のため、サーバ側よりも好まれる。 0.63
However, edge devices usually use low-precision fixed-point hardware that poses a big problem for high-precision training. しかし、エッジデバイスは通常、高精度なトレーニングにおいて大きな問題となる低精度の固定点ハードウェアを使用する。 0.56
This situation is getting worse for fine-tuning a pre-trained model since the errors and gradients are quite small in such a case, and their quantization will lead to zero error and gradient. このような場合、エラーや勾配が非常に小さく、量子化がエラーや勾配をゼロにするので、事前学習モデルの微調整では、この状況は悪化している。 0.69
Thus, fine-tuning will lead to catastrophic failure. したがって、微調整は破滅的な失敗につながる。 0.53
To solve above issues, this paper proposes a low-power KWS chip with SRAM-based IMC and on-chip learning for customization. そこで本稿では,sramベースのiccとオンチップ学習を用いた低消費電力kwsチップを提案する。 0.60
The model customization issue on lowprecision hardware is solved by the proposed error scaling, small gradient accumulation, and random gradients, which can restore the accuracy as the full precision fine-tuning. 低精度ハードウェアにおけるモデルカスタマイズ問題は、誤差スケーリング、小さな勾配蓄積、ランダム勾配によって解決され、完全精度の微調整として精度を回復することができる。 0.73
IMC is adopted for its highly parallel computation and ultralow power consumption. IMCは並列計算と超低消費電力で採用されている。 0.78
However, IMC also faces limited precision in the weight and activation and non-linearity effects of analog circuits. しかし、iccはアナログ回路の重量と活性化と非線形効果の精度も限られている。 0.68
Thus, this paper proposes an IMC-aware model that uses a binary neural network with in-memorybatch normalization (BN) to minimize the conversion between digital and analog. そこで本研究では,インメモリバッチ正規化(BN)を持つバイナリニューラルネットワークを用いて,ディジタルとアナログの変換を最小化するIMC対応モデルを提案する。 0.75
Only the first and final layer uses digital implementation due to its higher precision needs. 第1層と最終層のみが高い精度の要求のためにデジタル実装を使用する。 0.76
The non-ideal 非理想 0.36
effects are solved by bias compensation and fine-tuning. 効果はバイアス補償と微調整によって解決される。 0.64
The chip implemented shows higher energy efficiency compared to other state-of-the-art works with customization capability. 実装されたチップは、カスタマイズ機能を備えた他の最先端の作業よりも高いエネルギー効率を示している。 0.47
The remainder of the paper is organized as follows. 残りの論文は以下の通り整理される。 0.70
Section II shows the baseline model for KWS. 第2節は、KWSのベースラインモデルを示している。 0.52
Section III presents the proposed on-chip training for model customization. 第3節では,モデルカスタマイズのためのオンチップトレーニングを提案する。 0.49
Section IV shows the non-ideal effects of the IMC macro and how to solve them. 第4節では、MCマクロの非理想効果とその解法を示している。 0.65
Section V presents the proposed KWS chip architecture. セクションvは、提案されているkwsチップアーキテクチャを示す。 0.46
Section VI shows the experimental results and comparisons. 第6節は実験結果と比較を示す。 0.71
Finally, this paper is concluded in Section VII. 最後に、この論文は第7節でまとめられる。 0.61
In addition to the above model, for better model training results, we adopt the trainable offset for binarized activation [12], as shown in Fig 2. 上記のモデルに加えて、より優れたモデルトレーニング結果を得るために、図2に示すように2値化アクティベーション[12]のトレーニング可能なオフセットを採用する。 0.71
This offset value can be merged with BN in the inference phase, which will not incur additional overhead for hardware implementation. このオフセット値は推論フェーズでBNとマージできるが、ハードウェア実装のオーバーヘッドは発生しない。
訳抜け防止モード: このオフセット値は、推論フェーズにおいてBNとマージすることができる。 ハードウェア実装のオーバーヘッドは発生しない。
Fig 3 shows the trained offset value for each layer. 図3は各層のトレーニングされたオフセット値を示している。 0.69
Initial values are set to 0 for all layers. 初期値はすべての層で 0 に設定される。 0.81
The figure shows that the appropriate offset is not the same for each layer, and the trainable offset can effectively preserve the extracted features. 図は各層に対して適切なオフセットが同じでないことを示し、トレーニング可能なオフセットは抽出した特徴を効果的に保存することができる。 0.70
2 Fig. 2. A learnable offset before activation function to change the binarized threshold of different layer. 2 図2。 アクティベーション関数前の学習可能なオフセットは、異なる層の二項化しきい値を変更する。 0.56
For a positive offset(top right), more feature will be 1 after activation, for a negative offset(bottom right), more feature will be 0 after activation. 正のオフセット(右上)については、アクティベーション後により多くの機能が1になり、負のオフセット(右下)は、アクティベーション後に0になる。
訳抜け防止モード: 正のオフセット(右上)の場合、アクティベーション後により多くの機能が1になる。 負のオフセット(ボトム右)に対して さらなる機能はアクティベーション後に0になる。
Fig. 1. The proposed IMC aware KWS model. 図1。 提案されたIMCはKWSモデルを認識する。 0.38
The number in the block means output channel number, kernel size, pooling size from left to right. ブロック内の番号は、出力チャネル番号、カーネルサイズ、プールサイズを左から右に意味する。 0.82
Fig. 1 shows the overall IMC aware binary neural network model for KWS. 第1図は、KWSのMC認識バイナリニューラルネットワークモデル全体を示している。 0.68
The binary neural network is selected because the multibit ADC required for IMC could be simplified as a low area cost and low power sense amplifier (SA) when combined with in-memory BN [10]. インメモリBN[10]と組み合わせると、ICCに必要なマルチビットADCを低面積コストで低パワーセンス増幅器(SA)として単純化できるため、バイナリニューラルネットワークが選択される。 0.79
The input is 8-bit raw audio data of nearly one second length. 入力は、ほぼ1秒の8ビットの生オーディオデータである。 0.75
The model outputs the class of the input keyword. モデルは入力キーワードのクラスを出力します。 0.86
The model consists of one binarized sinc convolution layer [11], which is a learned filter bank to process raw audio. モデルは、生音声を処理するための学習されたフィルタバンクである二項化音素畳み込み層[11]からなる。 0.73
Compared to conventional MFCC, the computational complexity will be lower, and this also makes the model an end-to-end learning model. 従来のMFCCと比較すると、計算複雑性は低くなり、このモデルもエンドツーエンドの学習モデルとなる。 0.80
Following the filter banks, five binary convolution layers are adopted that use group convolution with group size set to 24 and in-memory BN as the basic block. フィルタバンクに続いて、グループサイズを24に設定したグループ畳み込みとインメモリBNを基本ブロックとする5つのバイナリ畳み込み層が採用される。 0.82
With in-memory BN, convolution and BN can be executed together within the array, and the array output can be a binary activation output that can be implemented by SAs instead of multibit ADCs. インメモリBNでは、畳み込みとBNは配列内で一緒に実行でき、配列出力はマルチビットADCの代わりにSAによって実装されるバイナリアクティベーション出力となる。 0.70
The weights of the sinc convolution layers are also binary for hardware consideration. sinc畳み込み層の重みもハードウェア考慮のためのバイナリである。 0.61
Thus, the model uses only binary computation in the convolution layer in inference, while the final classifier layer uses 8-bit fixed-point computation. したがって、モデルでは推論において畳み込み層で2進計算のみを使用し、最終分類層では8ビット固定点計算を用いる。 0.70
Fig. 3. Trained offset of each layer with initial zero value. 図3。 初期値ゼロで各レイヤのオフセットをトレーニングする。 0.66
A. Related Work For on-chip training and inference, the most recent studies show that training needs at least 8 bits of precision to ensure accuracy [13]–[15] although precision can be extremely low A.関連業務 オンチップトレーニングと推論に関して、最新の研究では、精度は極めて低いが[13]–[15]を保証するために、トレーニングには少なくとも8ビットの精度が必要であることが示されている。 0.70
at the inference phase. Most of the related work focuses on training models from scratch and building a software framework [16] for quantized training to reduce computational resources. 推論フェーズで 関連する作業のほとんどは、スクラッチからトレーニングモデルにフォーカスし、計算リソースを減らすための定量化トレーニングのためのソフトウェアフレームワークの構築 [16] です。 0.53
Yang et al [14] observes the requirement of a large bit width to realize model convergence, and thus introduce a layer-wise scaling factor and an extra flag bit to solve the problem. Yang et al [14] は、モデル収束を実現するために大きなビット幅の要求を観測し、この問題を解決するために層単位でのスケーリング係数と余分なフラグビットを導入する。 0.75
Instead, this paper uses a more straightforward scaling method, as mentioned later. その代わり、本論文では、後述のより簡単なスケーリング手法を用いる。 0.66
Zhu et al [15] suggests clipping the gradient value for integer training, but the clipping value is based on the cosine distance between the floating point gradient and its quantize-dequantized counterpart, which is impractical in the edge device. Zhu et al [15] は整数トレーニングの勾配値のクリッピングを提案するが、クリッピング値は、浮動小数点勾配と、エッジデバイスでは実用的でない量子化復号化値との間の余弦距離に基づいている。 0.76
Banner et al [13] proposes the Range BN for a higher tolerance to quantization noise, but collecting BN statistics has a high overhead on hardware. Bannerら[13]は、量子化ノイズに対する高い耐性のためにRange BNを提案するが、BN統計の収集はハードウェアに高いオーバーヘッドを与える。 0.74
Furthermore, since a small training data set has too much variation, changing the BN statistics may make training unstable. さらに、小さなトレーニングデータセットが多すぎるため、BN統計を変更することでトレーニングが不安定になる可能性がある。 0.67
Therefore, this paper decides to freeze the BN statistics during training. そこで本研究では,トレーニング中のBN統計を凍結することを決定した。 0.58
B. Model Customization b.モデルのカスタマイズ 0.86
For model customization, モデルのカスタマイズのためです。 0.49
this paper fine-tunes the last classification layer, which can avoid computational overhead and storage for backpropagation of the internal layers. 本稿では,内部層を後方伝播するための計算オーバーヘッドや記憶を回避できる最終分類層を微調整する。 0.76
Additionally, the required feature map will be used right after the error calculation without storing it in a buffer. さらに、必要なフィーチャーマップは、バッファに格納することなく、エラー計算の直後に使用される。 0.73
This will also be hardware-friendly. これはハードウェアフレンドリーでもある。 0.64
To implement this fine-tuning in hardware, we choose 8 bits fixed-point for the training part since fixed-point numbers are more hardware-friendly than floating-point numbers. この微調整をハードウェアに実装するために,固定点数は浮動小数点数よりもハードウェアフレンドリであるため,トレーニング部に8ビットの固定点を選択する。 0.69
However, when this on-chip fine-tuning is implemented with hardwarefriendly quantized computation units, it is easy for the onchip fine-tuning to fail because of the quantized value. しかし、このオンチップ微調整をハードウェアフレンドリーな量子化計算ユニットで実装すると、量子化値のためにオンチップ微調整が失敗しやすい。 0.69
In the following, we will propose hardware-oriented techniques to make on-chip fine-tuning more robust and hardware-friendly. 以下に、チップ上の微調整をより堅牢でハードウェアフレンドリーにするためのハードウェア指向技術を提案する。 0.62
C. Error scaling C.エラースケーリング 0.82
Training from scratch in a low-precision format has been proven to work well. 低精度のフォーマットでスクラッチからトレーニングすることで、うまく機能することが証明されている。 0.48
However, when fine-tuning a pre-trained model, most of the error values will be close to zero, as shown in Fig 4, since the model has converged well. しかし、事前学習されたモデルを微調整すると、モデルがうまく収束しているため、ほとんどの誤差値は図4に示すようにゼロに近い値になる。 0.75
These small error values will be quantized to zero after quantization, causing the model not to learn any information from the personal data. これらの小さなエラー値は量子化後にゼロに量子化され、モデルが個人データから情報を取得しないようにする。 0.77
Thus, we add a scaling factor before the error quantization. したがって、エラー量子化の前にスケーリング係数を追加する。 0.75
For a desired scale error ScaleError as shown in (1), its scaling factor can be derived as (2) to make training more general. 1)に示すような、望ましいスケールエラーのスケールエラーに対しては、そのスケーリング係数を(2)トレーニングをより一般化するために導出することができる。
訳抜け防止モード: 所望のスケールエラー スケールエラー 1 で示される そのスケーリング係数は (2 ) として導出できる。 訓練をもっと一般的なものにするためです
This method does not need an extra flag bit, as in [14] to indicate whether the absolute value is smaller than the scaling factor. 絶対値がスケーリング係数より小さいかどうかを示すために[14]のように、このメソッドはフラグビットを余分に必要としない。 0.79
The error scaling works as follows. エラースケーリングは以下のとおり動作する。 0.76
Assuming that we want the error values distributed between 1 and -1 to match the bit format, we need different scaling factors for different error distributions to make training more general. 1 から -1 に分散したエラー値をビットフォーマットにマッチさせたいと仮定すると、トレーニングをより一般化するために、異なるエラー分布のスケーリング係数が必要になります。 0.73
Therefore, we use (1) to scale the error values, where the scaling factor s is calculated by the extreme error value shown in (2) to ensure that the distribution could be expressed completely by the limited bit format. したがって,(1) 誤差値のスケーリングには,(2) に示す極端誤差値によってスケーリング係数 s が計算され,その分布が限られたビット形式で完全に表現できることを保証する。 0.77
This method does not need an extra この方法は余分に必要ありません 0.79
3 Fig. 4. The Gradient distribution of our KWS model on the personal dataset before quantize(top) and after quantize(bottom). 3 図4。 量子化(top)および量子化後の個人データセット上でのkwsモデルの勾配分布(bottom)
訳抜け防止モード: 3 図4。 量子化前の個人データセットにおけるkwsモデルの勾配分布(top ) そして、quantize(bottom )の後に。
flag bit, as in [14] to indicate whether the absolute value is smaller than the scaling factor. 絶対値がスケーリング係数より小さいかどうかを示す[14]のようにフラグビット。 0.68
ScaleError = error ∗ 2s ScaleError = error ∗ 2s 0.50
s = (cid:100)log2( s = (cid:100)log2( 0.43
1 max(|error|) 1 max (複数形 maxs) 0.55
)(cid:101) (1) )cid:101) (1) 0.44
(2) D. Small gradient accumulation (2) D.小さな勾配の蓄積 0.59
As mentioned above, most of the gradient values are close to zero after quantization, and therefore the gradient values will be too small to change the model weights. 上述したように、勾配値のほとんどが量子化後のゼロに近いため、勾配値はモデル重みを変えるには小さすぎる。 0.66
In addition, these gradient values will become smaller updated weight values since the learning rate during fine-tuning is also quite small, which will make the model easily stop learning at the early training stage. さらに、微調整中の学習率も極めて小さいため、これらの勾配値がより小さい更新重量値になるため、初期トレーニング段階での学習が容易に停止される。 0.71
To avoid this, we accumulate the gradient whose value is smaller than the threshold. これを避けるために,しきい値よりも小さい勾配を蓄積する。 0.68
Once the accumulated gradient is larger than a threshold, we use the accumulated gradient to update the weight and then reset the accumulated value to 蓄積した勾配が閾値よりも大きくなると、蓄積した勾配を使って重量を更新し、蓄積した値をリセットする。 0.72
0. These accumulated values are in 16 bit fixed-point format to ensure that the training will not use any full precision number. これらの累積値は16ビット固定ポイント形式であり、トレーニングが完全な精度番号を使用しないことを保証する。 0.80
The pseudocode is shown in Algorithm 擬似コードはアルゴリズムで示されます 0.77
1. In which the quantization threshold Gth depends on the learning rate LR. 1.量子化閾値Gthが学習率LRに依存する場合。 0.69
Eq. (3) shows the relationship, where min(weight) means the minimum weight value that can be expressed. eqだ (3)は、min(weight)が表現できる最小の重量値を意味する関係を示す。 0.72
Table I shows some examples of the threshold value when the weight value is quantized to 1 sign bit and 7 decimal bits, which means that min(weight) is 1/128. 表1は、重み値が1シグビットと7シグニマルビットに量子化されたときのしきい値の例を示しており、min(重み)が1/128であることを意味する。
訳抜け防止モード: 表 i のしきい値の例を示す。 重量値は1符号ビットに量子化される そして 7 進数ビット、つまり min(weight ) は 1/128 である。
Gth = min(weight)/2 Gth= min (複数形 mins) 0.53
LR (3) LR (3) 0.42
Algorithm 1 Small Gradient Accumulation(SGA) G : The weights gradient value of this iteration Gaccu : The accumulated gradient value Gth : The accumulation threshold Gupdate : The gradient value used to update weights if G < Gth then アルゴリズム1 小さい勾配の蓄積(sga) g : この反復の重みの勾配値 gaccu : 蓄積の勾配値 gth : 蓄積の閾値 gupdate : g < gth であれば重みの更新に用いる勾配値 0.75
else if Gaccu < Gth then Gaccu ← Gaccu + G Gupdate ← Gaccu + G Gaccu ← 0 その他 Gaccu < Gth ならば Gaccu > Gaccu + G Gupdate > Gaccu + G Gaccu > 0 である。 0.73
end if else end if Gupdate ← G 終われば その他 Gupdate > G の終了 0.62
EXAMPLES FOR THRESHOLD VALUES WITH MIN(WEIGHT)=1/128 min(weight)=1/128のしきい値の例 0.66
TABLE I LR=0.05 テーブルI LR=0.05 0.34
LR=0.01 LR=0.001 LR=0.01 LR=0.001 0.20
Threshold 0.078 しきい値 0.078 0.49
0.039 0.39 0.039 0.39 0.29
E. Random gradient prediction(RGP) E.ランダム勾配予測(RGP) 0.88
When the training data set is small enough, we can read all data in a single batch, which means that the input data for the last layer will be very close in each epoch. トレーニングデータセットが十分に小さい場合は、すべてのデータを単一のバッチで読み込むことができます。
訳抜け防止モード: トレーニングデータセットが十分に小さい場合は、すべてのデータを1回のバッチで読み込むことができます。 つまり、最後のレイヤの入力データは各エポックに非常に近いことになる。
Thus, we add Gaussian noise to predict the gradient of the next epoch as (4). したがって、次のエポックの勾配を (4) として予測するためにガウス雑音を加える。 0.69
G(cid:48) = G + quantize( g(cid:48) = g + quantize() 0.39
rand λ ) (4) ランド λ ) (4) 0.42
In (4), rand is a random sample of the Gaussian distribution, and the value of λ is a hyperparameter. (4) において、ランドはガウス分布のランダムなサンプルであり、λ の値は超パラメータである。 0.76
With a suitable value of λ , the noise value will not dominate the update direction and can avoid the model stuck at the local minimum. λ の適切な値では、ノイズ値が更新方向を支配せず、局所的な最小値に固定されたモデルを避けることができる。 0.79
Another advantage is that we can ensure that the small truncated error caused by the hardware calculation will not affect the overall training of the model. もう1つの利点は、ハードウェア計算によって引き起こされる小さな停止エラーが、モデル全体のトレーニングに影響を与えないことを保証することである。 0.64
Fig 5 illustrates this weight update method. 図5は、この重み更新方法を示している。 0.59
Fig. 5. (a) Weight update with random gradient prediction, where the yellow arrow means the random direction. 図5。 (a)黄色矢印がランダム方向を意味する場合のランダム勾配予測による重み更新。 0.67
(b) Weight update without random gradient prediction. (b)ランダム勾配予測なしでの軽量化。 0.72
4 macro contains 8 64 × 64 banks as Fig 6 to compute eight outputs, which is equivalent to the size of 4KBytes. 4 マクロは、fig 6として8つの64×64バンクを含み、8つの出力を計算する。 0.53
This macro uses 8T SRAM bit cells from the foundry to avoid a read disturb problem. このマクロは、8T SRAMビットセルをファウントリーから使用し、読み取り障害問題を回避する。 0.77
For multiplication and accumulation in a convolution, weights are first written into the 8T SRAM array. 畳み込みにおける乗算と蓄積のために、重みはまず8T SRAMアレイに書き込まれる。 0.73
The read bitlines (RBL) are precharged according to the input data. リードビットライン(RBL)は、入力データに応じてプリチャージされる。 0.72
Then a wordline of weights are read from the SRAM to decide whether to discharge or keep the RBL voltage according to the weight as the multiplication results. そして、SRAMから重みのワードラインを読み出し、乗算結果として重みに応じてRBL電圧を放電するか保持するかを決定する。 0.79
These results are accumulated and averaged by charge sharing on AVG lines (AV GP and AV GN ) based on their sign. これらの結果は, AVG線(AV GP, AV GN)上での電荷共有によって蓄積および平均化される。 0.81
Finally, the AVG lines will be sent to SAs to convert them into 1-bit output results. 最後に、AVGラインはSAに送信され、1ビットの出力結果に変換する。 0.69
For more details, see [17]. 詳細は[17]を参照のこと。 0.79
Due to this analog computing for multiply and average (MAV), IMC has some model design limitations and non-ideal effects as shown below. 乗算と平均(MAV)のためのこのアナログ計算のため、MCCは下記のようなモデル設計の制限と非理想効果を持つ。 0.73
Fig. 6. Architecture of the adopted IMC design [17]. 図6。 採用したicc設計のアーキテクチャ [17] 0.59
A. Limited BN range and value A.制限BN範囲と値 0.79
BN is set to 1. BN は 1 に設定される。 0.84
Thus, bias =(cid:80)63 したがって、バイアス = (cid:80)63 0.76
The in-memory BN mapping is the same as the weight mapping, which will map a bias value to a wordline of memory cells. メモリ内BNマッピングは、メモリセルのワードラインにバイアス値をマッピングするウェイトマッピングと同じである。 0.67
For example, to map 32 to our 64x64 IMC array, half of a wordline of memory cells will store ’1’ as ’+1’, and the other half will store ’0’ as ’-1’. 例えば、32を64x64 IMC配列にマップするには、メモリセルのワードラインの半分は’1’を+1’として、残りの半分は’0’を’1’として保存します。 0.83
The input for the in-memory i=0 Wi. インメモリi=0 wiの入力。 0.77
For example, assume that bias = W0 + W1 + W2 + W3. 例えば、バイアス = W0 + W1 + W2 + W3 とする。 0.86
If all Wi = 1, bias = 4. すべてのWi = 1 ならば、バイアス = 4 である。 0.66
If W0 = −1 and other Wi = 1, bias = -1 + 1 + 1 +1 = 2, Thus, the BN bias is even only if the width of the memory array is even (as in our case). w0 = −1 と他の wi = 1 がバイアス = -1 + 1 + 1 +1 = 2 であれば、bn バイアスは(我々の場合のように)メモリ配列の幅が偶数である場合に限る。 0.73
Similarly, the BN bias will be odd only if the width of the memory array is odd. 同様に、BNバイアスはメモリアレイの幅が奇数である場合にのみ奇数となる。 0.78
To fit such constraints for in-memory BN mapping, we tried four different mapping methods: add, absolute add, sub, and absolute sub, on the target model. このようなメモリ内bnマッピングの制約を満たすために、ターゲットモデル上でadd, absolute add, sub, and absolute subという4つのマッピング方法を試しました。 0.75
The one with the lowest accuracy drop will be selected as the choice. 最も精度の低いものは選択として選択される。 0.64
Furthermore, the BN bias value will be limited to [-64, 64] due to the crossbar size of our IMC macro. さらに、BNバイアス値はIMCマクロのクロスバーサイズのために[-64, 64]に制限される。 0.63
To solve this problem, we first analyze the distribution of the BN bias, as shown in Fig 7. この問題を解決するために,まず,図7に示すようにbnバイアスの分布を解析する。 0.84
In this case, most of the BN bias does not exceed the limitation of [-64, 64], and thus the limited BN range has almost no impact on the accuracy of the model. この場合、BNバイアスの大部分は[-64, 64]の制限を超えないので、BN範囲の制限はモデルの精度にほとんど影響を与えない。 0.69
MACRO The IMC macro used in this paper is based on the binary neural network macro from our previous work [17]. MACRO 本論文で使用したIMCマクロは,これまでの研究[17]から得られたバイナリニューラルネットワークマクロに基づいている。 0.78
One IMC B. MAV offset and SA sensing variation IMCの1例 B.MAVオフセットとSA感度変動 0.68
The convolution result of the IMC macro is not as ideal as in the software case due to the MAV offset and SA sensing variations. IMCマクロの畳み込み結果は、MAVオフセットとSAセンシングのバリエーションのため、ソフトウェアの場合ほど理想的ではない。 0.57
This will lead to a catastrophic failure of the model if we do not take any compensation measures. これにより、補償措置を取らないと、モデルが壊滅的な失敗に陥ります。 0.70
For the MAV MAVのために 0.89
layer is (L1: 100, L2: 100, L3: 50, L4: 25, L5: 25, L6: 12.5) due to the pooling layer. 層はプール層のため(l1: 100, l2: 100, l3: 50, l4: 25 l5: 25 l6: 12.5)である。 0.81
5 Fig. 8. Overall hardware architecture for the inference part. 5 図8。 推論部分の全体的なハードウェアアーキテクチャ。 0.58
For better clarity, we only draw the test register connection to layer 2 and layer 3. より明確にするために、テストレジスタ接続をレイヤ2とレイヤ3にのみ描画する。 0.70
Fig. 9. The block diagram for layers with IMC. 第9話。 IMCを用いたレイヤのブロックダイアグラム。 0.55
B. Sinc convolution circuits B.Sinc畳み込み回路 0.78
Fig. 10 shows the block diagram for the sinc convolution layer, which consists of 8 PEs for 8 channel results in a single cycle to meet throughput requirements. 第10図は、スループット要求を満たすため、1サイクルで8つのPEからなるシンク畳み込み層のブロック図を示している。 0.63
Each PE computes 15(kernel size)×8(input bitwidth) XNOR operations for binary multiplicaion, and accumulates them along with the BN bias as the channel output. 各PEは、バイナリ多重化のための15(カーネルサイズ)×8(インプットビット幅)XNOR演算を演算し、チャネル出力としてBNバイアスとともに蓄積する。 0.79
The BN computation in this layer is also simplified as a bias value as the in-memory BN due to the binary output, which can be implemented with an adder instead of complex circuits. この層におけるBN計算は、複雑な回路の代わりに加算器で実装できるバイナリ出力のため、インメモリBNのバイアス値として単純化される。 0.78
Fig. 10. Digital Sinc convolution circuits. 第10話。 デジタルシンク畳み込み回路 0.47
C. On-Chip Training circuits C.オンチップトレーニング回路 0.73
Fig. 11 shows the proposed on-chip training flow for model customization. 第11図は、モデルカスタマイズのためのオンチップトレーニングフローを示す。 0.71
Fig 12 shows the hardware block diagram of the training circuits. 図12は、トレーニング回路のハードウェアブロック図を示している。 0.84
First, the input feature for the last layer まず、最後のレイヤの入力機能 0.58
Fig. 7. BN bias distribution of our KWS model. 第7話。 KWSモデルのBNバイアス分布について検討した。 0.48
Best viewed in color. 色が一番よく見える。 0.75
offset, the MAV result is decided by the voltage difference between AV Gp and AV Gn. オフセットすると、AVGpとAVGnとの電圧差によりMAV結果が決定される。 0.73
This voltage difference shall be zero if the numbers of positive and negative values are the same in the ideal case. この電圧差は、理想の場合において正値と負値の数が同じであればゼロとなる。 0.87
However, this difference (denoted as the MAV offset) is not zero due to the matching problem. しかし、この差(MAVオフセットと表記される)はマッチング問題のためにゼロではない。 0.74
For SA sensing variation, the requirement of SA circuit input resolution is very high. SA感度変動の場合、SA回路入力解像度の要求は非常に高い。 0.70
Therefore, when the difference of two inputs is small, the variation may lead to the wrong comparison result. したがって、2つの入力の差が小さい場合、その変動は間違った比較結果につながる可能性がある。 0.81
To solve above issues, we treat the MAV offset and SA variations as a random offset noise for inference, which is based on the Monte-Carlo simulation results with PVT variations. この問題を解決するために,mavオフセットとsa変動を,pvt変動を用いたモンテカルロシミュレーション結果に基づく推定のためのランダムオフセットノイズとして扱う。 0.76
We applied this random noise to the model inference and compared the convolution results with the original ones to collect the statistics of their difference. このランダムノイズをモデル推論に適用し, 畳み込み結果と元の雑音との比較を行い, その差の統計値を求めた。 0.81
A bias is then determined based on the statistics to restore the results as the original ones. バイアスは統計に基づいて決定され、結果が元のものとして復元される。 0.74
This extra bias can be combined with the inmemory BN bias, since most of the BN bias values are within the limitation. この余分なバイアスは、BNバイアスの大部分が制限の範囲内であるため、インメモリBNバイアスと組み合わせることができる。 0.72
After the compensation, we fine-tune the model for a few epochs, which could almost recover the accuracy drop due to these non-ideal effects. 補正後、これらの非理想的効果により精度低下をほぼ回復できるいくつかのエポックについてモデルを微調整する。 0.68
A. Overall architecture a. 全体的なアーキテクチャ 0.71
V. PROPOSED ARCHITECTURE Fig. 8 shows the overall architecture for our 6 layer KWS model. V.提案建築 図8は、6層KWSモデルの全体的なアーキテクチャを示しています。 0.66
This design stores all weights in the IMC macros to avoid weight load/store overhead. この設計では、重量負荷/貯蔵オーバーヘッドを避けるため、全ての重量をMCマクロに格納する。 0.58
For the model, we implement the first layer with digital circuits since the resolution of SA is too low to achieve the model requirement. モデルでは,SAの解像度が低すぎてモデル要求を満たすことができないため,第1層をディジタル回路で実装する。 0.77
Moreover, the final global average pooling (GAP) layer and fully connected layer are implemented by digital circuits as well for higher bit precision requirements. さらに、最終グローバル平均プーリング(GAP)層と完全連結層は、デジタル回路によって実装され、高いビット精度が要求される。 0.77
The other binarized group convolution layers are all implemented by the IMC macro as shown in Fig. 9, which consists of an IMC macro for convolution and in-memory BN computation and digital domain computations such as BN decoder for correct sign operation, channel shuffle and pooing. 他の二元化群畳み込み層は、図9に示すように、全てiccマクロによって実装され、畳み込みおよびインメモリbn計算用のiccマクロと、正しい符号操作のためのbnデコーダ、チャネルシャッフル、プーリングのためのデジタルドメイン計算からなる。 0.75
The input data are from the previous layer or the buffer, and the output data is also output to the next layer or buffer. 入力データは、前の層またはバッファからであり、出力データも次の層またはバッファに出力される。 0.80
In addition, we have added a test mode to check the correctness and impact of non-ideal effects of each IMC macro, which can monitor the circuit variation of MAV and SA based on the input pattern and the result of each IMC macro. さらに、各IMCマクロの入力パターンと結果に基づいて、MAVおよびSAの回路変動をモニタできる、各IMCマクロの非理想効果の正しさと影響を確認するテストモードを追加した。 0.69
For our KWS task, the hardware utilization of each KWSタスクのハードウェア利用について 0.48
A. Results of Model Customization A. モデルカスタマイズの成果 0.76
1) Original dataset: In our experiment, we use ten keywords in the Google speech command dataset (GSCD). 1)オリジナルデータセット: 実験では,Google音声コマンドデータセット(GSCD)に10のキーワードを使用します。 0.82
They are: yes, no, up, down, left, right, stop, go, on, off. それらは、イエス、ノー、アップ、ダウン、左、右、ストップ、ゴー、オン、オフです。 0.60
Each utterance is an audio file of nearly one second with a total of 18,947 training utterance and 4,735 test utterance. 各発話は1秒近いオーディオファイルであり、合計18,947の訓練発話と4,735の試験発話である。 0.73
2) Personal dataset: The personal data set is collected from three people with 607 utterance, where each utterance is also nearly one second. 2) 個人データセット: 個人データセットは、607発話の3人から収集され、各発話もほぼ1秒である。 0.79
We use three utterance from each person as the training set for each keyword, which means that the customization training set will have 3 utterance x10 keywords x3 people = 90 training utterance. つまり、カスタマイズ訓練セットは、3つの発話x10キーワードx3 people = 90の訓練発話を持つことになる。
訳抜け防止モード: 各キーワードの訓練セットとして,各人からの3つの発話を用いる。 つまり、カスタマイズトレーニングセットには3つの発話x10キーワードx3 people = 90トレーニング発話が含まれる。
The rest are used as test. 残りはテストとして使用される。 0.73
In our experiments, we only show customization for three people at the same time to mimic the real application scenario in a family. 実験では、家族内の実際のアプリケーションシナリオを模倣するために、同時に3人のカスタマイズしか示していません。 0.75
3) Settings: For the original model, we randomly add Gaussian noise with values within 0.001 to 0.015 and randomly shift the audio by -0.5 to 0.5 seconds for data augmentation, and train the model for 500 epochs with Adam optimizer. 3)設定:元のモデルでは、0.001から0.015の範囲でガウスノイズをランダムに追加し、データ拡張のために-0.5から0.5秒ランダムにオーディオをシフトし、AdamOptimatorで500エポックのモデルをトレーニングする。 0.72
The initial learning rate is set to 0.01 and gradually decreased to the minimum value 1e-9 during training. 初期学習率を0.01に設定し、訓練中の最小値1e-9に徐々に低下させる。 0.70
For model customization, we fine-tune the model using the SGD optimizer for 1000 epochs. モデルカスタマイズでは,1000エポックのSGDオプティマイザを用いてモデルを微調整する。 0.67
The initial learning rate is set at 1/16, which is decreased every 10 epochs by a factor of 0.5 to the minimum value of 1/128. 初期学習率は1/16と設定され、10エポック毎に0.5から1/128の最小値に減少する。 0.78
It should be noted that the learning rate cannot be set too low. 学習率があまりにも低く設定できない点に注意が必要だ。 0.74
Otherwise, the gradient value will be too small to update the parameters after multiplied by the learning rate. さもないと、勾配値は学習率に乗じてパラメータを更新するには小さすぎる。 0.63
The quantization format for fine-tuning the classifier layer is listed below: 分類器層を微調整する量子化形式を以下に示す。 0.80
• weight: 1 sign bit, 7 decimal bits • activation: 1 sign bit, 3 integer bits, 4 decimal bits • gradient: 1 sign bit, 7 decimal bits • error: 1 sign bit, 7 decimal bits 4) Performance of the original model: Table II shows the accuracy result of the original model on GSCD and related comparisons. • 重み: 1 sign bit, 7 decimal bits • アクティベーション: 1 sign bit, 3 integer bits, 4 decimal bits • 勾配: 1 sign bit, 7 decimal bits • エラー: 1 sign bit, 7 decimal bits 4) 元のモデルの性能: Table II は、GSCDと関連する比較において、元のモデルの精度結果を示している。 0.86
Our compressed model uses a 7x smaller model size with more than 90% accuracy due to the binary neural network compared to other state-of-the-art work. 圧縮モデルでは,従来の2値ニューラルネットワークと比較して,90%以上の精度でモデルサイズが7倍小さくなっている。 0.84
TABLE II Model テーブルII モデル 0.69
Accuracy Parameters Model Size (bits) 正確さ パラメータモデルサイズ(ビット) 0.75
DS-CNN-S [1] TC-ResNet8 [18] DS-CNN-S[1] TC-ResNet8[18] 0.33
SincConv+GDSConv [19] SincConv+GDSConv [19] 0.42
Ours 94.1% 96.1% 96.4% 90.83% 我々の 94.1% 96.1% 96.4% 90.83% 0.45
39K 66K 62K 125K 39k 66k 62k 125k 0.28
1.2M 2.1M 2M 171K 1.2m 2.1m 2m 171k 0.39
Table III shows the accuracy result of the original model in GSCD considering the hardware constraints mentioned previously. 表iiiは、前述したハードウェア制約を考慮したgscdのオリジナルモデルの精度を示す。 0.69
In which the FC quantized means that the weights in the fully connected layer is quantized to 8 bits, BN constraints include the influence of the limited range and limited value, and MAV offset and SA sensing variation are the non-ideal effects caused by the IMC macro. FC量子化は、全連結層の重みが8ビットに量子化され、BN制約は制限範囲と制限値の影響を含み、MAVオフセットとSAセンシングのばらつきはIMCマクロによって引き起こされる非理想効果である。 0.75
For the simulation with the results in the MAV offset and SA sensing variation, MAVオフセットとSA感度変動のシミュレーションについて 0.48
Fig. 11. Overall flow for the training part. 第11話。 トレーニング部全体のフロー。 0.48
Fig. 12. Block diagram for the training part. 第12話。 トレーニング部分のブロックダイアグラム。 0.48
will be stored in an SRAM buffer for data reuse during the training process. トレーニングプロセス中にデータの再利用のためにSRAMバッファに格納される。 0.81
Then the feature is read from the buffer for the last-layer inference to get the classification result. その後、特徴をバッファから読み出し、最終層推論を行い、分類結果を得る。 0.76
Based on the result, we calculate the error of the cross-entropy loss and its derivative for backpropagation. その結果から,クロスエントロピー損失とその導関数の誤差を計算した。
訳抜け防止モード: その結果に基づき,クロス-エントロピー損失の誤差を算出する。 バックプロパゲーションの誘導体です
To avoid exponential computation in digital circuits, we replace it with a lookup table since the fully connected layer output are all lowprecision fixed-point values. ディジタル回路における指数関数計算を避けるため、全連結層出力がすべて低精度の固定点値であるため、ルックアップテーブルで置き換える。 0.78
The look-up table can easily cover all situations with a small size register file. ルックアップテーブルは、小さなサイズのレジスタファイルですべての状況を簡単にカバーできる。 0.82
Furthermore, the division during the error calculation is fixed to 8 bits. さらに、誤差計算中の分割を8ビットに固定する。 0.68
Once we get the backward error, we can apply the gradient scaling to avoid the zero-gradient situation, as mentioned before. 後ろ向きの誤差が得られたら、前述したようなゼロ段階の状況を避けるために勾配スケーリングを適用することができる。 0.65
The scaling factor here is treated as a hyperparameter which considers the distribution and the batch size to find a hardware-friendly scaling factor. ここでのスケーリング係数はハイパーパラメータとして扱われ、分散とバッチサイズを考慮して、ハードウェアフレンドリーなスケーリング係数を見つける。 0.60
In our work, since the scaling factor searched by the software simulation is 128, and the batch size is 90, the ideal scaling factor for hardware should be 1.42. 本研究では,ソフトウェアシミュレーションで検索したスケーリング係数が128であり,バッチサイズが90であるため,ハードウェアの理想的なスケーリング係数は1.42である。 0.81
The reason of the different scaling factors is that the error in Pytorch will be calculated in parallel and averaged in batch, but it is calculated sample by sample in hardware. 異なるスケーリング要因の理由は、Pytorchのエラーを並列に計算し、バッチで平均化するが、ハードウェアのサンプルによって計算されるからである。 0.74
Thus, the ideal hardware scaling factor should be the scaling factor of software/batch size. したがって、理想的なハードウェアスケーリングファクタは、ソフトウェア/バッチサイズのスケーリングファクタであるべきです。 0.61
This scaling factor is further simplified to 1.375 to replace multiplication with shift and add. このスケーリング係数はさらに 1.375 に簡略化され、乗算を shift と add に置き換える。 0.73
The error will be multiplied with the input to obtain the weight gradient and then stored in the gradient SRAM until the gradient computation for all data. 誤差は入力に乗じて重み勾配を取得し、すべてのデータの勾配計算まで勾配SRAMに格納する。 0.54
These gradient values will be checked to see whether the value is higher than the threshold. これらの勾配値は閾値よりも高い値かどうかを確認する。 0.73
Only sufficiently large gradients will be used to update the weights. 重量を更新するのに十分な大きな勾配しか使われない。 0.68
table are the averages of the five random seed simulations to cover the randomness. 表は、ランダム性をカバーする5つのランダムシードシミュレーションの平均である。 0.79
The result has shown that non-ideal effects will cause the model failure. その結果、非理想的効果がモデル失敗を引き起こすことが示された。 0.70
However, accuracy can be restored after the proposed bias compensation and fine-tuning. しかし,提案するバイアス補償と微調整の後に精度を回復することができる。 0.72
5) Customization: Table IV shows the customization result. 5) カスタマイズ: テーブルivはカスタマイズ結果を表示する。 0.85
In this case, the baseline (full-precision) is fine-tuned with full-precision on GPU as a reference. この場合、ベースライン(全精度)は、参照としてGPUの完全精度で微調整される。 0.66
As shown in the table, naively fine-tuning on the quantized hardware will significantly degrade the performance. 表に示すように、量子化ハードウェアの微調整によって性能が大幅に低下する。 0.70
With the proposed method, we can achieve a much better performance close to the full precision one. 提案手法では,完全精度に近い性能を実現することができる。 0.62
In the case of training with RGP, the accuracy is higher than in the full precision baseline, which seems to be unreasonable. RGPを用いたトレーニングの場合、精度は完全精度ベースラインよりも高く、理にかなっているように思われる。 0.71
This could be the error caused by the insufficient amount of our test data, since the loss of the full precision baseline is still lower than the RGP one. これは、完全な精度のベースラインの損失がrgpのベースラインよりもまだ低いため、テストデータの不足によって生じるエラーかもしれません。 0.72
Among the methods for on-chip customization, error scaling brings the largest gain, since it avoids training being early stopped. オンチップカスタマイズの方法の中で、早期のトレーニング停止を避けるため、エラースケーリングは最大の利益をもたらす。 0.70
The accumulation of small gradients also improves the accuracy, which means that small gradients in the training process are important to improve the convergence of the model. 小さな勾配の蓄積は精度も向上し、トレーニングプロセスの小さな勾配がモデルの収束を改善するために重要であることを意味する。 0.77
Furthermore, for λ in the random gradient prediction, our experiment shows that the value within a reasonable range (larger than 4) will not affect the result. さらに, ランダム勾配予測におけるλについて, 妥当な範囲内(4より大きい)の値は結果に影響を与えないことを示した。 0.83
Our method can make training on the fixed point hardware to get results comparable to that of the ideal model fine-tuning on GPU. 本手法では,固定点ハードウェア上でのトレーニングにより,GPU上での最適モデルの微調整に匹敵する結果が得られる。 0.70
B. Hardware Implementation Results b. ハードウェアの実装結果 0.89
1) Results and comparison: We have synthesized this design with Synopsys Design Compiler and performed the placement and routing with Cadence Encounder. 1)結果と比較:我々はsynopsys設計コンパイラを用いてこの設計を合成し,ケイデンスを包含した配置とルーティングを行った。 0.80
All are in TSMC 28nm CMOS technology. すべてTSMC 28nm CMOS技術である。 0.84
Fig 13 shows the layout of the chip, and Fig 14 shows the summary of this chip. 図13はチップのレイアウトを示し、図14はチップの要約を示している。 0.73
This chip can work at different clock rates ranging from 1MHz to 100MHz at 0.9V. このチップは0.9vで1mhzから100mhzの異なるクロックレートで動作する。 0.70
Timing and power consumption are evaluated at the TT corner. タイミングと消費電力はttコーナーで評価される。 0.68
The power is analyzed by Synopsys PrimeTime PX based on the post-layout results and the gatelevel simulation pattern of the KWS. 電力はKWSのポストレイアウト結果とゲートレベルシミュレーションパターンに基づいてSynopsys PrimeTime PXによって分析される。 0.74
This chip achieves 23.668 TOPS/W for the real model considering all on-chip power and real task inference time for 100MHz and 1MHz operating frequencies, respectively. このチップは、100MHzと1MHzの動作周波数に対して、オンチップのパワーと実際のタスク推定時間をすべて考慮して、実モデルで23.668 TOPS/Wを達成する。
訳抜け防止モード: このチップは実モデルで23.668TOPS/Wを達成する 実タスク推定時間は,それぞれ100MHzと1MHzの動作周波数であった。
The lowest power consumption is 89uW and 105uW in the inference and training phase on the 1 MHz clock. 最低消費電力は1MHzクロックの推論およびトレーニングフェーズにおける89uWと105uWである。 0.83
Table V compares this work with other state-of-the-art works. Table Vは、この作業を他の最先端の作業と比較する。 0.55
Due to the difference of model and technology, the comparison is only possible to a limited extent. モデルと技術の違いにより、比較は限られた範囲でのみ可能である。 0.75
Most of the other works used MFCC for feature extraction and VAD for voice activity detection [2]–[6]. 他の研究の多くは、特徴抽出に MFCC を使用し、音声活動検出に VAD を用いている [2]–[6] 。 0.81
Since the VAD is for power savings, this could be integrated into this work as well. VADは省電力のため、これもこの作業に統合される可能性がある。 0.70
In this comparison, this work consumes less power than other works with similar model architecture [2], [5], [6] even though we process the entire raw data for the predicted results. この比較では、予測結果の生データ全体を処理したとしても、同様のモデルアーキテクチャ [2], [5], [6] の他の作業と比べて、この作業の消費電力は少ない。 0.81
[3], [4] use RNN as the model architecture, but [3] does not include feature extraction on the chip. 3]、[4]はモデルアーキテクチャとしてRNNを使用しますが、[3]はチップの機能抽出を含んでいません。 0.80
Another key point of this work is that we combine the IMC architecture for higher energy efficiency. この研究のもう一つの重要な点は、エネルギー効率を高めるためにIMCアーキテクチャを組み合わせることである。
訳抜け防止モード: この研究のもう一つの重要な点は エネルギー効率を高めるためにIMCアーキテクチャを組み合わせる。
[3], [4] also uses inmemory computing and [5], [6] uses approximate computation that is also an analog domain computation for lower power [3], [4] もインメモリコンピューティングを使用し, [5], [6] は低消費電力のアナログドメイン計算でもある近似計算を使用する 0.85
consumption. [2] is the full digital design counterpart for a similar application. 消費 [2]は、同様のアプリケーションの完全なデジタルデザインである。 0.60
Compared to these state-of-the-art works, this work has higher energy efficiency and on-chip training capability for customization. これらの最先端の作業と比較すると、この作業はエネルギー効率が高く、カスタマイズのためのオンチップトレーニング能力がある。 0.49
7 Fig. 13. Layout diagram of the whole chip. 7 第13話。 チップ全体のレイアウト図。 0.47
Fig. 14. Chip summary. 第14話。 チップの概要。 0.53
2) Hardware analysis: Fig 15 shows the power breakdown for model inference on the 1 MHz clock. 2) ハードウェア解析: 図15は1MHzクロックにおけるモデル推論のパワーダウンを示す。 0.83
In this case, most of the power is consumed by the fully connected layer and the IMC controller, since the fully connected part includes a large SRAM buffer and high-precision computation, and the IMC controller is implemented by many Flip-Flops. この場合、全接続部は大きなsramバッファと高精度演算を含み、iccコントローラは多くのフリップフロップによって実装されているため、ほとんどの電力は全接続層とiccコントローラによって消費される。 0.68
Therefore, the relative power consumption is higher. したがって、相対的な消費電力は高い。 0.75
Furthermore, for higher throughput, the first layer needs more hardware overhead for greater parallelism, which occupies 18% of the power. さらに、スループット向上のためには、第1層はよりハードウェアのオーバーヘッドを多く必要としており、これは電力の18%を占める。
訳抜け防止モード: さらに、スループット向上のためには、第1層はよりハードウェアオーバーヘッドを多く必要とします。 電力の18%を占めています
At the same time, the computation of the analog part consumes only 3% of the total power. 同時に、アナログ部分の計算は全体の電力の3%しか消費しない。 0.64
The leakage power will dominate the power consumption when the clock rate is low, as shown in Fig. 16. 図16に示すように、クロックレートが低い場合には、リーク電力が消費電力を支配します。 0.77
Fig. 17 shows the area breakdown. 図17は、領域の崩壊を示しています。 0.59
In this case, the area is dominated by layer 5 and layer 6 since these two layers use 2 IMC macros, respectively, due to large numbers of parameters. この場合、これらの2つの層はそれぞれ2つのIMCマクロを使用するため、この領域は5層と6層に支配される。 0.73
For a single layer area, IMC macros dominate the area cost, while the IMC controller and digital peripheral circuits only cost about 5% of the total area. IMCコントローラとデジタル周辺回路は全領域の5%しかコストがかからないのに対し、単層領域ではIMCマクロがエリアコストを支配している。 0.83
Fig 18 shows the area breakdown for the analog and digital parts. 図18はアナログ部品とデジタル部品の領域分割を示している。 0.84
The IMC macros cost about 70% of the total area, the digital part circuits occypy 19% of area, and the rest 11% of area are the register file and the SRAM buffer. imcマクロは総面積の約70%、デジタル部品回路は面積の19%、残りの11%はレジスタファイルとsramバッファである。
訳抜け防止モード: IMCマクロは総面積の約70%の費用がかかる。 デジタル部品回路は 面積の19%を占めています 残りの11パーセントはレジスタファイルとSRAMバッファです。
In our implementation, the circuit for the training part only adds 5% of the area in the overall design, around 9187 gate 本実装では, トレーニング部回路は全体の面積の5%, 9187ゲートを付加するのみである。
訳抜け防止モード: 本実装では、トレーニング部の回路は、全体の設計における領域の5%しか追加しない。 約9187門
TABLE III 8 Ideal テーブルIII 8 理想 0.48
FC quantization BN constraints MAV offset + SA variation FC量子化BN制約 mavオフセット+sa変動 0.49
Bias compensation Fine-tuning Accuracy バイアス補償 微調整精度 0.54
(cid:88) (cid:88) (cid:88) (cid:88) 0.39
(cid:88) (cid:88) (cid:88)(cid:88) 0.37
(cid:88) (cid:88) (cid:88) (出典:88)(出典:88)(出典:88) 0.52
(cid:88) (cid:88) (cid:88) (cid:88) (出典:88)(出典:88)(出典:88)(出典:88) 0.49
(cid:88) (cid:88) (cid:88) (cid:88) (cid:88) (cid:88) (cid:88) (cid:88) (cid:88) (cid:88) 0.36
90.83% 90.39% 89.04% 51.08% 88.84% 89.76% 90.83% 90.39% 89.04% 51.08% 88.84% 89.76% 0.31
TABLE IV Baseline(FP) Quantized Error scaling テーブルIV ベースライン(FP)量子化エラースケーリング 0.70
SGA RGP(λ=8) Accuracy SGA RGP(λ=8)精度 0.42
(cid:88) (cid:88) (cid:88) (cid:88) 0.39
(cid:88) (cid:88) (cid:88)(cid:88) 0.37
(cid:88) (cid:88) (cid:88) (出典:88)(出典:88)(出典:88) 0.52
(cid:88) (cid:88) (cid:88) (cid:88) (出典:88)(出典:88)(出典:88)(出典:88) 0.49
96.71% 71.37% 86.46% 96.52% 96.91% 96.71% 71.37% 86.46% 96.52% 96.91% 0.31
Fig. 17. Area breakdown of each layer. 第17話。 各層の断面積。 0.50
Fig. 15. Power breakdown of each layer. 第15話。 各層のパワーダウン。 0.49
Fig. 16. Power breakdown of different clock rates. 背番号16。 異なるクロックレートのパワーダウン。 0.55
count, which means that our additional cost for the model customization function is relatively low. これはモデルカスタマイズ関数の追加コストが比較的低いことを意味する。 0.66
Within the training part circuits, the area is dominated by the large SRAM buffer for feature map storage. トレーニング部回路内では、領域は特徴マップ記憶のための大きなSRAMバッファによって支配される。 0.76
VII. CONCLUSION This paper presents a low power SRAM based IMC design with model customization for KWS, which is optimized from algorithm to hardware. VII。 結論 本稿では,アルゴリズムからハードウェアへ最適化されたKWSのモデルカスタマイズによる低消費電力SRAMベースのMCC設計を提案する。 0.68
For the algorithm, we propose an IMC aware model with fewer parameters to achieve over 90% accuracy and solve the non-ideal effects of IMC macro with bias compensation and fine tuning. 本アルゴリズムでは,90%以上の精度を実現するためのパラメータが少ないIMC認識モデルを提案し,バイアス補正と微調整によるMCCマクロの非理想的効果を解く。 0.83
The model customization モデルのカスタマイズ 0.78
Fig. 18. Area breakdown of digital and analog parts. 第18話。 デジタル部品とアナログ部品の領域分割。 0.60
is designed to be executed on an 8-bit fixed-point quantized hardware. 8ビットの固定点量子化ハードウェア上で実行されるように設計されている。 0.60
The limitation of the quantized hardware training is solved by scaling error, accumulating small gradients, and adding random gradients. 量子化ハードウェアトレーニングの制限は、スケーリングエラー、小さな勾配の蓄積、ランダム勾配の追加によって解決される。 0.69
The results show that the proposed approach can successfully restore accuracy and achieve a similar performance compared to fine-tuning with full precision. その結果,提案手法は精度の回復に成功し,完全精度の微調整と比較して同様の性能が得られることがわかった。 0.72
The hardware implementation uses hybrid digital/IMC computing to get better energy efficiency and fit model precision requirements, which has higher energy efficiency and also delivers on-chip model customization capability when compared to the state-of-the-art works. ハードウェアの実装では、デジタル/imcのハイブリッドコンピューティングを使用して、エネルギー効率の向上とモデルの精度要件の適合を実現している。
訳抜け防止モード: ハイブリッドデジタル/IMCコンピューティングによるエネルギー効率向上のためのハードウェア実装 よりエネルギー効率のよい モデル精度要件を また、-----アートワークの状態と比較して、--チップモデルのカスタマイズ機能も提供します。
REFERENCES [1] Y. Zhang et al , “Hello edge: keyword spotting on microcontrollers,” 参考 [1] Y. Zhang et al , “Hello edge: keyword spotting on microcontrollers”。 0.45
arXiv preprint arXiv:1711.07128, Nov. 2017. arxivプレプリントarxiv:1711.07128, 2017年11月 0.38
[2] S. Zheng et al , “An ultra-low power binarized convolutional neural network-based speech recognition processor with on-chip self-learning,” [2] S. Zheng et al , “超低消費電力二項化畳み込みニューラルネットワークに基づく音声認識プロセッサとオンチップの自己学習”。 0.75
9 TCAS2019 [2] 28nm 9 TCAS2019 [2] 28nm 0.43
Technology Algorithm Dataset(keyword number) Accuracy(%) Architecture Weight/activation bits Core area(mm2) Normalized core area(mm2)1 SRAM buffer size (KB) Frequency(MHz) Latency(ms) Power(uW) Normalized power(uW)2 Energy efficiency(TOPS/W) Normalized energy efficiency(TOPS/W)3 Remark 1Normalized core area = Core area * 282 / tech2 2Normalized power = Power * (28 / tech) * (0.92 / voltage2) Technology Algorithm Dataset(keyword number) Accuracy(%) Architecture Weight/activation bits Core Area(mm2)1 SRAMバッファサイズ(KB) 周波数(MHz) レイテンシ(ms) Power(uW) 正規化電力(uW)2 エネルギー効率(TOPS/W) 正規化エネルギー効率(TOPS/W)3 Normalized Core Area = Core Area * 282 / tech2 2 Normalized Power = Power * (28 / tech) * (0.92 / voltage2) 0.90
This work 28nm Sincnet + CNN MFCC + CNN GSCD(10) 89.76(96.524) digital + IMC 1/1 1 1 24 1-100 160-1.6 89-2833 89-2833 23.6-68 23.6-68 Customization 28nm Sincnet + CNN MFCC + CNN GSCD(10) 89.76(96.524) digital + IMC 1/1 1 1 24 1 1-100 160-1.6 89-2833 89-2833 23.6-68 カスタマイズ 0.70
TIMIT/TIDIGITS /HOME(1) 95.3/98.6/96.0 digital 1/1 1.29 1.292.5-50 0.5-10 141 328 90 38.7 - TIMIT/TIDIGITS/HOME( 1)95.3/98.6/96.0デジタル1/1.292.5-500.5-10 141 328 90 38.7 0.46
IEEE2019 [6] 22nm IEEE2019 [6] 22nm 0.44
ISSCC2020 [3] 65nm MFCC + RNN GSCD(7) 90.38 digital + IMC mixed (4, ISSCC2020 [3] 65nm MFCC + RNN GSCD(7) 90.38 digital + IMC mixed (4, 0.49
8) 4.13 0.77 38 1000 0.0399 11000 3838 0.91 2.6 No preprocessing 3Normalized energy efficiency = energy efficiency / ((28 / tech) * (0.92 / voltage2)) 4With model customization 8) 4.13 0.77 38 1000 0.0399 11000 3838 0.91 2.6 前処理なし 3Normalized Energy efficiency = Energy efficiency / ((28 / tech) * (0.92 / voltage2) 4モデルカスタマイズ 0.83
IEEE2019 [5] 28nm MFCC + CNN MFCC + CNN GSCD(10) 89.7 mixed mode 1/(4, 8, 16) 0.94 0.942.6 20 77.8 175 137 60.9 - IEEE2019 [5] 28nm MFCC + CNN MFCC + CNN GSCD(10) 89.7 mixed mode 1/(4, 8, 16) 0.94 0.942.6 20 77.8 175 60.9 - 0.42
VLSI2019 [4] 65nm MFCC + RNN GSCD(10)/Hey snips(1) /Smart home(11) 90.2/91.9/95.0 digital + IMC 1/1 6.2 1.15 10 5-75 0.127 26000 9072 11.7 33.5 - VLSI2019 [4] 65nm MFCC + RNN GSCD(10)/Hey snips(1) /Smart Home(11) 90.2/91.9/95.0 digital + IMC 1/1 1.15 10 5-75 26000 9072 11.7 33.5 - 0.37
GSCD(10) 90.51 mixed mode 7/8 0.75 1.210.25 20 52 177 46.8 13.7 - GSCD(10)90.51混合モード7/8 0.75 1.210.25 20 52 177 46.8 13.7 0.63
IEEE Transactions on Circuits and Systems I: Regular Papers, vol. IEEE Transactions on Circuits and Systems I: regular Papers, vol. 0.42
66, no. 12, pp. 4648–4661, Oct. 2019. 66, no. 12 pp. 4648-4661, 2019年10月。 0.87
[3] H. Dbouk et al , “A 0.44-µJ/dec, 39.9-µs/dec, recurrent attention inmemory processor for keyword spotting,” IEEE Journal of Solid-State Circuits, vol. IEEE Journal of Solid-State Circuits, vol.[3] H. Dbouk et al , “A 0.44-μJ/dec, 39.9-μs/dec, recurrent attention in memory processor for keyword spotting”。
訳抜け防止モード: a 0.44-μJ / dec, 39.9-μs / dec, キーワードスポッティングのためのリカレントインメモリプロセッサ,“IEEE Journal of Solid - State Circuits,vol ”。
56, no. 7, pp. 2234–2244, Oct. 2020. 56, no. 7, pp. 2234-2244, 2020年10月。 0.81
[4] R. Guo et al , “A 5.1 pJ/neuron 127.3 us/inference rnn-based speech recognition processor using 16 computing-in-memory SRAM macros in 65nm CMOS,” in Symposium on VLSI Circuits, 2019, pp. 4] r. guo et al, “a 5.1 pj/neuron 127.3 us/inference rnn-based speech recognition processor using 16 computing-in-memory sram macros in 65nm cmos” in symposium on vlsi circuits, 2019, pp. 0.38
C120–C121. C120-C121。 0.22
[5] B. Liu et al , “EERA-KWS: A 163 TOPS/W always-on keyword spotting accelerator in 28nm cmos using binary weight network and precision self-adaptive approximate computing,” IEEE Access, vol. IEEE Access, vol. [5] B. Liu et al , “EERA-KWS: A 163 TOPS/W always-on keyword spotting accelerator in 28nm cmos using binary weight network and precision self-adaptive approximate computing”。 0.44
7, pp. 82 453– 82 465, Jun. 2019. 7, pp. 82 453– 82 465, jun. 2019 を参照。 0.87
[6] B. Liu et al , “An ultra-low power always-on keyword spotting accelerator using quantized convolutional neural network and voltage-domain analog switching network-based approximate computing,” IEEE Access, vol. IEEE Access, vol.[6] B. Liu et al , “量子畳み込みニューラルネットワークと電圧領域アナログスイッチングネットワークベースの近似コンピューティングを使った超低電力常時オンのキーワードスポッティングアクセラレータ”。 0.83
7, pp. 186 456–186 469, Dec. 2019. 7 pp. 186 456–186 469, Dec. 2019。 0.94
[7] P. Warden, “Speech commands: A dataset for limited-vocabulary speech 7] p. warden, “speech command: a dataset for limited-vocabulary speech” 0.47
recognition,” arXiv preprint arXiv:1804.03209, Apr. 2018. arXiv preprint arXiv:1804.03209, Apr. 2018。 0.43
[8] C. -Y. Lin and R. Marculescu, “Model personalization for human activity recognition,” in IEEE International Conference on Pervasive Computing and Communications Workshop, 2020, pp. 1–7. [8]C。 -y。 Lin and R. Marculescu, “Model Personalization for Human Activity Recognition” in IEEE International Conference on Pervasive Computing and Communications Workshop, 2020, pp. 1-7。 0.39
[9] B. Harris et al , “Architectures and algorithms for user customization of CNNs,” in Asia and South Pacific Design Automation Conference, 2018, pp. 540–547. B. Harris et al , “Architectures and algorithm for user customization of CNNs” in Asia and South Pacific Design Automation Conference, 2018, pp. 540–547。
訳抜け防止モード: [9]B. Harrisらは,“CNNのユーザカスタマイズのためのアーキテクチャとアルゴリズム”だ。 In Asia and South Pacific Design Automation Conference, 2018, pp. 540-547.
[10] H. Yonekawa and H. Nakahara, “On-chip memory based binarized convolutional deep neural network applying batch normalization free technique on an FPGA,” in IEEE International Parallel and Distributed Processing Symposium Workshops, 2017, pp. 98–105. 10] h. yonekawa and h. nakahara, “on-chip memory based binarized convolutional deep neural network applying batch normalization free technique on an fpga” in ieee international parallel and distributed processing symposium workshops, 2017 pp. 98–105。 0.41
[11] M. Ravanelli and Y. Bengio, “Speaker recognition from raw waveform with sincnet,” in IEEE Spoken Language Technology Workshop, 2018, pp. 1021–1028. 11] m. ravanelli と y. bengio は ieee spoken language technology workshop, 2018, pp. 1021–1028 で “speaker recognition from raw waveform with sincnet” と題した講演を行った。 0.76
[12] Z. Liu et al , “Reactnet: Towards precise binary neural network with generalized activation functions,” in European Conference on Computer Vision, 2020, pp. 143–159. 12] z. liuら、“reactnet: towards precision binary neural network with generalized activation function”は、european conference on computer vision, 2020, pp. 143–159で発表された。 0.81
[13] R. Banner et al , “Scalable methods for 8-bit training of neural networks,” in Advances in neural information processing systems, 2018, pp. 5145–5153. 13] r. banner et al , “scalable methods for 8-bit training of neural networks” in advances in neural information processing systems, 2018, pp. 5145–5153. (英語)
訳抜け防止モード: 13 ] R. Banner et al, “スケーラブルなニューラルネットワークの8ビットトレーニング方法” In Advances in Neural Information Processing System, 2018, pp. 5145–5153.
[14] Y. Yang et al , “Training high-performance and large-scale deep neural networks with full 8-bit integers,” Neural Networks, vol. Y. Yang et al , “完全な8ビット整数を持つ高性能で大規模のディープニューラルネットワークの学習”, Neural Networks, vol。 0.84
125, pp. 70–82, May. 2020. 125, pp. 70-82, 2020年5月。 0.80
[15] F. Zhu et al , “Towards unified int8 training for convolutional neural network,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020, pp. 1969–1979. 15] f. zhu et al, “towards unified int8 training for convolutional neural network”. ieee/cvf conference on computer vision and pattern recognition, 2020, pp. 1969-1979. “towards unified int8 training for convolutional neural network” (英語)
訳抜け防止モード: [15 ] F. Zhu et al, “畳み込みニューラルネットワークのための統合したInt8トレーニングを目指して” IEEE / CVF Conference on Computer Vision に参加して and Pattern Recognition , 2020 , pp . 1969–1979 .
[16] B. Jacob et al , “Quantization and training of neural networks for efficient integer-arithmetic-o nly inference,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2018, pp. 2704– 2713. 16] b. jacob et al , “quantization and training of neural networks for efficient integer-arithmetic-o nly inference” in the ieee conference on computer vision and pattern recognition, 2018, pp. 2704–2713. (英語)
訳抜け防止モード: [16 ]B. Jacob et al, “効率的な整数-算術-推論のみのためのニューラルネットワークの量子化とトレーニング”。 in Proceedings of the IEEE conference on computer vision and pattern recognition 2018 , pp . 2704 – 2713 .
[17] Y. -H. [17] Y。 -h。 0.56
Lin et al , “A reconfigurable in-SRAM computing architecture Lin et al , “再構成可能なイン・SRAMコンピューティングアーキテクチャ” 0.74
for DCNN applications,” in International Symposium on VLSI Design, Automation and Test, 2021, pp. 1–2. vlsi設計・自動化・テスト国際シンポジウム (international symposium on vlsi design, automation and test, 2021, pp. 1-2) において、dcnnの応用について述べる。
訳抜け防止モード: vlsi国際シンポジウム「dcnn応用に向けて」 自動化とテスト , 2021 , pp. 1-2。
[18] S. Choi et al , “Temporal convolution for real-time keyword spotting on 18]s. choiら「リアルタイムキーワードスポッティングの時間的畳み込み」 0.60
mobile devices,” arXiv preprint arXiv:1904.03814, Apr. 2019. arxivはarxiv:1904.03814, apr. 2019をプレプリントする。 0.48
[19] S. Mittermaier et al , “Small-footprint keyword spotting on raw audio data with sinc-convolutions,” in IEEE International Conference on Acoustics, Speech and Signal Processing, 2020, pp. 7454–7458. s. mittermaier et al , “small-footprint keyword spotting on raw audio data with sinc-convolutions” in ieee international conference on acoustics, speech and signal processing, 2020, pp. 7454–7458. (英語)
訳抜け防止モード: 19 ] s. mittermaier et al, “sinc - convolutionsで生のオーディオデータにスポッティングする小さなフットプリントキーワード” ieee国際音響・音声・信号処理会議に参加して 2020 , pp . 7454–7458 .
Yu-Hsiang Chiang received the M.S. degree in electronics engineering from the National Yang Ming Chiao Tung University, Hsinchu, Taiwan, in 2021. 2021年(昭和21年)、台湾・日中省の江明東大学から電子工学の修士号を取得。
訳抜け防止モード: Yu - Hsiang Chiangは、国立陽明東大学から電子工学の修士号を取得した。 中国、台湾、2021年。
He is currently working in the Novatek, Hsinchu, Taiwan. 現在は台湾の日中市ノヴァテックに勤務している。 0.64
His research interest includes VLSI design and deep learning. 研究対象はVLSI設計と深層学習である。 0.72
Tian-Sheuan Chang (S’93–M’06–SM’07) received the B.S., M.S., and Ph.D. degrees in electronic engineering from National Chiao-Tung University (NCTU), Hsinchu, Taiwan, in 1993, 1995, and 1999, respectively. Tian-Sheuan Chang (S’93–M’06–SM’07) は1993年、1995年、および1999年、台湾の華東大学(NCTU)からB.S.、M.S.、Ph.D.の電子工学の学位を取得した。 0.73
From 2000 to 2004, he was a Deputy Manager with Global Unichip Corporation, Hsinchu, Taiwan. 2000年から2004年まで、台湾のhsinchuにあるglobal unichip corporationの副マネージャーを務めた。 0.72
In 2004, he joined the Department of Electronics Engineering, NCTU, where he is currently a Professor. 2004年、彼はnctuの電子工学部に入社し、現在は教授を務めている。 0.69
In 2009, he was a visiting scholar in IMEC, Belgium. 2009年にはベルギーのIMECで客員教授を務めた。 0.62
His current research interests include system-on-a- 現在の研究分野はsystem-on-a- 0.50
chip design, VLSI signal processing, and computer architecture. チップ設計、VLSI信号処理、コンピュータアーキテクチャ。 0.62
Dr. Chang has received the Excellent Young Electrical Engineer from Chinese Institute of Electrical Engineering in 2007, and the Outstanding Young Scholar from Taiwan IC Design Society in 2010. チャン博士は2007年に中国電気工学研究所から優れた若手電気技師、2010年に台湾icデザイン協会から優れた若手研究者を授与された。 0.75
He has been actively involved in many international conferences as an organizing committee or technical program committee member. 組織委員会や技術プログラム委員会のメンバーとして多くの国際会議に積極的に参加している。 0.72
10 Shyh-Jye Jou received the B. S. degree in electrical engineering from National Chen Kung University in 1982, and M.S. and Ph.D. degrees in electronics from National Chiao Tung University in 1984 and 1988, respectively. 10 Shyh-Jye Jouは1982年にNational Chen Kung UniversityからB.S.の電気工学の学位を、1984年にNational Chiao Tung UniversityからM.S.とPh.D.の電子工学の学位を取得した。 0.61
He joined Electrical Engineering Department of National Central University, ChungLi, Taiwan, from 1990 to 2004 and became a Professor in 1997. 1990年から2004年まで台湾中央大学の電気工学科に入学し、1997年に教授となった。 0.67
Since 2004, he has been Professor of Electronics Engineering Dept. of National Chiao Tung University and became the Chairman from 2006 to 2009. 2004年からは国立チアオ・トゥン大学の電子工学科の教授を務め、2006年から2009年まで会長を務めた。 0.67
From August 2011 he becomes the Dean of Office of International Affairs, National Chiao Tung University. 2011年8月より、チアオ・トゥン大学国際事務部長に就任。 0.44
He was a visiting research Professor in the Coordinated Science Laboratory at University of Illinois, Urbana-Champaign during the 1993–1994 and 2010 academic years. 1993-1994年から2010年の間、イリノイ大学アーバナ・シャンペーン校のコーディネート科学研究所の客員教授を務めた。 0.61
In the summer of 2001, he was a visiting research consultant in the Communication Circuits and Systems Research Laboratory of Agere Systems, USA. 2001年夏、彼はアジェレ・システムズ(英語版)のコミュニケーション・サーキット・アンド・システムズ・リサーチ・ラボで客員研究コンサルタントを務めた。 0.63
His research interests include design and analysis of highspeed, low power mixed-signal integrated circuits, communications, and BioElectronics integrated circuits and systems. 彼の研究分野は、高速、低電力混合信号集積回路、通信、バイオエレクトロニクス集積回路およびシステムの設計と分析である。 0.77
Dr. Jou was the Guest Editor, IEEE JOURNAL OF SOLID STATE CIRCUITS, Nov. 2008. ユウ博士は2008年11月、IEEE JOURNAL of SOLID STATE CIRCUITSのゲストエディターを務めた。 0.74
He served as the Conference Chair of IEEE International Symp. IEEE国際シンポジウムの議長を務めた。 0.48
on VLSI Design, Automation and Test (VLSI-DAT) and International Workshop on Memory Technology, Design, and Testing. VLSI設計、自動化、テスト(VLSI-DAT)およびメモリ技術、設計、テストに関する国際ワークショップについて。 0.78
He also served as Technical Program Chair or Co-Chair in IEEE VLSI-DAT, International IEEE Asian Solid-State Circuit Conference, IEEE Biomedical Circuits and Systems, and other international conferences. また、IEEE VLSI-DAT、International IEEE Asian Solid-State Circuit Conference、IEEE Biomedical Circuits and Systemsなどの国際会議において、テクニカルプログラムチェアや共同議長を務めた。
訳抜け防止モード: また、IEEE VLSI - DATのテクニカルプログラムチェアやCo-チェアも務めた。 International IEEE Asian Solid - State Circuit Conference, IEEE Biomedical Circuits and Systems 他の国際会議も
He received Outstanding Engineering Professor Award, Chinese Institute of Engineers at 2011. 2011年、中国工学院名誉工学教授賞を受賞。 0.60
He has published more than 100 IEEE journal and conference papers. IEEEのジャーナルやカンファレンスの論文を100冊以上出版している。 0.65

翻訳にはFugu-Machine Translatorを利用しています。