論文の概要: FPGA Implementation of Convolutional Neural Network for Real-Time
Handwriting Recognition
- arxiv url: http://arxiv.org/abs/2306.13557v1
- Date: Fri, 23 Jun 2023 15:31:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-26 12:17:27.847000
- Title: FPGA Implementation of Convolutional Neural Network for Real-Time
Handwriting Recognition
- Title(参考訳): リアルタイム手書き文字認識のための畳み込みニューラルネットワークのFPGA実装
- Authors: Shichen (Justin) Qiao, Haining Qiu, Lingkai (Harry) Zhao, Qikun Liu,
Eric J. Hoffman
- Abstract要約: 我々はAltera DE1 FPGA Kitを用いて手書き文字と数字を認識できる高構成のリアルタイムデバイスを設計した。
IEEE-754 32ビット浮動小数点標準など、さまざまな技術標準に従いました。
画像処理,行列乗算,ML分類,ユーザインタフェースを管理する5-784プロセッサをSystem Verilogで開発した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine Learning (ML) has recently been a skyrocketing field in Computer
Science. As computer hardware engineers, we are enthusiastic about hardware
implementations of popular software ML architectures to optimize their
performance, reliability, and resource usage. In this project, we designed a
highly-configurable, real-time device for recognizing handwritten letters and
digits using an Altera DE1 FPGA Kit. We followed various engineering standards,
including IEEE-754 32-bit Floating-Point Standard, Video Graphics Array (VGA)
display protocol, Universal Asynchronous Receiver-Transmitter (UART) protocol,
and Inter-Integrated Circuit (I2C) protocols to achieve the project goals.
These significantly improved our design in compatibility, reusability, and
simplicity in verifications. Following these standards, we designed a 32-bit
floating-point (FP) instruction set architecture (ISA). We developed a 5-stage
RISC processor in System Verilog to manage image processing, matrix
multiplications, ML classifications, and user interfaces. Three different ML
architectures were implemented and evaluated on our design: Linear
Classification (LC), a 784-64-10 fully connected neural network (NN), and a
LeNet-like Convolutional Neural Network (CNN) with ReLU activation layers and
36 classes (10 for the digits and 26 for the case-insensitive letters). The
training processes were done in Python scripts, and the resulting kernels and
weights were stored in hex files and loaded into the FPGA's SRAM units.
Convolution, pooling, data management, and various other ML features were
guided by firmware in our custom assembly language. This paper documents the
high-level design block diagrams, interfaces between each System Verilog
module, implementation details of our software and firmware components, and
further discussions on potential impacts.
- Abstract(参考訳): 機械学習(ML)は、最近コンピュータサイエンスの急激な分野となった。
コンピュータハードウェアエンジニアとして、人気のあるソフトウェアmlアーキテクチャのハードウェア実装に熱心で、パフォーマンス、信頼性、リソース使用量を最適化しています。
本稿では,Altera DE1 FPGA Kitを用いて手書き文字と数字を認識できる高構成のリアルタイムデバイスを設計した。
我々は,IEEE-75432ビット浮動小数点標準,ビデオグラフィックスアレー(VGA)表示プロトコル,UART(Universal Asynchronous Receiver-Transmitter)プロトコル,I2C(Inter-Integrated Circuit)プロトコルなど,さまざまな技術標準に従った。
これらは互換性、再利用性、検証の単純さにおいて設計を大幅に改善しました。
これらの標準に従い、我々は32ビット浮動小数点(FP)命令セットアーキテクチャ(ISA)を設計した。
画像処理,行列乗算,ML分類,ユーザインタフェースを管理する5段階RISCプロセッサをSystem Verilogで開発した。
リニア分類(LC)、784-64-10完全連結ニューラルネットワーク(NN)、ReLUアクティベーション層と36のクラス(数字は10、ケースインセンティブ文字は26)を備えたLeNetライクな畳み込みニューラルネットワーク(CNN)の3つの異なるMLアーキテクチャの実装と評価を行った。
トレーニングプロセスはPythonスクリプトで行われ、その結果のカーネルと重みはhexファイルに格納され、FPGAのSRAMユニットにロードされる。
畳み込み、プーリング、データ管理、その他さまざまなml機能は、我々のカスタムアセンブリ言語のファームウェアによって導かれました。
本稿では,高レベル設計ブロック図,各システムverilogモジュール間のインタフェース,ソフトウェアとファームウェアコンポーネントの実装詳細,潜在的影響に関するさらなる議論について述べる。
関連論文リスト
- Weight Block Sparsity: Training, Compilation, and AI Engine Accelerators [0.0]
Deep Neural Networks(DNN)が開発、トレーニング、利用され、高度なデバイスと限られたデバイスの両方に負担がかかっている。
私たちのソリューションは、ハードウェアに親しみやすい構造化された空間であるエムの重みブロック間隔を実装することです。
本稿では,Resnet50,Inception V3,VGG16を用いて,AIE2構成セット(AMD Versal FPGA)の正確かつ完全なコード生成による性能評価を行う。
論文 参考訳(メタデータ) (2024-07-12T17:37:49Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - LPYOLO: Low Precision YOLO for Face Detection on FPGA [1.7188280334580197]
監視システムにおける顔検出は、セキュリティ市場の最も期待されている応用である。
TinyYolov3アーキテクチャは、顔検出のために再設計され、デプロイされる。
Modelは、FINNフレームワークとFINN-HLSライブラリを使用して、HLSベースのアプリケーションに変換される。
論文 参考訳(メタデータ) (2022-07-21T13:54:52Z) - Open-source FPGA-ML codesign for the MLPerf Tiny Benchmark [11.575901540758574]
我々は,フィールドプログラマブルゲートアレイ(FPGA)プラットフォーム上でのTiny Inference Benchmarkの開発経験を示す。
我々は、FPGA上で最適化されたニューラルネットワークのAIハードウェアコーデックを民主化することを目的として、オープンソースのhls4mlとFINN perJを使用している。
ソリューションはシステムオンチップ(Pynq-Z2)と純粋なFPGA(Arty A7-100T)プラットフォームにデプロイされる。
論文 参考訳(メタデータ) (2022-06-23T15:57:17Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - Reconfigurable co-processor architecture with limited numerical
precision to accelerate deep convolutional neural networks [0.38848561367220275]
畳み込みニューラルネットワーク(CNN)は、視覚システムやロボット工学などのディープラーニングアプリケーションで広く使われている。
本稿では,CNNを高速化するために,モデルに依存しない再構成可能なコプロセッシングアーキテクチャを提案する。
既存の解とは対照的に、算術表現や演算のための限定精度32bit Q-format固定点量子化を導入する。
論文 参考訳(メタデータ) (2021-08-21T09:50:54Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - Learning Versatile Neural Architectures by Propagating Network Codes [74.2450894473073]
アーキテクチャの性能を複数のデータセットやタスクで予測できる新しい「神経予測器」を提案する。
ncpはネットワークコードから学習するが、オリジナルデータではないため、データセット間で効率的にアーキテクチャを更新することができる。
論文 参考訳(メタデータ) (2021-03-24T15:20:38Z) - ResNeSt: Split-Attention Networks [86.25490825631763]
このアーキテクチャは、異なるネットワークブランチにチャンネルワイズを応用し、機能間相互作用のキャプチャと多様な表現の学習の成功を活用する。
我々のモデルはResNeStと呼ばれ、画像分類の精度と遅延トレードオフにおいてEfficientNetより優れています。
論文 参考訳(メタデータ) (2020-04-19T20:40:31Z) - CNN2Gate: Toward Designing a General Framework for Implementation of
Convolutional Neural Networks on FPGA [0.3655021726150368]
本稿では,FPGAターゲットに対するCNNモデルのコンパイルを支援する統合フレームワークを提案する。
CNN2Gateは商用ベンダーが提供するFPGAのOpenCL合成ワークフローを利用する。
本稿では,Intel FPGAプラットフォーム上でのAlexNetとVGG-16の自動合成と設計空間探索の結果について報告する。
論文 参考訳(メタデータ) (2020-04-06T01:57:53Z) - Taurus: A Data Plane Architecture for Per-Packet ML [59.1343317736213]
本稿では,線数推論のためのデータプレーンであるTaurusの設計と実装について述べる。
Taurus スイッチ ASIC の評価は,Taurus がサーバベースコントロールプレーンよりも桁違いに高速に動作することを示す。
論文 参考訳(メタデータ) (2020-02-12T09:18:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。