論文の概要: An Efficient FPGA-based Accelerator for Deep Forest
- arxiv url: http://arxiv.org/abs/2211.02281v1
- Date: Fri, 4 Nov 2022 06:41:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 16:08:17.038016
- Title: An Efficient FPGA-based Accelerator for Deep Forest
- Title(参考訳): 深い森林のためのFPGAを用いた効率的な加速器
- Authors: Mingyu Zhu, Jiapeng Luo, Wendong Mao, Zhongfeng Wang
- Abstract要約: 提案した設計はFPGAボードであるIntel Stratix V上で実装され、ADULTとFace Mask Detectionの2つの典型的なデータセットで評価される。
実験結果から,40コアの高速x86 CPUに比べて40倍の高速化を実現可能であることがわかった。
- 参考スコア(独自算出の注目度): 6.3691245130205845
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep Forest is a prominent machine learning algorithm known for its high
accuracy in forecasting. Compared with deep neural networks, Deep Forest has
almost no multiplication operations and has better performance on small
datasets. However, due to the deep structure and large forest quantity, it
suffers from large amounts of calculation and memory consumption. In this
paper, an efficient hardware accelerator is proposed for deep forest models,
which is also the first work to implement Deep Forest on FPGA. Firstly, a
delicate node computing unit (NCU) is designed to improve inference speed.
Secondly, based on NCU, an efficient architecture and an adaptive dataflow are
proposed, in order to alleviate the problem of node computing imbalance in the
classification process. Moreover, an optimized storage scheme in this design
also improves hardware utilization and power efficiency. The proposed design is
implemented on an FPGA board, Intel Stratix V, and it is evaluated by two
typical datasets, ADULT and Face Mask Detection. The experimental results show
that the proposed design can achieve around 40x speedup compared to that on a
40 cores high performance x86 CPU.
- Abstract(参考訳): Deep Forest(ディープフォレスト)は、予測精度の高い機械学習アルゴリズムである。
ディープニューラルネットワークと比較して、deep forestはほとんど乗算操作がなく、小さなデータセットでパフォーマンスが向上している。
しかし、深い構造と森林量のため、大量の計算とメモリ消費に悩まされている。
本稿では、FPGA上でDeep Forestを実装する最初の試みであるディープフォレストモデルに対して、効率的なハードウェアアクセラレータを提案する。
まず、予測速度を改善するために、繊細なノード演算ユニット(NCU)を設計する。
第二に、分類過程におけるノード計算の不均衡の問題を軽減するため、NCUに基づく効率的なアーキテクチャと適応型データフローを提案する。
さらに、この設計で最適化されたストレージ方式により、ハードウェア利用率と電力効率も向上する。
提案した設計はFPGAボードであるIntel Stratix V上で実装され、ADULTとFace Mask Detectionの2つの典型的なデータセットで評価される。
実験結果から,40コアの高速x86 CPUに比べて40倍の高速化を実現可能であることがわかった。
関連論文リスト
- Enhancing Dropout-based Bayesian Neural Networks with Multi-Exit on FPGA [20.629635991749808]
本稿では,フィールドプログラマブルゲートアレイ(FPGA)ベースのアクセラレータを効率よく生成するアルゴリズムとハードウェアの共同設計フレームワークを提案する。
アルゴリズムレベルでは、計算とメモリのオーバーヘッドを低減した、新しいマルチエグジット・ドロップアウトベースのベイズNNを提案する。
ハードウェアレベルでは,提案する効率的なベイズNNのためのFPGAベースのアクセラレータを生成するための変換フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-20T17:08:42Z) - An FPGA-Based Accelerator Enabling Efficient Support for CNNs with
Arbitrary Kernel Sizes [11.681245043617848]
大規模なカーネルを持つ畳み込みニューラルネットワーク(CNN)は、様々な視覚ベースのアプリケーションで顕著なパフォーマンスを示している。
任意のカーネルサイズを持つCNNを効率的に展開するためのFPGAベースの推論アクセラレータを提案する。
提案されたハードウェアアクセラレータは、Intel Arria 10 FPGAで評価され、同一ネットワーク上の先行技術よりも最大3.91倍のDSP効率を実現している。
論文 参考訳(メタデータ) (2024-02-22T05:52:55Z) - FireFly: A High-Throughput Hardware Accelerator for Spiking Neural
Networks with Efficient DSP and Memory Optimization [6.966706170499345]
スパイキングニューラルネットワーク(SNN)は、強い生物学的解釈性と高エネルギー効率のために広く利用されている。
フィールドプログラマブルゲートアレイ(FPGA)のためのほとんどのSNNハードウェア実装は、演算やメモリ効率の要求を満たすことができない。
発火ニューロンから発生するスパイクをオンザフライ(FireFly)で処理できるFPGAアクセラレータを提案する。
論文 参考訳(メタデータ) (2023-01-05T04:28:07Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - FFCNN: Fast FPGA based Acceleration for Convolution neural network
inference [0.0]
畳み込みニューラルネットワーク(FFCNN)のためのFPGAの高速推論について述べる。
FFCNNは、深くパイプライン化されたOpenCLカーネルアーキテクチャに基づいている。
データ再利用とタスクマッピング技術も設計効率を向上させるために提案されている。
論文 参考訳(メタデータ) (2022-08-28T16:55:25Z) - A Length Adaptive Algorithm-Hardware Co-design of Transformer on FPGA
Through Sparse Attention and Dynamic Pipelining [28.336502115532905]
本稿ではトランスフォーマーアクセラレーションのためのコヒーレントシーケンス長適応型アルゴリズム-ハードウェア共設計を提案する。
ハードウェアフレンドリーなスパースアテンション演算子と長編ハードウェアリソーススケジューリングアルゴリズムを開発した。
我々の設計は、非常に小さな精度の損失があり、CPUやGPUの実装と比較して80.2$times$と2.6$times$ Speedupがある。
論文 参考訳(メタデータ) (2022-08-07T05:48:38Z) - HANT: Hardware-Aware Network Transformation [82.54824188745887]
ハードウェア・アウェア・ネットワーク・トランスフォーメーション(HANT)を提案する。
HANTは、ニューラルネットワーク検索のようなアプローチを使用して、非効率な操作をより効率的な代替手段に置き換える。
EfficientNetファミリの高速化に関する我々の結果は、ImageNetデータセットのトップ1の精度で最大3.6倍、0.4%の低下でHANTがそれらを加速できることを示している。
論文 参考訳(メタデータ) (2021-07-12T18:46:34Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - Random Features for the Neural Tangent Kernel [57.132634274795066]
完全接続型ReLUネットワークのニューラルタンジェントカーネル(NTK)の効率的な特徴マップ構築を提案する。
得られた特徴の次元は、理論と実践の両方で比較誤差境界を達成するために、他のベースライン特徴マップ構造よりもはるかに小さいことを示しています。
論文 参考訳(メタデータ) (2021-04-03T09:08:12Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。