論文の概要: An FPGA Accelerated Method for Training Feed-forward Neural Networks
Using Alternating Direction Method of Multipliers and LSMR
- arxiv url: http://arxiv.org/abs/2009.02784v1
- Date: Sun, 6 Sep 2020 17:33:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 08:31:04.079642
- Title: An FPGA Accelerated Method for Training Feed-forward Neural Networks
Using Alternating Direction Method of Multipliers and LSMR
- Title(参考訳): 乗算器とlsmrの交互方向法によるフィードフォワードニューラルネットワークの学習のためのfpga高速化手法
- Authors: Seyedeh Niusha Alavi Foumani, Ce Guo, Wayne Luk
- Abstract要約: ニューラルネットワークトレーニングのための新しいFPGAアクセラレーションアルゴリズムの設計、実装、デプロイ、テストに成功した。
本手法は,並列特性が強い乗算器アルゴリズムの交互方向法に基づく。
我々は,Intel FPGA SDK for OpenCLを用いたFPGAアクセラレーションバージョンを開発し,その後,Intel Arria 10 GX FPGA上でプログラムのデプロイに成功した。
- 参考スコア(独自算出の注目度): 2.8747398859585376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this project, we have successfully designed, implemented, deployed and
tested a novel FPGA accelerated algorithm for neural network training. The
algorithm itself was developed in an independent study option. This training
method is based on Alternating Direction Method of Multipliers algorithm, which
has strong parallel characteristics and avoids procedures such as matrix
inversion that are problematic in hardware designs by employing LSMR. As an
intermediate stage, we fully implemented the ADMM-LSMR method in C language for
feed-forward neural networks with a flexible number of layers and hidden size.
We demonstrated that the method can operate with fixed-point arithmetic without
compromising the accuracy. Next, we devised an FPGA accelerated version of the
algorithm using Intel FPGA SDK for OpenCL and performed extensive optimisation
stages followed by successful deployment of the program on an Intel Arria 10 GX
FPGA. The FPGA accelerated program showed up to 6 times speed up comparing to
equivalent CPU implementation while achieving promising accuracy.
- Abstract(参考訳): 本稿では,ニューラルネットワークトレーニングのための新しいFPGA高速化アルゴリズムの設計,実装,デプロイ,試験を行った。
アルゴリズム自体は独立した研究オプションで開発された。
本手法は,LSMRを用いたハードウェア設計において問題となる行列逆転などの手法を回避し,並列特性の強い乗算器の交互方向法に基づく。
中間段階として,柔軟な層数と隠れサイズを持つフィードフォワードニューラルネットワークのためのADMM-LSMR法をC言語で完全に実装した。
本手法は, 精度を損なうことなく, 定点演算で動作可能であることを示した。
次に,Intel FPGA SDK for OpenCLを用いたFPGA高速化バージョンを考案し,さらにIntel Arria 10 GX FPGA上でプログラムのデプロイに成功した。
FPGAアクセラレーションプログラムは、同等のCPU実装と比較して最大6倍の速度で動作し、有望な精度を実現した。
関連論文リスト
- Progressive Mixed-Precision Decoding for Efficient LLM Inference [49.05448842542558]
我々は,デコーディングのメモリバウンドネスに対処するために,プログレッシブ・ミックス・プレシジョン・デコーディング(PMPD)を導入する。
PMPDはfp16モデルの行列ベクトル乗算において1.4$-$12.2$times$ Speedupを達成する。
我々の手法は、fp16モデルよりも3.8$-$8.0$times$、均一量子化アプローチよりも1.54$times$のスループット向上をもたらす。
論文 参考訳(メタデータ) (2024-10-17T11:46:33Z) - Many-body computing on Field Programmable Gate Arrays [5.612626580467746]
我々は、量子多体計算を行うために、FPGA(Field Programmable Gate Arrays)の機能を利用する。
この結果、CPUベースの計算に比べて10倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2024-02-09T14:01:02Z) - Exploiting FPGA Capabilities for Accelerated Biomedical Computing [0.0]
本研究では、フィールドプログラマブルゲートアレイ(FPGA)を用いたECG信号解析のための高度なニューラルネットワークアーキテクチャを提案する。
我々は、トレーニングと検証にMIT-BIH Arrhythmia Databaseを使用し、堅牢性を改善するためにガウスノイズを導入した。
この研究は最終的に、様々なアプリケーションのためのFPGA上でのニューラルネットワーク性能を最適化するためのガイドを提供する。
論文 参考訳(メタデータ) (2023-07-16T01:20:17Z) - Reconfigurable Distributed FPGA Cluster Design for Deep Learning
Accelerators [59.11160990637615]
エッジコンピューティングアプリケーション用に設計された低消費電力組み込みFPGAに基づく分散システムを提案する。
提案システムは,様々なニューラルネットワーク(NN)モデルを同時に実行し,パイプライン構造にグラフを配置し,NNグラフの最も計算集約的な層により大きなリソースを手動で割り当てる。
論文 参考訳(メタデータ) (2023-05-24T16:08:55Z) - FPGA-based AI Smart NICs for Scalable Distributed AI Training Systems [62.20308752994373]
我々は、フィールドプログラマブルゲートアレイ(FPGA)を用いた分散AI訓練システムのための新しいスマートネットワークインタフェースカード(NIC)を提案する。
提案するFPGAベースのAIスマートNICは,従来のNICを用いたベースラインシステムと比較して,6ノードで1.6倍,32ノードで2.5倍の性能向上が期待できる。
論文 参考訳(メタデータ) (2022-04-22T21:57:00Z) - Accelerated Charged Particle Tracking with Graph Neural Networks on
FPGAs [0.0]
グラフニューラルネットワークに基づく荷電粒子追跡のためのアルゴリズムのFPGA実装を開発し,研究する。
CPUベースの実行の大幅な高速化が可能であり、将来的にはそのようなアルゴリズムを効果的に利用できるようになる可能性がある。
論文 参考訳(メタデータ) (2020-11-30T18:17:43Z) - AIN: Fast and Accurate Sequence Labeling with Approximate Inference
Network [75.44925576268052]
線形鎖条件ランダム場(CRF)モデルは最も広く使われているニューラルネットワークラベリング手法の1つである。
厳密な確率的推論アルゴリズムは典型的にはCRFモデルの訓練と予測段階に適用される。
CRFモデルに対して並列化可能な近似変分推論アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-09-17T12:18:43Z) - Iterative Algorithm Induced Deep-Unfolding Neural Networks: Precoding
Design for Multiuser MIMO Systems [59.804810122136345]
本稿では,AIIDNN(ディープ・アンフォールディング・ニューラルネット)を一般化した,ディープ・アンフォールディングのためのフレームワークを提案する。
古典的重み付き最小二乗誤差(WMMSE)反復アルゴリズムの構造に基づく効率的なIAIDNNを提案する。
提案したIAIDNNは,計算複雑性を低減した反復WMMSEアルゴリズムの性能を効率よく向上することを示す。
論文 参考訳(メタデータ) (2020-06-15T02:57:57Z) - An FPGA-Based On-Device Reinforcement Learning Approach using Online
Sequential Learning [2.99321624683618]
低コストFPGAデバイスのための軽量デバイス強化学習手法を提案する。
バックプロパゲーションメソッドに依存しないオンデバイスラーニングアプローチに基づく、最近提案されたニューラルネットワークを活用する。
提案手法は低コストFPGAプラットフォームとしてPYNQ-Z1ボード用に設計されている。
論文 参考訳(メタデータ) (2020-05-10T12:37:26Z) - Minimal Filtering Algorithms for Convolutional Neural Networks [82.24592140096622]
我々は,M=3,5,7,9,11の基本的なフィルタリング操作を実装するための完全並列ハードウェア指向アルゴリズムを開発した。
各ケースにおける提案アルゴリズムの完全な並列ハードウェア実装は、組込み乗算器の数を約30%削減する。
論文 参考訳(メタデータ) (2020-04-12T13:18:25Z) - A Supervised Learning Algorithm for Multilayer Spiking Neural Networks
Based on Temporal Coding Toward Energy-Efficient VLSI Processor Design [2.6872737601772956]
スパイキングニューラルネットワーク(スパイキングニューラルネット、英: Spiking Neural Network、SNN)は、スパイクの形で情報を処理できる脳にインスパイアされた数学的モデルである。
時間符号化に基づくSNNのための新しい教師付き学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-01-08T03:37:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。