論文の概要: HOBFLOPS CNNs: Hardware Optimized Bitslice-Parallel Floating-Point
Operations for Convolutional Neural Networks
- arxiv url: http://arxiv.org/abs/2007.06563v3
- Date: Sun, 28 Feb 2021 16:52:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 13:44:18.242925
- Title: HOBFLOPS CNNs: Hardware Optimized Bitslice-Parallel Floating-Point
Operations for Convolutional Neural Networks
- Title(参考訳): HOBFLOPS CNN:畳み込みニューラルネットワークのためのハードウェア最適化ビットスライス・パラレル浮動小数点演算
- Authors: James Garland, David Gregg
- Abstract要約: 畳み込みニューラルネットワーク(CNN)は通常16ビットまたは32ビット浮動小数点(FP)を用いて訓練される
低精度浮動小数点 (FP) は推論に非常に有効である。
既存のプロセッサは、通常カスタム精度FPをサポートしない。
ハードウェア最適化ビットスライス並列浮動小数点演算子(HOBFLOPS)を提案する。
- 参考スコア(独自算出の注目度): 0.2148535041822524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convolutional neural networks (CNNs) are typically trained using 16- or
32-bit floating-point (FP) and researchers show that low-precision
floating-point (FP) can be highly effective for inference. Low-precision FP can
be implemented in field programmable gate array (FPGA) and application-specific
integrated circuit (ASIC) accelerators, but existing processors do not
generally support custom precision FP. We propose hardware optimized
bitslice-parallel floating-point operators (HOBFLOPS), a method of generating
efficient custom-precision emulated bitslice-parallel software FP arithmetic.
We generate custom-precision FP routines optimized using a hardware synthesis
design flow to create circuits. We provide standard cell libraries matching the
bitwise operations on the target microprocessor architecture, and a
code-generator to translate the hardware circuits to bitslice software
equivalents. We exploit bitslice parallelism to create a very wide (32-512
element) vectorized convolutional neural network (CNN) convolution. Hardware
optimized bitslice-parallel floating-point operators (HOBFLOPS)
multiply-accumulate (MAC) performance in CNN convolution on Arm and Intel
processors are compared to Berkeley's SoftFP16 equivalent MAC. HOBFLOPS16
outperforms SoftFP16 by 8x on Intel AVX512. HOBFLOPS offers arbitrary-precision
FP with custom range and precision e.g., HOBFLOPS9 performs at 6x the
performance of HOBFLOPS16 on Arm Neon. HOBFLOPS allows researchers to prototype
different levels of custom FP precision in the arithmetic of software CNN
accelerators. Furthermore, HOBFLOPS fast custom-precision FP CNNs may be
valuable in cases where memory bandwidth is limited.
- Abstract(参考訳): 畳み込みニューラルネットワーク(cnns)は通常16ビットまたは32ビット浮動小数点(fp)を用いて訓練され、研究者は低精度浮動小数点(fp)が推論に非常に有効であることを示した。
低精度のFPは、フィールドプログラマブルゲートアレイ(FPGA)やアプリケーション固有の集積回路(ASIC)アクセラレータで実装できるが、既存のプロセッサは一般的にカスタムのFPをサポートしていない。
本稿では,ハードウェア最適化されたbitslice-parallel floating-point operator (hobflops)を提案する。
我々は、ハードウェア合成設計フローを用いて最適化されたカスタム精度FPルーチンを生成し、回路を作成する。
我々は、ターゲットマイクロプロセッサアーキテクチャのビット単位演算に適合する標準セルライブラリと、ハードウェア回路をビット単位のソフトウェアに変換するコード生成器を提供する。
我々はbitslice並列性を利用して、非常に広い(32-512要素)ベクター化畳み込みニューラルネットワーク(cnn)畳み込みを生成する。
ハードウェア最適化のbitslice-parallel floating-point operators (hobflops) multiply-accumulate (mac) performance in cnn convolution on arm and intel processorは、バークレーのsoftfp16同等のmacと比較される。
HOBFLOPS16はIntel AVX512でSoftFP16を8倍に上回る。
例えば、HOBFLOPS9はArm NeonのHOBFLOPS16の6倍の性能を発揮する。
HOBFLOPSは、ソフトウェアCNNアクセラレータの演算において、様々なレベルのカスタムFP精度をプロトタイプできる。
さらに、HOBFLOPSの高速カスタム精度FP CNNは、メモリ帯域幅が制限されている場合に有用である。
関連論文リスト
- BitQ: Tailoring Block Floating Point Precision for Improved DNN Efficiency on Resource-Constrained Devices [14.536949788395837]
ブロック浮動小数点(BFP)量子化は、メモリと計算負荷を減らすための代表的な圧縮手法の1つである。
組込みプラットフォーム上でのDNN推論の最良のBFP実装のためのBFPベースのビット幅対応解析モデルフレームワーク(BitQ')を開発した。
論文 参考訳(メタデータ) (2024-09-25T17:03:49Z) - Fast Algorithms for Spiking Neural Network Simulation with FPGAs [0.0]
我々は、ハイエンドフィールドプログラマブルゲートアレイ(FPGA)のためのPotjans-Diesmann大脳皮質微小回路のためのスパイキングニューラルネットワークシミュレータ(SNN)を作成する。
我々の最高のシミュレーターは、回路をリアルタイムよりも25%高速にシミュレートし、シナプスイベントあたり21nJ未満が必要であり、オンチップメモリによってボトルネックされる。
この結果は、単一のハードウェアアクセラレータ上で回路をシミュレートする最初のものである。
論文 参考訳(メタデータ) (2024-05-03T11:39:25Z) - Reconfigurable Distributed FPGA Cluster Design for Deep Learning
Accelerators [59.11160990637615]
エッジコンピューティングアプリケーション用に設計された低消費電力組み込みFPGAに基づく分散システムを提案する。
提案システムは,様々なニューラルネットワーク(NN)モデルを同時に実行し,パイプライン構造にグラフを配置し,NNグラフの最も計算集約的な層により大きなリソースを手動で割り当てる。
論文 参考訳(メタデータ) (2023-05-24T16:08:55Z) - End-to-end codesign of Hessian-aware quantized neural networks for FPGAs
and ASICs [49.358119307844035]
我々は、共設計ニューラルネットワーク(NN)のトレーニングと実装のためのエンドツーエンドワークフローを開発する。
これにより、ハードウェアにおける効率的なNN実装が、非専門家に、単一のオープンソースワークフローでアクセスできるようになる。
大型ハドロン衝突型加速器(LHC)の40MHz衝突速度で動作しなければならないトリガー決定を含む粒子物理学アプリケーションにおけるワークフローを実演する。
シミュレーションLHC陽子-陽子衝突における高速粒子ジェット用混合精度NNを実装した。
論文 参考訳(メタデータ) (2023-04-13T18:00:01Z) - HARFLOW3D: A Latency-Oriented 3D-CNN Accelerator Toolflow for HAR on
FPGA Devices [71.45672882756001]
本研究では,3次元畳み込みニューラルネットワークをFPGAにマッピングするための,新しいストリーミングアーキテクチャベースのツールフローを提案する。
HARFLOW3Dツールフローは、ONNXフォーマットで3D CNNを入力し、FPGAの特性を記述する。
ツールフローが幅広いモデルやデバイスをサポートする能力は、様々な3D CNNとFPGAシステムペアに関する数多くの実験を通して示される。
論文 参考訳(メタデータ) (2023-03-30T08:25:27Z) - Optimization of FPGA-based CNN Accelerators Using Metaheuristics [1.854931308524932]
畳み込みニューラルネットワーク(CNN)は、多くの分野における問題解決能力を実証している。
FPGAはCNN推論を加速する関心が高まっている。
FPGAベースのCNNアクセラレータの現在のトレンドは、複数の畳み込み層プロセッサ(CLP)を実装することである。
論文 参考訳(メタデータ) (2022-09-22T18:57:49Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - A fully pipelined FPGA accelerator for scale invariant feature transform
keypoint descriptor matching, [0.0]
SIFTキーポイント記述子マッチングのための完全パイプラインハードウェアアクセラレータアーキテクチャを設計する。
提案するハードウェアアーキテクチャは、完全にパイプライン化された実装に必要なメモリ帯域を適切に処理することができる。
私たちのハードウェア実装は、同等のソフトウェアアプローチの15.7倍高速です。
論文 参考訳(メタデータ) (2020-12-17T15:29:41Z) - A Learning Framework for n-bit Quantized Neural Networks toward FPGAs [20.83904734716565]
重みが2つのパワーに制約されるnビットQNNのための新しい学習フレームワークを提案する。
また,n-BQ-NNという新しいQNN構造も提案する。
SVPEを用いたN-BQ-NNは,ベクトル処理素子(VPE)よりも2.9倍高速に動作可能であることを示す。
論文 参考訳(メタデータ) (2020-04-06T04:21:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。