Fugu-MT 論文翻訳(概要): HOBFLOPS CNNs: Hardware Optimized Bitslice-Parallel Floating-Point Operations for Convolutional Neural Networks

論文の概要: HOBFLOPS CNNs: Hardware Optimized Bitslice-Parallel Floating-Point Operations for Convolutional Neural Networks

arxiv url: http://arxiv.org/abs/2007.06563v3
Date: Sun, 28 Feb 2021 16:52:38 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-11 13:44:18.242925
Title: HOBFLOPS CNNs: Hardware Optimized Bitslice-Parallel Floating-Point Operations for Convolutional Neural Networks
Title（参考訳）: HOBFLOPS CNN:畳み込みニューラルネットワークのためのハードウェア最適化ビットスライス・パラレル浮動小数点演算
Authors: James Garland, David Gregg
Abstract要約: 畳み込みニューラルネットワーク(CNN)は通常16ビットまたは32ビット浮動小数点(FP)を用いて訓練される低精度浮動小数点 (FP) は推論に非常に有効である。既存のプロセッサは、通常カスタム精度FPをサポートしない。ハードウェア最適化ビットスライス並列浮動小数点演算子(HOBFLOPS)を提案する。
参考スコア（独自算出の注目度）: 0.2148535041822524
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Convolutional neural networks (CNNs) are typically trained using 16- or 32-bit floating-point (FP) and researchers show that low-precision floating-point (FP) can be highly effective for inference. Low-precision FP can be implemented in field programmable gate array (FPGA) and application-specific integrated circuit (ASIC) accelerators, but existing processors do not generally support custom precision FP. We propose hardware optimized bitslice-parallel floating-point operators (HOBFLOPS), a method of generating efficient custom-precision emulated bitslice-parallel software FP arithmetic. We generate custom-precision FP routines optimized using a hardware synthesis design flow to create circuits. We provide standard cell libraries matching the bitwise operations on the target microprocessor architecture, and a code-generator to translate the hardware circuits to bitslice software equivalents. We exploit bitslice parallelism to create a very wide (32-512 element) vectorized convolutional neural network (CNN) convolution. Hardware optimized bitslice-parallel floating-point operators (HOBFLOPS) multiply-accumulate (MAC) performance in CNN convolution on Arm and Intel processors are compared to Berkeley's SoftFP16 equivalent MAC. HOBFLOPS16 outperforms SoftFP16 by 8x on Intel AVX512. HOBFLOPS offers arbitrary-precision FP with custom range and precision e.g., HOBFLOPS9 performs at 6x the performance of HOBFLOPS16 on Arm Neon. HOBFLOPS allows researchers to prototype different levels of custom FP precision in the arithmetic of software CNN accelerators. Furthermore, HOBFLOPS fast custom-precision FP CNNs may be valuable in cases where memory bandwidth is limited.
Abstract（参考訳）: 畳み込みニューラルネットワーク(cnns)は通常16ビットまたは32ビット浮動小数点(fp)を用いて訓練され、研究者は低精度浮動小数点(fp)が推論に非常に有効であることを示した。低精度のFPは、フィールドプログラマブルゲートアレイ(FPGA)やアプリケーション固有の集積回路(ASIC)アクセラレータで実装できるが、既存のプロセッサは一般的にカスタムのFPをサポートしていない。本稿では,ハードウェア最適化されたbitslice-parallel floating-point operator (hobflops)を提案する。我々は、ハードウェア合成設計フローを用いて最適化されたカスタム精度FPルーチンを生成し、回路を作成する。我々は、ターゲットマイクロプロセッサアーキテクチャのビット単位演算に適合する標準セルライブラリと、ハードウェア回路をビット単位のソフトウェアに変換するコード生成器を提供する。我々はbitslice並列性を利用して、非常に広い(32-512要素)ベクター化畳み込みニューラルネットワーク(cnn)畳み込みを生成する。ハードウェア最適化のbitslice-parallel floating-point operators (hobflops) multiply-accumulate (mac) performance in cnn convolution on arm and intel processorは、バークレーのsoftfp16同等のmacと比較される。 HOBFLOPS16はIntel AVX512でSoftFP16を8倍に上回る。例えば、HOBFLOPS9はArm NeonのHOBFLOPS16の6倍の性能を発揮する。 HOBFLOPSは、ソフトウェアCNNアクセラレータの演算において、様々なレベルのカスタムFP精度をプロトタイプできる。さらに、HOBFLOPSの高速カスタム精度FP CNNは、メモリ帯域幅が制限されている場合に有用である。

関連論文リスト

Runtime Tunable Tsetlin Machines for Edge Inference on eFPGAs [0.2294388534633318]
eFPGAはエッジ機械学習(ML)アプリケーションのハードウェアアクセラレータを低消費電力で設計することができる。限られたeFPGA論理とメモリは計算能力とモデルサイズを著しく制限した。提案するeFPGAアクセラレータは、リソース使用量の最小化と、スループットに対するオンフィールドリカバリの柔軟性の実現に重点を置いている。
論文参考訳（メタデータ） (2025-02-10T12:49:22Z)
BitQ: Tailoring Block Floating Point Precision for Improved DNN Efficiency on Resource-Constrained Devices [14.536949788395837]
ブロック浮動小数点(BFP)量子化は、メモリと計算負荷を減らすための代表的な圧縮手法の1つである。組込みプラットフォーム上でのDNN推論の最良のBFP実装のためのBFPベースのビット幅対応解析モデルフレームワーク(BitQ')を開発した。
論文参考訳（メタデータ） (2024-09-25T17:03:49Z)
Fast Algorithms for Spiking Neural Network Simulation with FPGAs [0.0]
我々は、ハイエンドフィールドプログラマブルゲートアレイ(FPGA)のためのPotjans-Diesmann大脳皮質微小回路のためのスパイキングニューラルネットワークシミュレータ(SNN)を作成する。我々の最高のシミュレーターは、回路をリアルタイムよりも25%高速にシミュレートし、シナプスイベントあたり21nJ未満が必要であり、オンチップメモリによってボトルネックされる。この結果は、単一のハードウェアアクセラレータ上で回路をシミュレートする最初のものである。
論文参考訳（メタデータ） (2024-05-03T11:39:25Z)
Reconfigurable Distributed FPGA Cluster Design for Deep Learning Accelerators [59.11160990637615]
エッジコンピューティングアプリケーション用に設計された低消費電力組み込みFPGAに基づく分散システムを提案する。提案システムは,様々なニューラルネットワーク(NN)モデルを同時に実行し,パイプライン構造にグラフを配置し,NNグラフの最も計算集約的な層により大きなリソースを手動で割り当てる。
論文参考訳（メタデータ） (2023-05-24T16:08:55Z)
End-to-end codesign of Hessian-aware quantized neural networks for FPGAs and ASICs [49.358119307844035]
我々は、共設計ニューラルネットワーク(NN)のトレーニングと実装のためのエンドツーエンドワークフローを開発する。これにより、ハードウェアにおける効率的なNN実装が、非専門家に、単一のオープンソースワークフローでアクセスできるようになる。大型ハドロン衝突型加速器(LHC)の40MHz衝突速度で動作しなければならないトリガー決定を含む粒子物理学アプリケーションにおけるワークフローを実演する。シミュレーションLHC陽子-陽子衝突における高速粒子ジェット用混合精度NNを実装した。
論文参考訳（メタデータ） (2023-04-13T18:00:01Z)
HARFLOW3D: A Latency-Oriented 3D-CNN Accelerator Toolflow for HAR on FPGA Devices [71.45672882756001]
本研究では,3次元畳み込みニューラルネットワークをFPGAにマッピングするための,新しいストリーミングアーキテクチャベースのツールフローを提案する。 HARFLOW3Dツールフローは、ONNXフォーマットで3D CNNを入力し、FPGAの特性を記述する。ツールフローが幅広いモデルやデバイスをサポートする能力は、様々な3D CNNとFPGAシステムペアに関する数多くの実験を通して示される。
論文参考訳（メタデータ） (2023-03-30T08:25:27Z)
Optimization of FPGA-based CNN Accelerators Using Metaheuristics [1.854931308524932]
畳み込みニューラルネットワーク(CNN)は、多くの分野における問題解決能力を実証している。 FPGAはCNN推論を加速する関心が高まっている。 FPGAベースのCNNアクセラレータの現在のトレンドは、複数の畳み込み層プロセッサ(CLP)を実装することである。
論文参考訳（メタデータ） (2022-09-22T18:57:49Z)
Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文参考訳（メタデータ） (2022-09-20T09:28:26Z)
An Adaptive Device-Edge Co-Inference Framework Based on Soft Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文参考訳（メタデータ） (2022-01-09T09:31:50Z)
Quantized Neural Networks via {-1, +1} Encoding Decomposition and Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文参考訳（メタデータ） (2021-06-18T03:11:15Z)
A fully pipelined FPGA accelerator for scale invariant feature transform keypoint descriptor matching, [0.0]
SIFTキーポイント記述子マッチングのための完全パイプラインハードウェアアクセラレータアーキテクチャを設計する。提案するハードウェアアーキテクチャは、完全にパイプライン化された実装に必要なメモリ帯域を適切に処理することができる。私たちのハードウェア実装は、同等のソフトウェアアプローチの15.7倍高速です。
論文参考訳（メタデータ） (2020-12-17T15:29:41Z)
A Learning Framework for n-bit Quantized Neural Networks toward FPGAs [20.83904734716565]
重みが2つのパワーに制約されるnビットQNNのための新しい学習フレームワークを提案する。また,n-BQ-NNという新しいQNN構造も提案する。 SVPEを用いたN-BQ-NNは,ベクトル処理素子(VPE)よりも2.9倍高速に動作可能であることを示す。
論文参考訳（メタデータ） (2020-04-06T04:21:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。