論文の概要: Architectural Implications of Neural Network Inference for High Data-Rate, Low-Latency Scientific Applications
- arxiv url: http://arxiv.org/abs/2403.08980v1
- Date: Wed, 13 Mar 2024 22:10:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-15 22:17:16.890145
- Title: Architectural Implications of Neural Network Inference for High Data-Rate, Low-Latency Scientific Applications
- Title(参考訳): 高データレート低レイテンシ科学応用のためのニューラルネットワーク推論のアーキテクチャ的意味
- Authors: Olivia Weng, Alexander Redding, Nhan Tran, Javier Mauricio Duarte, Ryan Kastner,
- Abstract要約: 多くの科学的NNアプリケーションは、そのような制約を満たすためにカスタムチップを必要とする極端なケースにおいて、チップ上で完全に動作しなければならない。
我々の研究では、多くの科学的NNアプリケーションはチップ上で完全に動作しなければなりませんが、極端な場合、そのような厳しい制約を満たすためにカスタムチップが必要であることが示されています。
- 参考スコア(独自算出の注目度): 43.60059930708406
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With more scientific fields relying on neural networks (NNs) to process data incoming at extreme throughputs and latencies, it is crucial to develop NNs with all their parameters stored on-chip. In many of these applications, there is not enough time to go off-chip and retrieve weights. Even more so, off-chip memory such as DRAM does not have the bandwidth required to process these NNs as fast as the data is being produced (e.g., every 25 ns). As such, these extreme latency and bandwidth requirements have architectural implications for the hardware intended to run these NNs: 1) all NN parameters must fit on-chip, and 2) codesigning custom/reconfigurable logic is often required to meet these latency and bandwidth constraints. In our work, we show that many scientific NN applications must run fully on chip, in the extreme case requiring a custom chip to meet such stringent constraints.
- Abstract(参考訳): 極端なスループットとレイテンシでやってくるデータを処理するために、ニューラルネットワーク(NN)に依存する科学的な分野が増えているため、すべてのパラメータをチップ上に格納したNNを開発することが不可欠である。
これらの応用の多くは、オフチップで重量を回収するのに十分な時間がない。
さらに、DRAMのようなオフチップメモリは、これらのNNを処理するのに必要な帯域幅を持っていない(例:25 ns毎)。
したがって、これらの極端なレイテンシと帯域幅要件は、これらのNNを実行することを意図したハードウェアにアーキテクチャ上の意味を持つ。
1) NNパラメータはすべてオンチップに適合しなければなりません。
2) 遅延と帯域幅の制約を満たすためには、カスタム/再構成可能なロジックをコード署名する必要があることが多い。
我々の研究では、多くの科学的NNアプリケーションはチップ上で完全に動作しなければなりませんが、極端な場合、そのような厳しい制約を満たすためにカスタムチップが必要であることが示されています。
関連論文リスト
- RNC: Efficient RRAM-aware NAS and Compilation for DNNs on Resource-Constrained Edge Devices [0.30458577208819987]
我々は抵抗性ランダムアクセスメモリ(RRAM)に基づく加速器のためのエッジフレンドリーなディープニューラルネットワーク(DNN)の開発を目指している。
本稿では,特定のハードウェア制約を満たす最適化ニューラルネットワークを探索するための,エッジコンパイルとリソース制約付きRRAM対応ニューラルネットワーク探索(NAS)フレームワークを提案する。
NASが速度に最適化した結果のモデルは5x-30倍のスピードアップを達成した。
論文 参考訳(メタデータ) (2024-09-27T15:35:36Z) - Spiker+: a framework for the generation of efficient Spiking Neural
Networks FPGA accelerators for inference at the edge [49.42371633618761]
Spiker+はFPGA上で、エッジでの推論のために効率よく、低消費電力で、低領域でカスタマイズされたSpking Neural Networks(SNN)アクセラレータを生成するためのフレームワークである。
Spiker+ は MNIST と Spiking Heidelberg Digits (SHD) の2つのベンチマークデータセットでテストされている。
論文 参考訳(メタデータ) (2024-01-02T10:42:42Z) - Sparsifying Binary Networks [3.8350038566047426]
バイナリニューラルネットワーク(BNN)は、完全精度のディープニューラルネットワーク(DNN)と同等の精度で複雑なタスクを解く能力を示した。
最近の改善にもかかわらず、非常に限られたリソースを持つ特定のデバイスで不十分な、固定的で制限された圧縮要因に悩まされている。
本稿では,BNNの疎性を導入した新しいモデルとトレーニング手法であるスパースバイナリニューラルネットワーク(SBNN)と,ネットワークの重みをバイナライズする新しい量子化関数を提案する。
論文 参考訳(メタデータ) (2022-07-11T15:54:41Z) - Sub-bit Neural Networks: Learning to Compress and Accelerate Binary
Neural Networks [72.81092567651395]
Sub-bit Neural Networks (SNN) は、BNNの圧縮と高速化に適した新しいタイプのバイナリ量子化設計である。
SNNは、微細な畳み込みカーネル空間におけるバイナリ量子化を利用するカーネル対応最適化フレームワークで訓練されている。
ビジュアル認識ベンチマークの実験とFPGA上でのハードウェア展開は、SNNの大きな可能性を検証する。
論文 参考訳(メタデータ) (2021-10-18T11:30:29Z) - Towards Memory-Efficient Neural Networks via Multi-Level in situ
Generation [10.563649948220371]
ディープニューラルネットワーク(DNN)は、様々なタスクにおいて優れたパフォーマンスを示している。
それらが急速に進化するにつれて、そのエスカレーション計算とメモリ要求により、リソースに制約のあるエッジデバイスへのデプロイが困難になる。
超高速なオンチップ計算で高価なメモリトランザクションを交換するための汎用的で統一的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-25T18:50:24Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - Binary Graph Neural Networks [69.51765073772226]
グラフニューラルネットワーク(gnns)は、不規則データに対する表現学習のための強力で柔軟なフレームワークとして登場した。
本稿では,グラフニューラルネットワークのバイナライゼーションのための異なる戦略を提示し,評価する。
モデルの慎重な設計とトレーニングプロセスの制御によって、バイナリグラフニューラルネットワークは、挑戦的なベンチマークの精度において、適度なコストでトレーニングできることを示しています。
論文 参考訳(メタデータ) (2020-12-31T18:48:58Z) - Efficient Synthesis of Compact Deep Neural Networks [17.362146401041528]
ディープニューラルネットワーク(DNN)は、無数の機械学習アプリケーションにデプロイされている。
これらの大規模で深いモデルは、膨大な計算コスト、高いメモリ帯域幅、長いレイテンシのために、現実世界のアプリケーションには適さないことが多い。
本稿では,DNN/LSTMモデルの自動合成手法について概説する。
論文 参考訳(メタデータ) (2020-04-18T21:20:04Z) - Data-Driven Neuromorphic DRAM-based CNN and RNN Accelerators [13.47462920292399]
ハードウェアアクセラレーター上で大きなディープニューラルネットワーク(DNN)を実行することで消費されるエネルギーは、状態と重みの両方を保存するために大量の高速メモリを必要としている。
DRAMは高価で低コストなメモリ(DRAMより20倍安い)であるが、長いランダムアクセスレイテンシはスパイキングニューラルネットワーク(SNN)の予測不可能なアクセスパターンにとって悪い。
本稿では,SNNと同様の空間的あるいは時間的間隔を生かしながら,SOAスループット,電力効率,レイテンシを実現する深層ニューラルネットワークハードウェアアクセラレータの過去5年間の展開について報告する。
論文 参考訳(メタデータ) (2020-03-29T11:45:53Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。