論文の概要: Accelerating Markov Random Field Inference with Uncertainty
Quantification
- arxiv url: http://arxiv.org/abs/2108.00570v1
- Date: Mon, 2 Aug 2021 00:02:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-03 14:59:52.259074
- Title: Accelerating Markov Random Field Inference with Uncertainty
Quantification
- Title(参考訳): 不確かさ量子化によるマルコフ確率場推定の高速化
- Authors: Ramin Bashizade, Xiangyu Zhang, Sayan Mukherjee, Alvin R. Lebeck
- Abstract要約: 確率的アルゴリズムは従来のプロセッサでは計算コストがかかります
それらの統計的性質、すなわち解釈可能性と不確実量化(UQ)は、魅力的な代替手法である。
マルコフ確率場(MRF)推論のための高スループット加速器を提案する。
また、UQを効率的にサポートするための新しいハイブリッドオンチップ/オフチップメモリシステムとロギング方式を提案する。
- 参考スコア(独自算出の注目度): 10.825800519362579
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Statistical machine learning has widespread application in various domains.
These methods include probabilistic algorithms, such as Markov Chain
Monte-Carlo (MCMC), which rely on generating random numbers from probability
distributions. These algorithms are computationally expensive on conventional
processors, yet their statistical properties, namely interpretability and
uncertainty quantification (UQ) compared to deep learning, make them an
attractive alternative approach. Therefore, hardware specialization can be
adopted to address the shortcomings of conventional processors in running these
applications.
In this paper, we propose a high-throughput accelerator for Markov Random
Field (MRF) inference, a powerful model for representing a wide range of
applications, using MCMC with Gibbs sampling. We propose a tiled architecture
which takes advantage of near-memory computing, and memory optimizations
tailored to the semantics of MRF. Additionally, we propose a novel hybrid
on-chip/off-chip memory system and logging scheme to efficiently support UQ.
This memory system design is not specific to MRF models and is applicable to
applications using probabilistic algorithms. In addition, it dramatically
reduces off-chip memory bandwidth requirements.
We implemented an FPGA prototype of our proposed architecture using
high-level synthesis tools and achieved 146MHz frequency for an accelerator
with 32 function units on an Intel Arria 10 FPGA. Compared to prior work on
FPGA, our accelerator achieves 26X speedup. Furthermore, our proposed memory
system and logging scheme to support UQ reduces off-chip bandwidth by 71% for
two applications. ASIC analysis in 15nm shows our design with 2048 function
units running at 3GHz outperforms GPU implementations of motion estimation and
stereo vision on Nvidia RTX2080Ti by 120X-210X, occupying only 7.7% of the
area.
- Abstract(参考訳): 統計機械学習は様々な分野に広く応用されている。
これらの手法は確率分布から乱数を生成するマルコフ連鎖モンテカルロ(mcmc)のような確率論的アルゴリズムを含んでいる。
これらのアルゴリズムは従来のプロセッサでは計算コストがかかるが、その統計的性質、すなわち深層学習と比較して解釈可能性と不確実性定量化(UQ)は魅力的な代替手法である。
したがって、これらのアプリケーションを実行する際の従来のプロセッサの欠点に対処するために、ハードウェアの特殊化が採用できる。
本稿では,Gibs サンプリングを用いた MCMC を用いて,幅広いアプリケーションを表現する強力なモデルである Markov Random Field (MRF) 推論のための高スループット加速器を提案する。
MRFのセマンティクスに合わせて,ニアメモリコンピューティングを利用するタイルアーキテクチャとメモリ最適化を提案する。
さらに,UQを効率的にサポートするためのハイブリッドオンチップ/オフチップメモリシステムとロギング方式を提案する。
このメモリシステム設計は、MRFモデルに特化せず、確率論的アルゴリズムを用いたアプリケーションに適用できる。
さらに、チップ外のメモリ帯域幅を劇的に削減する。
提案アーキテクチャのFPGAプロトタイプを高レベル合成ツールを用いて実装し,Intel Arria 10 FPGA上で32個の関数ユニットを持つアクセラレータに対して146MHzの周波数を実現した。
FPGAの以前の研究と比較して、我々のアクセラレータは26倍のスピードアップを達成した。
さらに、UQをサポートするメモリシステムとロギング方式により、2つのアプリケーションに対してオフチップ帯域幅を71%削減する。
15nmのASIC分析では、3GHzで動作する2048の関数ユニットがNvidia RTX2080Tiの動作推定とステレオビジョンのGPU実装を120X-210Xで上回り、面積の7.7%しか占めていない。
関連論文リスト
- Understanding the Potential of FPGA-Based Spatial Acceleration for Large Language Model Inference [11.614722231006695]
数十億のパラメータを誇った大規模言語モデル(LLM)は、推論ワークロードの効率的なデプロイに対する大きな需要を生み出している。
本稿では,FPGA上でのLLM推論におけるモデル固有空間加速度の実現可能性と可能性について検討する。
論文 参考訳(メタデータ) (2023-12-23T04:27:06Z) - Pruning random resistive memory for optimizing analogue AI [54.21621702814583]
AIモデルは、エネルギー消費と環境持続可能性に前例のない課題を提示する。
有望な解決策の1つは、アナログコンピューティングを再考することである。
ここでは、構造的塑性に着想を得たエッジプルーニングを用いたユニバーサルソリューション、ソフトウェア・ハードウエアの共設計について報告する。
論文 参考訳(メタデータ) (2023-11-13T08:59:01Z) - FPGA-QHAR: Throughput-Optimized for Quantized Human Action Recognition
on The Edge [0.6254873489691849]
本稿では,8ビット量子化された2ストリームSimpleNet-PyTorch CNNアーキテクチャに基づく,エンドツーエンドHAR拡張型HW/SWアクセラレータの共設計を提案する。
私たちの開発では、部分的にストリーミングデータフローアーキテクチャを使用して、ネットワーク設計やリソース利用のトレードオフよりも高いスループットを実現しています。
提案手法は,ZCU104上の187MHzで約24FPSのリアルタイム推論スループットを用いて,約81%の予測精度を達成した。
論文 参考訳(メタデータ) (2023-11-04T10:38:21Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - Design optimization for high-performance computing using FPGA [0.0]
我々は、CIFARでトレーニングされたResNet20を使用して、Tensil AIのオープンソース推論アクセラレーターを最大性能に最適化する。
CIFARテストデータセットを実行すると、元の32ビット浮動小数点から丸めると、ほとんど精度が低下する。
提案した加速器は、100MHzで5.21Wのオンチップ消費電力を持つ21.12ギガ/秒(GOP/s)のスループットを実現する。
論文 参考訳(メタデータ) (2023-04-24T22:20:42Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - Hardware architecture for high throughput event visual data filtering
with matrix of IIR filters algorithm [0.0]
ニューロモルフィック・ビジョンは、自動運転車の知覚システムに多くの応用がある、急速に成長する分野である。
センサの動作原理のため、イベントストリームにはかなりのノイズがあります。
本稿では、このタイプのノイズをフィルタするIIRフィルタ行列と、その加速度を許容するハードウェアアーキテクチャに基づく新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-02T15:18:53Z) - MAPLE-Edge: A Runtime Latency Predictor for Edge Devices [80.01591186546793]
汎用ハードウェアの最先端遅延予測器であるMAPLEのエッジデバイス指向拡張であるMAPLE-Edgeを提案する。
MAPLEと比較して、MAPLE-Edgeはより小さなCPUパフォーマンスカウンタを使用して、ランタイムとターゲットデバイスプラットフォームを記述することができる。
また、共通ランタイムを共有するデバイスプール上でトレーニングを行うMAPLEとは異なり、MAPLE-Edgeは実行時に効果的に一般化できることを示す。
論文 参考訳(メタデータ) (2022-04-27T14:00:48Z) - A fully pipelined FPGA accelerator for scale invariant feature transform
keypoint descriptor matching, [0.0]
SIFTキーポイント記述子マッチングのための完全パイプラインハードウェアアクセラレータアーキテクチャを設計する。
提案するハードウェアアーキテクチャは、完全にパイプライン化された実装に必要なメモリ帯域を適切に処理することができる。
私たちのハードウェア実装は、同等のソフトウェアアプローチの15.7倍高速です。
論文 参考訳(メタデータ) (2020-12-17T15:29:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。