Fugu-MT 論文翻訳(概要): Accelerating Markov Random Field Inference with Uncertainty Quantification

論文の概要: Accelerating Markov Random Field Inference with Uncertainty Quantification

arxiv url: http://arxiv.org/abs/2108.00570v1
Date: Mon, 2 Aug 2021 00:02:53 GMT
ステータス: 翻訳完了
システム内更新日: 2021-08-03 14:59:52.259074
Title: Accelerating Markov Random Field Inference with Uncertainty Quantification
Title（参考訳）: 不確かさ量子化によるマルコフ確率場推定の高速化
Authors: Ramin Bashizade, Xiangyu Zhang, Sayan Mukherjee, Alvin R. Lebeck
Abstract要約: 確率的アルゴリズムは従来のプロセッサでは計算コストがかかりますそれらの統計的性質、すなわち解釈可能性と不確実量化(UQ)は、魅力的な代替手法である。マルコフ確率場(MRF)推論のための高スループット加速器を提案する。また、UQを効率的にサポートするための新しいハイブリッドオンチップ/オフチップメモリシステムとロギング方式を提案する。
参考スコア（独自算出の注目度）: 10.825800519362579
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Statistical machine learning has widespread application in various domains. These methods include probabilistic algorithms, such as Markov Chain Monte-Carlo (MCMC), which rely on generating random numbers from probability distributions. These algorithms are computationally expensive on conventional processors, yet their statistical properties, namely interpretability and uncertainty quantification (UQ) compared to deep learning, make them an attractive alternative approach. Therefore, hardware specialization can be adopted to address the shortcomings of conventional processors in running these applications. In this paper, we propose a high-throughput accelerator for Markov Random Field (MRF) inference, a powerful model for representing a wide range of applications, using MCMC with Gibbs sampling. We propose a tiled architecture which takes advantage of near-memory computing, and memory optimizations tailored to the semantics of MRF. Additionally, we propose a novel hybrid on-chip/off-chip memory system and logging scheme to efficiently support UQ. This memory system design is not specific to MRF models and is applicable to applications using probabilistic algorithms. In addition, it dramatically reduces off-chip memory bandwidth requirements. We implemented an FPGA prototype of our proposed architecture using high-level synthesis tools and achieved 146MHz frequency for an accelerator with 32 function units on an Intel Arria 10 FPGA. Compared to prior work on FPGA, our accelerator achieves 26X speedup. Furthermore, our proposed memory system and logging scheme to support UQ reduces off-chip bandwidth by 71% for two applications. ASIC analysis in 15nm shows our design with 2048 function units running at 3GHz outperforms GPU implementations of motion estimation and stereo vision on Nvidia RTX2080Ti by 120X-210X, occupying only 7.7% of the area.
Abstract（参考訳）: 統計機械学習は様々な分野に広く応用されている。これらの手法は確率分布から乱数を生成するマルコフ連鎖モンテカルロ(mcmc)のような確率論的アルゴリズムを含んでいる。これらのアルゴリズムは従来のプロセッサでは計算コストがかかるが、その統計的性質、すなわち深層学習と比較して解釈可能性と不確実性定量化(UQ)は魅力的な代替手法である。したがって、これらのアプリケーションを実行する際の従来のプロセッサの欠点に対処するために、ハードウェアの特殊化が採用できる。本稿では,Gibs サンプリングを用いた MCMC を用いて,幅広いアプリケーションを表現する強力なモデルである Markov Random Field (MRF) 推論のための高スループット加速器を提案する。 MRFのセマンティクスに合わせて,ニアメモリコンピューティングを利用するタイルアーキテクチャとメモリ最適化を提案する。さらに,UQを効率的にサポートするためのハイブリッドオンチップ/オフチップメモリシステムとロギング方式を提案する。このメモリシステム設計は、MRFモデルに特化せず、確率論的アルゴリズムを用いたアプリケーションに適用できる。さらに、チップ外のメモリ帯域幅を劇的に削減する。提案アーキテクチャのFPGAプロトタイプを高レベル合成ツールを用いて実装し,Intel Arria 10 FPGA上で32個の関数ユニットを持つアクセラレータに対して146MHzの周波数を実現した。 FPGAの以前の研究と比較して、我々のアクセラレータは26倍のスピードアップを達成した。さらに、UQをサポートするメモリシステムとロギング方式により、2つのアプリケーションに対してオフチップ帯域幅を71%削減する。 15nmのASIC分析では、3GHzで動作する2048の関数ユニットがNvidia RTX2080Tiの動作推定とステレオビジョンのGPU実装を120X-210Xで上回り、面積の7.7%しか占めていない。

関連論文リスト

Perturbation-efficient Zeroth-order Optimization for Hardware-friendly On-device Training [48.13509528824236]
Zeroth-order(ZO)最適化は、計算の単純さとメモリ節約を提供する、新たなディープニューラルネットワーク(DNN)トレーニングパラダイムである。 ZOは相当数のガウス乱数を生成する必要があり、これはかなりの困難を伴い、FPGAやASICのようなハードウェアプラットフォームでは利用できない。乱数生成の需要を大幅に削減する摂動効率のZOフレームワークであるPeZOを提案する。実験の結果,PeZO は乱数生成に必要な LUT と FF を 48.6% と 12.7% に削減し,最大 86% の消費電力を削減できることがわかった。
論文参考訳（メタデータ） (2025-04-28T23:58:07Z)
Runtime Tunable Tsetlin Machines for Edge Inference on eFPGAs [0.2294388534633318]
eFPGAはエッジ機械学習(ML)アプリケーションのハードウェアアクセラレータを低消費電力で設計することができる。限られたeFPGA論理とメモリは計算能力とモデルサイズを著しく制限した。提案するeFPGAアクセラレータは、リソース使用量の最小化と、スループットに対するオンフィールドリカバリの柔軟性の実現に重点を置いている。
論文参考訳（メタデータ） (2025-02-10T12:49:22Z)
Understanding the Potential of FPGA-Based Spatial Acceleration for Large Language Model Inference [11.614722231006695]
数十億のパラメータを誇った大規模言語モデル(LLM)は、推論ワークロードの効率的なデプロイに対する大きな需要を生み出している。本稿では,FPGA上でのLLM推論におけるモデル固有空間加速度の実現可能性と可能性について検討する。
論文参考訳（メタデータ） (2023-12-23T04:27:06Z)
Pruning random resistive memory for optimizing analogue AI [54.21621702814583]
AIモデルは、エネルギー消費と環境持続可能性に前例のない課題を提示する。有望な解決策の1つは、アナログコンピューティングを再考することである。ここでは、構造的塑性に着想を得たエッジプルーニングを用いたユニバーサルソリューション、ソフトウェア・ハードウエアの共設計について報告する。
論文参考訳（メタデータ） (2023-11-13T08:59:01Z)
FPGA-QHAR: Throughput-Optimized for Quantized Human Action Recognition on The Edge [0.6254873489691849]
本稿では,8ビット量子化された2ストリームSimpleNet-PyTorch CNNアーキテクチャに基づく,エンドツーエンドHAR拡張型HW/SWアクセラレータの共設計を提案する。私たちの開発では、部分的にストリーミングデータフローアーキテクチャを使用して、ネットワーク設計やリソース利用のトレードオフよりも高いスループットを実現しています。提案手法は,ZCU104上の187MHzで約24FPSのリアルタイム推論スループットを用いて,約81%の予測精度を達成した。
論文参考訳（メタデータ） (2023-11-04T10:38:21Z)
INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。 InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。 1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文参考訳（メタデータ） (2023-08-11T04:24:39Z)
Design optimization for high-performance computing using FPGA [0.0]
我々は、CIFARでトレーニングされたResNet20を使用して、Tensil AIのオープンソース推論アクセラレーターを最大性能に最適化する。 CIFARテストデータセットを実行すると、元の32ビット浮動小数点から丸めると、ほとんど精度が低下する。提案した加速器は、100MHzで5.21Wのオンチップ消費電力を持つ21.12ギガ/秒(GOP/s)のスループットを実現する。
論文参考訳（メタデータ） (2023-04-24T22:20:42Z)
DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文参考訳（メタデータ） (2023-04-18T15:13:10Z)
Energy-efficient Task Adaptation for NLP Edge Inference Leveraging Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文参考訳（メタデータ） (2023-03-25T14:40:59Z)
Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文参考訳（メタデータ） (2022-09-20T09:28:26Z)
Hardware architecture for high throughput event visual data filtering with matrix of IIR filters algorithm [0.0]
ニューロモルフィック・ビジョンは、自動運転車の知覚システムに多くの応用がある、急速に成長する分野である。センサの動作原理のため、イベントストリームにはかなりのノイズがあります。本稿では、このタイプのノイズをフィルタするIIRフィルタ行列と、その加速度を許容するハードウェアアーキテクチャに基づく新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-07-02T15:18:53Z)
MAPLE-Edge: A Runtime Latency Predictor for Edge Devices [80.01591186546793]
汎用ハードウェアの最先端遅延予測器であるMAPLEのエッジデバイス指向拡張であるMAPLE-Edgeを提案する。 MAPLEと比較して、MAPLE-Edgeはより小さなCPUパフォーマンスカウンタを使用して、ランタイムとターゲットデバイスプラットフォームを記述することができる。また、共通ランタイムを共有するデバイスプール上でトレーニングを行うMAPLEとは異なり、MAPLE-Edgeは実行時に効果的に一般化できることを示す。
論文参考訳（メタデータ） (2022-04-27T14:00:48Z)
A fully pipelined FPGA accelerator for scale invariant feature transform keypoint descriptor matching, [0.0]
SIFTキーポイント記述子マッチングのための完全パイプラインハードウェアアクセラレータアーキテクチャを設計する。提案するハードウェアアーキテクチャは、完全にパイプライン化された実装に必要なメモリ帯域を適切に処理することができる。私たちのハードウェア実装は、同等のソフトウェアアプローチの15.7倍高速です。
論文参考訳（メタデータ） (2020-12-17T15:29:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。