論文の概要: Monitor Placement for Fault Localization in Deep Neural Network
Accelerators
- arxiv url: http://arxiv.org/abs/2311.16594v3
- Date: Mon, 12 Feb 2024 01:53:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 21:31:37.215256
- Title: Monitor Placement for Fault Localization in Deep Neural Network
Accelerators
- Title(参考訳): ディープニューラルネットワーク加速器における故障位置推定のためのモニタ配置
- Authors: Wei-Kai Liu
- Abstract要約: 本稿では,シストリクスアレイ内のハードウェアモニタ配置を最適化する手法を提案する。
単一障害PEをローカライズするために、256$ systolic配列に対して0.33%のオーバヘッドしか発生しない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Systolic arrays are a prominent choice for deep neural network (DNN)
accelerators because they offer parallelism and efficient data reuse. Improving
the reliability of DNN accelerators is crucial as hardware faults can degrade
the accuracy of DNN inferencing. Systolic arrays make use of a large number of
processing elements (PEs) for parallel processing, but when one PE is faulty,
the error propagates and affects the outcomes of downstream PEs. Due to the
large number of PEs, the cost associated with implementing hardware-based
runtime monitoring of every single PE is infeasible. We present a solution to
optimize the placement of hardware monitors within systolic arrays. We first
prove that $2N-1$ monitors are needed to localize a single faulty PE and we
also derive the monitor placement. We show that a second placement optimization
problem, which minimizes the set of candidate faulty PEs for a given number of
monitors, is NP-hard. Therefore, we propose a heuristic approach to balance the
reliability and hardware resource utilization in DNN accelerators when number
of monitors is limited. Experimental evaluation shows that to localize a single
faulty PE, an area overhead of only 0.33% is incurred for a $256\times 256$
systolic array.
- Abstract(参考訳): サイストリックアレイは、並列性と効率的なデータ再利用を提供するため、ディープニューラルネットワーク(DNN)アクセラレーターにとって顕著な選択である。
ハードウェア障害がDNN推論の精度を低下させる可能性があるため、DNNアクセラレータの信頼性の向上が不可欠である。
シストリックアレイは並列処理に多数の処理要素(PE)を用いるが、1つのPEが故障すると、エラーが伝播し、下流PEの結果に影響を与える。
PEの数が多すぎるため、各PEのハードウェアベースのランタイム監視を実装するコストは、実現不可能である。
本稿では,systolic配列内のハードウェアモニタ配置を最適化するソリューションを提案する。
まず、単一障害PEをローカライズするために2N-1ドルモニターが必要であることを証明し、モニタ配置を導出する。
与えられたモニタ数に対する候補故障PEの集合を最小化する第2の配置最適化問題はNPハードであることを示す。
そこで本研究では,DNNアクセラレータの信頼性とハードウェアリソース利用のバランスをとるためのヒューリスティックな手法を提案する。
実験により、単一障害PEをローカライズするには、256\times 256$ systolic配列に対して0.33%のオーバーヘッドしか発生しないことがわかった。
関連論文リスト
- Co-designing a Sub-millisecond Latency Event-based Eye Tracking System with Submanifold Sparse CNN [8.613703056677457]
アイトラッキング技術は多くの消費者向けエレクトロニクスアプリケーション、特に仮想現実および拡張現実(VR/AR)において不可欠である
しかし、これらすべての面で最適なパフォーマンスを達成することは、非常に難しい課題である。
我々は,この課題に,システムとイベントカメラを併用したシナジスティックなソフトウェア/ハードウェアの共同設計を通じて対処する。
本システムでは,81%のp5精度,99.5%のp10精度,および3.71のMeanean Distanceを0.7msのレイテンシで実現し,1推論あたり2.29mJしか消費しない。
論文 参考訳(メタデータ) (2024-04-22T15:28:42Z) - Cal-DETR: Calibrated Detection Transformer [67.75361289429013]
本稿では,Deformable-DETR,UP-DETR,DINOのキャリブレーション検出トランス(Cal-DETR)のメカニズムを提案する。
我々は、不確実性を利用してクラスロジットを変調する不確実性誘導ロジット変調機構を開発する。
その結果、Cal-DETRは、ドメイン内およびドメイン外の両方を校正する競合する列車時間法に対して有効であることがわかった。
論文 参考訳(メタデータ) (2023-11-06T22:13:10Z) - Speck: A Smart event-based Vision Sensor with a low latency 327K Neuron Convolutional Neuronal Network Processing Pipeline [5.8859061623552975]
我々は、イベントベースのカメラと低消費電力非同期スパイク畳み込みニューラルネットワーク(sCNN)コンピューティングアーキテクチャを単一チップ上に組み込んだ、チップ上のスマートビジョンセンサシステム(SoC)を提案する。
センサと処理を1つのダイに組み合わせることで、ユニット生産コストを大幅に削減できる。
非同期アーキテクチャ、個々のブロック、およびsCNN処理原理と他のsCNN対応プロセッサに対するベンチマークを示す。
論文 参考訳(メタデータ) (2023-04-13T19:28:57Z) - Efficient Decoder-free Object Detection with Transformers [75.00499377197475]
視覚変換器(ViT)は、物体検出アプローチのランドスケープを変化させている。
本稿では,デコーダフリー完全トランス(DFFT)オブジェクト検出器を提案する。
DFFT_SMALLは、トレーニングおよび推論段階で高い効率を達成する。
論文 参考訳(メタデータ) (2022-06-14T13:22:19Z) - A Lightweight NMS-free Framework for Real-time Visual Fault Detection
System of Freight Trains [11.195801283133994]
貨物列車のリアルタイム視覚に基づく故障検出システム(RVBS-FD)は、鉄道交通の安全確保に不可欠である。
既存の視覚ベースの手法の多くは、畳み込みニューラルネットワークに基づく計算コストが高い。
リアルタイム検出と高精度を同時に実現する軽量NMSフリーフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-25T03:07:48Z) - Towards Lossless ANN-SNN Conversion under Ultra-Low Latency with Dual-Phase Optimization [30.098268054714048]
非同期離散イベントで動作するスパイキングニューラルネットワーク(SNN)は、スパース計算によるエネルギー効率の向上を示す。
ディープSNNを実装するための一般的なアプローチは、ANNの効率的なトレーニングとSNNの効率的な推論を組み合わせたANN-SNN変換である。
本稿では,SNNにおける負または過フロー残留膜電位の誤表現に起因する性能劣化を最初に同定する。
そこで我々は,変換誤差を量子化誤差,クリッピング誤差,残留膜電位表現誤差の3つの部分に分解した。
論文 参考訳(メタデータ) (2022-05-16T06:53:14Z) - SALISA: Saliency-based Input Sampling for Efficient Video Object
Detection [58.22508131162269]
ビデオオブジェクト検出のための新しい一様SALiencyベースの入力SAmpling技術であるSALISAを提案する。
SALISAは小物体の検出を著しく改善することを示す。
論文 参考訳(メタデータ) (2022-04-05T17:59:51Z) - TinyDefectNet: Highly Compact Deep Neural Network Architecture for
High-Throughput Manufacturing Visual Quality Inspection [72.88856890443851]
TinyDefectNetは、高スループット製造の視覚品質検査に適した、非常にコンパクトな深層畳み込みネットワークアーキテクチャである。
TinyDefectNetはAMD EPYC 7R32上にデプロイされ、ネイティブフロー環境を使って7.6倍のスループット、AMD ZenDNNアクセラレーターライブラリを使って9倍のスループットを達成した。
論文 参考訳(メタデータ) (2021-11-29T04:19:28Z) - Multi-Exit Semantic Segmentation Networks [78.44441236864057]
本稿では,最先端セグメンテーションモデルをMESSネットワークに変換するフレームワークを提案する。
パラメトリド早期出口を用いた特別訓練されたCNNは、より簡単なサンプルの推測時に、その深さに沿って保存する。
接続されたセグメンテーションヘッドの数、配置、アーキテクチャとエグジットポリシーを併用して、デバイス機能とアプリケーション固有の要件に適応する。
論文 参考訳(メタデータ) (2021-06-07T11:37:03Z) - NullaNet Tiny: Ultra-low-latency DNN Inference Through Fixed-function
Combinational Logic [4.119948826527649]
フィールドプログラマブルゲートアレイ(FPGA)ベースのアクセラレータは、グラフィックス処理ユニット/中央処理ユニットベースのプラットフォームを置き換える深刻な競争相手として注目を集めています。
本稿では,資源とエネルギー効率,超低遅延FPGAベースニューラルネットワークアクセラレータ構築のためのフレームワークであるNullaNet Tinyを提案する。
論文 参考訳(メタデータ) (2021-04-07T00:16:39Z) - SADet: Learning An Efficient and Accurate Pedestrian Detector [68.66857832440897]
本稿では,一段検出器の検出パイプラインに対する一連の最適化手法を提案する。
効率的な歩行者検出のための単発アンカーベース検出器(SADet)を形成する。
構造的には単純だが、VGA解像度の画像に対して最先端の結果と20ドルFPSのリアルタイム速度を示す。
論文 参考訳(メタデータ) (2020-07-26T12:32:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。