論文の概要: Algorithmic Strategies for Sustainable Reuse of Neural Network Accelerators with Permanent Faults
- arxiv url: http://arxiv.org/abs/2412.16208v1
- Date: Tue, 17 Dec 2024 18:56:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:56:11.820198
- Title: Algorithmic Strategies for Sustainable Reuse of Neural Network Accelerators with Permanent Faults
- Title(参考訳): 持続的故障を有するニューラルネットワーク加速器の持続的再利用のためのアルゴリズム戦略
- Authors: Youssef A. Ait Alama, Sampada Sakpal, Ke Wang, Razvan Bunescu, Avinash Karanth, Ahmed Louri,
- Abstract要約: 本稿では、ニューラルネットワーク(NN)アクセラレーターにおける恒久的ハードウェア故障をバイパスする代わりに、障害成分の挙動を一意に統合して定量化する手法を提案する。
Invertible Scaling や Shifting of activations や Shifting of Shifting of weights, fine tuning with the faulty behavior など,無停止断層のサブセットに対するアルゴリズム的緩和手法を提案する。
特に、提案手法はハードウェアの変更を一切必要とせず、代わりに広く使われているシストリックアレイベースの加速器の既存のコンポーネントに依存している。
- 参考スコア(独自算出の注目度): 9.89051364546275
- License:
- Abstract: Hardware failures are a growing challenge for machine learning accelerators, many of which are based on systolic arrays. When a permanent hardware failure occurs in a systolic array, existing solutions include localizing and isolating the faulty processing element (PE), using a redundant PE for re-execution, or in some extreme cases decommissioning the entire accelerator for further investigation. In this paper, we propose novel algorithmic approaches that mitigate permanent hardware faults in neural network (NN) accelerators by uniquely integrating the behavior of the faulty component instead of bypassing it. In doing so, we aim for a more sustainable use of the accelerator where faulty hardware is neither bypassed nor discarded, instead being given a second life. We first introduce a CUDA-accelerated systolic array simulator in PyTorch, which enabled us to quantify the impact of permanent faults appearing on links connecting two PEs or in weight registers, where one bit is stuck at 0 or 1 in the float32, float16, or bfloat16 representation. We then propose several algorithmic mitigation techniques for a subset of stuck-at faults, such as Invertible Scaling or Shifting of activations and weights, or fine tuning with the faulty behavior. Notably, the proposed techniques do not require any hardware modification, instead relying on existing components of widely used systolic array based accelerators, such as normalization, activation, and storage units. Extensive experimental evaluations using fully connected and convolutional NNs trained on MNIST, CIFAR-10 and ImageNet show that the proposed fault-tolerant approach matches or gets very close to the original fault-free accuracy.
- Abstract(参考訳): ハードウェアの故障は、機械学習アクセラレーターにとってますます困難な問題となっている。
シストリックアレイで恒久的なハードウェア障害が発生した場合、既存のソリューションには、障害処理素子(PE)のローカライズと分離、冗長なPEを使用した再実行、あるいはいくつかの極端な場合、加速器全体を停止してさらなる調査が行われる。
本稿では、ニューラルネットワーク(NN)アクセラレーターにおける恒久的ハードウェア故障を回避し、障害コンポーネントの動作をバイパスするのではなく、一意に統合するアルゴリズムを提案する。
そのために私たちは,障害のあるハードウェアをバイパスも破棄もせず,第2の寿命を与えられるような,より持続可能なアクセラレータの利用を目指しています。
まず,PyTorch に CUDA を加速した systolic array シミュレータを導入し,二つの PE 接続リンクや重みレジスタに現れる永久断層の影響を定量化し,float32 やfloat16 や bfloat16 の表現において 1 ビットが 0 または 1 に固定されることを示した。
Invertible Scaling や Shifting of activations や Shifting of Shifting of weights, fine tuning with the faulty behavior など,無停止断層のサブセットに対するアルゴリズム的緩和手法を提案する。
特に、提案手法はハードウェアの変更を一切必要とせず、代わりに、正規化、アクティベーション、ストレージユニットなど、広く使われているシストリックアレイベースのアクセラレーターの既存のコンポーネントに依存している。
MNIST、CIFAR-10、ImageNetで訓練された完全連結・畳み込みNNを用いた大規模な実験結果から、提案した耐故障性アプローチが元の耐故障精度と一致しているか、非常に近いものとなる。
関連論文リスト
- Accelerating Error Correction Code Transformers [56.75773430667148]
本稿では,トランスを用いたデコーダの高速化手法を提案する。
最新のハードウェアでは、90%の圧縮比を実現し、算術演算エネルギー消費を少なくとも224倍削減する。
論文 参考訳(メタデータ) (2024-10-08T11:07:55Z) - TSB: Tiny Shared Block for Efficient DNN Deployment on NVCIM Accelerators [11.496631244103773]
Tiny Shared Block (TSB)"は、小さな共有1x1畳み込みブロックをDeep Neural Networkアーキテクチャに統合する。
TSBは、20倍以上の推論精度ギャップの改善、5倍以上のトレーニングスピードアップ、デバイス間マッピングコストの削減を実現している。
論文 参考訳(メタデータ) (2024-05-08T20:53:38Z) - Global Context Aggregation Network for Lightweight Saliency Detection of
Surface Defects [70.48554424894728]
我々は,エンコーダ・デコーダ構造上の表面欠陥を簡易に検出するためのGCANet(Global Context Aggregation Network)を開発した。
まず、軽量バックボーンの上部層に新しいトランスフォーマーエンコーダを導入し、DSA(Depth-wise Self-Attention)モジュールを通じてグローバルなコンテキスト情報をキャプチャする。
3つの公開欠陥データセットの実験結果から,提案したネットワークは,他の17の最先端手法と比較して,精度と実行効率のトレードオフを良好に達成できることが示された。
論文 参考訳(メタデータ) (2023-09-22T06:19:11Z) - Accelerating Deep Neural Networks via Semi-Structured Activation
Sparsity [0.0]
ネットワークの機能マップにスパシティを爆発させることは、推論のレイテンシを低減する方法の1つです。
そこで本研究では,セミ構造化されたアクティベーション空間を小さなランタイム修正によって活用する手法を提案する。
当社のアプローチでは,ImageNetデータセット上のResNet18モデルに対して,最小精度が1.1%の1.25倍の速度向上を実現している。
論文 参考訳(メタデータ) (2023-09-12T22:28:53Z) - eFAT: Improving the Effectiveness of Fault-Aware Training for Mitigating
Permanent Faults in DNN Hardware Accelerators [15.344503991760275]
フォールト・アウェア・トレーニング(FAT)は、DNNアクセラレーターの永久的障害に対処する非常に効果的な手法として登場した。
FATは、独自のフォールトマップを考慮して、各故障チップに対して個別に実行する必要がある。
本稿では、レジリエンス駆動再学習量選択の概念と、レジリエンス駆動によるグループ化と複数故障マップの融合を提案する。
論文 参考訳(メタデータ) (2023-04-20T01:35:11Z) - Towards Dynamic Fault Tolerance for Hardware-Implemented Artificial
Neural Networks: A Deep Learning Approach [0.0]
本研究では,ニューラルネットワークの動的障害影響を軽減するためのディープラーニング手法について検討する。
理論的なユースケースとして、ディープオートエンコーダによる画像圧縮を考える。
論文 参考訳(メタデータ) (2022-10-16T18:09:48Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - Hardware-Robust In-RRAM-Computing for Object Detection [0.15113576014047125]
In-RRAMコンピューティングは、ハードウェアにおいて大きなデバイスバリエーションと多くの非理想的効果に悩まされた。
本稿では,オブジェクト検出のためのハードウェアロバストIRCマクロを設計するためのハードウェアとソフトウェアの共同最適化手法を提案する。
提案手法は3.85%のmAP降下しか持たない複雑な物体検出タスクにうまく適用されている。
論文 参考訳(メタデータ) (2022-05-09T01:46:24Z) - Real-Time GPU-Accelerated Machine Learning Based Multiuser Detection for
5G and Beyond [70.81551587109833]
非線形ビームフォーミングフィルタは、大規模な接続を伴う定常シナリオにおいて、線形アプローチを著しく上回る。
主な課題の1つは、これらのアルゴリズムのリアルタイム実装である。
本稿では,大規模並列化によるAPSMに基づくアルゴリズムの高速化について検討する。
論文 参考訳(メタデータ) (2022-01-13T15:20:45Z) - ALF: Autoencoder-based Low-rank Filter-sharing for Efficient
Convolutional Neural Networks [63.91384986073851]
オートエンコーダを用いた低ランクフィルタ共有技術(ALF)を提案する。
ALFは、ネットワークパラメータの70%、オペレーションの61%、実行時間の41%を削減し、精度の低下を最小限にしている。
論文 参考訳(メタデータ) (2020-07-27T09:01:22Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。