論文の概要: eFAT: Improving the Effectiveness of Fault-Aware Training for Mitigating
Permanent Faults in DNN Hardware Accelerators
- arxiv url: http://arxiv.org/abs/2304.12949v1
- Date: Thu, 20 Apr 2023 01:35:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-30 07:30:49.787325
- Title: eFAT: Improving the Effectiveness of Fault-Aware Training for Mitigating
Permanent Faults in DNN Hardware Accelerators
- Title(参考訳): eFAT:DNNハードウェア加速器の永久故障軽減のための故障認識訓練の有効性の改善
- Authors: Muhammad Abdullah Hanif, Muhammad Shafique
- Abstract要約: フォールト・アウェア・トレーニング(FAT)は、DNNアクセラレーターの永久的障害に対処する非常に効果的な手法として登場した。
FATは、独自のフォールトマップを考慮して、各故障チップに対して個別に実行する必要がある。
本稿では、レジリエンス駆動再学習量選択の概念と、レジリエンス駆動によるグループ化と複数故障マップの融合を提案する。
- 参考スコア(独自算出の注目度): 15.344503991760275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fault-Aware Training (FAT) has emerged as a highly effective technique for
addressing permanent faults in DNN accelerators, as it offers fault mitigation
without significant performance or accuracy loss, specifically at low and
moderate fault rates. However, it leads to very high retraining overheads,
especially when used for large DNNs designed for complex AI applications.
Moreover, as each fabricated chip can have a distinct fault pattern, FAT is
required to be performed for each faulty chip individually, considering its
unique fault map, which further aggravates the problem. To reduce the overheads
of FAT while maintaining its benefits, we propose (1) the concepts of
resilience-driven retraining amount selection, and (2) resilience-driven
grouping and fusion of multiple fault maps (belonging to different chips) to
perform consolidated retraining for a group of faulty chips. To realize these
concepts, in this work, we present a novel framework, eFAT, that computes the
resilience of a given DNN to faults at different fault rates and with different
levels of retraining, and it uses that knowledge to build a resilience map
given a user-defined accuracy constraint. Then, it uses the resilience map to
compute the amount of retraining required for each chip, considering its unique
fault map. Afterward, it performs resilience and reward-driven grouping and
fusion of fault maps to further reduce the number of retraining iterations
required for tuning the given DNN for the given set of faulty chips. We
demonstrate the effectiveness of our framework for a systolic array-based DNN
accelerator experiencing permanent faults in the computational array. Our
extensive results for numerous chips show that the proposed technique
significantly reduces the retraining cost when used for tuning a DNN for
multiple faulty chips.
- Abstract(参考訳): 障害対応トレーニング(fat)は,dnn加速器の永久的障害に対処するための極めて効果的な手法として,特に低・中程度の障害率において,大幅な性能低下や精度低下を伴わない障害緩和を提供する。
しかし、特に複雑なAIアプリケーション用に設計された大規模なDNNで使用される場合、非常に高いトレーニングオーバーヘッドにつながる。
さらに、各製造チップは別個の故障パターンを持つことができるため、独自の故障マップを考慮して各故障チップに対して個別にFATを行う必要があり、さらに問題を悪化させる。
その利点を維持しつつ、FATのオーバーヘッドを軽減するため、(1)レジリエンス駆動型リトレーニング量選択の概念を提案し、(2)複数の故障マップ(異なるチップにまたがる)のレジリエンス駆動型グループ化と融合を行い、欠陥チップ群の統合リトレーニングを行う。
これらの概念を実現するために,本研究では,DNNの異なる障害率と異なるレベルのリトレーニングレベルの障害に対するレジリエンスを計算する新しいフレームワークであるeFATを提案し,その知識を用いて,ユーザ定義の精度制約を考慮に入れたレジリエンスマップを構築する。
次に、そのユニークなフォールトマップを考慮して、レジリエンスマップを使用して、各チップに必要な再トレーニング量の計算を行う。
その後、レジリエンスと報酬駆動のグループ化とフォールトマップの融合を行い、所定の欠陥チップセットに対する所定のdnnのチューニングに必要な再トレーニングイテレーション数をさらに削減する。
本稿では,シストリックアレイをベースとしたDNN加速器のためのフレームワークの有効性を示す。
提案手法は,複数の故障チップに対するdnnのチューニングに使用する場合,再訓練コストを大幅に削減することを示す。
関連論文リスト
- TSB: Tiny Shared Block for Efficient DNN Deployment on NVCIM Accelerators [11.496631244103773]
Tiny Shared Block (TSB)"は、小さな共有1x1畳み込みブロックをDeep Neural Networkアーキテクチャに統合する。
TSBは、20倍以上の推論精度ギャップの改善、5倍以上のトレーニングスピードアップ、デバイス間マッピングコストの削減を実現している。
論文 参考訳(メタデータ) (2024-05-08T20:53:38Z) - Special Session: Approximation and Fault Resiliency of DNN Accelerators [0.9126382223122612]
本稿では,Deep Neural Networkアクセラレータの近似とフォールトレジリエンスについて検討する。
本稿では,DNNに障害注入を行わずにハードウェアのエラーをエミュレートするために近似(AxC)演算回路を提案する。
また,ネットワーク上での断層伝播とマスキングによる耐故障性の微粒化解析も提案する。
論文 参考訳(メタデータ) (2023-05-31T19:27:45Z) - RescueSNN: Enabling Reliable Executions on Spiking Neural Network
Accelerators under Permanent Faults [15.115813664357436]
RescueSNNはSNNチップの計算エンジンにおける永久欠陥を軽減する新しい手法である。
RescueSNNは、高い故障率で25%未満のスループットの削減を維持しながら、最大80%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-04-08T15:24:57Z) - Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。
本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。
本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文 参考訳(メタデータ) (2023-03-16T21:06:13Z) - Fault-Aware Design and Training to Enhance DNNs Reliability with
Zero-Overhead [67.87678914831477]
ディープニューラルネットワーク(DNN)は、幅広い技術的進歩を可能にする。
最近の知見は、過渡的なハードウェア欠陥がモデル予測を劇的に損なう可能性があることを示唆している。
本研究では,トレーニングとモデル設計の両面で信頼性の問題に取り組むことを提案する。
論文 参考訳(メタデータ) (2022-05-28T13:09:30Z) - FitAct: Error Resilient Deep Neural Networks via Fine-Grained
Post-Trainable Activation Functions [0.05249805590164901]
ディープニューラルネットワーク(DNN)は、パーソナルヘルスケアデバイスや自動運転車などの安全クリティカルなシステムにますます導入されている。
本稿では,DNNの微粒化後のアクティベーション機能を実装することで,DNNのエラーレジリエンスを高めるための低コストなアプローチであるFitActを提案する。
論文 参考訳(メタデータ) (2021-12-27T07:07:50Z) - Automatic Mapping of the Best-Suited DNN Pruning Schemes for Real-Time
Mobile Acceleration [71.80326738527734]
本稿では,汎用的,きめ細かな構造化プルーニング手法とコンパイラの最適化を提案する。
提案手法は,より微細な構造化プルーニング手法とともに,最先端のDNN最適化フレームワークよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-22T23:53:14Z) - Efficient Micro-Structured Weight Unification and Pruning for Neural
Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。
既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。
ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文 参考訳(メタデータ) (2021-06-15T17:22:59Z) - FracTrain: Fractionally Squeezing Bit Savings Both Temporally and
Spatially for Efficient DNN Training [81.85361544720885]
アクティベーション、ウェイト、グラデーションの精度を徐々に高めるプログレッシブ分数量子化を統合したFracTrainを提案します。
FracTrainはDNNトレーニングの計算コストとハードウェア量子化エネルギー/レイテンシを削減し、同等以上の精度(-0.12%+1.87%)を達成する。
論文 参考訳(メタデータ) (2020-12-24T05:24:10Z) - FAT: Training Neural Networks for Reliable Inference Under Hardware
Faults [3.191587417198382]
本稿では、ニューラルネットワーク(NN)トレーニング中のエラーモデリングを含む、フォールト・アウェア・トレーニング(FAT)と呼ばれる新しい手法を提案し、デバイス上の特定のフォールトモデルに耐性を持たせる。
FATはCIFAR10、GTSRB、SVHN、ImageNetなど多くの分類タスクに対して検証されている。
論文 参考訳(メタデータ) (2020-11-11T16:09:39Z) - Rapid Structural Pruning of Neural Networks with Set-based Task-Adaptive
Meta-Pruning [83.59005356327103]
既存のプルーニング技術に共通する制限は、プルーニングの前に少なくとも1回はネットワークの事前トレーニングが必要であることである。
本稿では,ターゲットデータセットの関数としてプルーニングマスクを生成することにより,大規模な参照データセット上で事前訓練されたネットワークをタスク適応的にプルークするSTAMPを提案する。
ベンチマークデータセット上での最近の先進的なプルーニング手法に対するSTAMPの有効性を検証する。
論文 参考訳(メタデータ) (2020-06-22T10:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。