論文の概要: Evaluating and Enhancing Robustness of Deep Recommendation Systems
Against Hardware Errors
- arxiv url: http://arxiv.org/abs/2307.10244v1
- Date: Mon, 17 Jul 2023 05:35:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-21 16:37:56.960882
- Title: Evaluating and Enhancing Robustness of Deep Recommendation Systems
Against Hardware Errors
- Title(参考訳): ハードウェアエラーに対する深部勧告システムのロバスト性評価と改善
- Authors: Dongning Ma, Xun Jiao, Fred Lin, Mengshi Zhang, Alban Desmaison,
Thomas Sellinger, Daniel Moore, Sriram Sankar
- Abstract要約: 本稿では,ハードウェアエラーに対するDRS(Deep Recommation System)の堅牢性に関する最初の体系的研究について述べる。
我々は、広く使われているPyTorchの上に、ユーザフレンドリーで効率的で柔軟なエラー注入フレームワークであるTerrorchを開発した。
また、アルゴリズムベースの耐障害性(ABFT)、アクティベーションクリッピング、選択ビット保護(SBP)を含む3つのエラー軽減手法についても検討する。
- 参考スコア(独自算出の注目度): 4.574782240227357
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep recommendation systems (DRS) heavily depend on specialized HPC hardware
and accelerators to optimize energy, efficiency, and recommendation quality.
Despite the growing number of hardware errors observed in large-scale fleet
systems where DRS are deployed, the robustness of DRS has been largely
overlooked. This paper presents the first systematic study of DRS robustness
against hardware errors. We develop Terrorch, a user-friendly, efficient and
flexible error injection framework on top of the widely-used PyTorch. We
evaluate a wide range of models and datasets and observe that the DRS
robustness against hardware errors is influenced by various factors from model
parameters to input characteristics. We also explore 3 error mitigation methods
including algorithm based fault tolerance (ABFT), activation clipping and
selective bit protection (SBP). We find that applying activation clipping can
recover up to 30% of the degraded AUC-ROC score, making it a promising
mitigation method.
- Abstract(参考訳): ディープレコメンデーションシステム(DRS)は、エネルギー、効率、レコメンデーション品質を最適化するために、特別なHPCハードウェアとアクセラレーターに大きく依存している。
DRSが配備される大規模艦隊システムで観測されるハードウェアエラーの増加にもかかわらず、DSSの堅牢性はほとんど見過ごされている。
本稿では,ハードウェアエラーに対するdrsのロバスト性に関する最初の体系的研究を行う。
我々は、広く使われているPyTorchの上に、ユーザフレンドリーで効率的で柔軟なエラー注入フレームワークであるTerrorchを開発した。
我々は、幅広いモデルとデータセットを評価し、ハードウェアエラーに対するDSSの堅牢性は、モデルパラメータから入力特性まで様々な要因に影響されていることを観察する。
また,アルゴリズムベースの耐障害性 (ABFT) やアクティベーションクリッピング,選択的ビット保護 (SBP) を含む3つのエラー軽減手法についても検討する。
その結果,アクティベーションクリッピングを施すことで,AUC-ROCスコアの最大30%を回復できることがわかった。
関連論文リスト
- PVF (Parameter Vulnerability Factor): A Quantitative Metric Measuring AI Vulnerability and Resilience Against Parameter Corruptions [7.652441604508354]
パラメータの破損が誤ったモデル出力をもたらす可能性はどの程度あるか?
本稿では,コンピュータアーキテクチャコミュニティにおけるアーキテクチャ脆弱性要因(AVF)にインスパイアされた,新しい量的尺度であるVulnerability Factor(PVF)を提案する。
PVFは任意のAIモデルに適用可能であり、AI脆弱性/レジリエンス評価プラクティスの統合と標準化を支援する可能性がある。
論文 参考訳(メタデータ) (2024-05-02T21:23:34Z) - Incorporating Gradients to Rules: Towards Lightweight, Adaptive Provenance-based Intrusion Detection [11.14938737864796]
多様な環境に自動的に適応できるルールベースのPIDSであるCAPTAINを提案する。
我々は、微分可能なタグ伝搬フレームワークを構築し、勾配降下アルゴリズムを用いてこれらの適応パラメータを最適化する。
その結果,CAPTAINは検出精度の向上,検出遅延の低減,ランタイムオーバーヘッドの低減,検出アラームや知識の解釈性の向上を実現している。
論文 参考訳(メタデータ) (2024-04-23T03:50:57Z) - FaultGuard: A Generative Approach to Resilient Fault Prediction in Smart Electrical Grids [53.2306792009435]
FaultGuardは、障害タイプとゾーン分類のための最初のフレームワークであり、敵攻撃に耐性がある。
本稿では,ロバスト性を高めるために,低複雑性故障予測モデルとオンライン逆行訓練手法を提案する。
本モデルでは,耐故障予測ベンチマークの最先端を最大0.958の精度で上回っている。
論文 参考訳(メタデータ) (2024-03-26T08:51:23Z) - Analyzing Adversarial Inputs in Deep Reinforcement Learning [53.3760591018817]
本稿では, 正当性検証のレンズを用いて, 逆入力の特性を包括的に解析する。
このような摂動に対する感受性に基づいてモデルを分類するために、新しい計量である逆数率(Adversarial Rate)を導入する。
本分析は, 直交入力が所定のDRLシステムの安全性にどのように影響するかを実証的に示す。
論文 参考訳(メタデータ) (2024-02-07T21:58:40Z) - Deep Metric Learning for Unsupervised Remote Sensing Change Detection [60.89777029184023]
リモートセンシング変化検出(RS-CD)は、マルチテンポラルリモートセンシング画像(MT-RSI)から関連する変化を検出することを目的とする。
既存のRS-CD法の性能は、大規模な注釈付きデータセットのトレーニングによるものである。
本稿では,これらの問題に対処可能なディープメトリック学習に基づく教師なしCD手法を提案する。
論文 参考訳(メタデータ) (2023-03-16T17:52:45Z) - Trustworthy Reinforcement Learning for Quadrotor UAV Tracking Control
Systems [2.7467053150385956]
本研究では, 未知の空力効果に対する分散強化学習障害推定器を統合した新しいトラジェクトリトラッカーを提案する。
提案手法は, 空気力学効果の真値と推定値の不確かさを正確に同定する。
本システムは,最近の技術と比較して,累積追尾誤差を少なくとも70%改善することを示した。
論文 参考訳(メタデータ) (2023-02-22T23:15:56Z) - DeepFT: Fault-Tolerant Edge Computing using a Self-Supervised Deep
Surrogate Model [12.335763358698564]
本稿では,システム過負荷とその悪影響を積極的に回避するためにDeepFTを提案する。
DeepFTは、システム内の障害を正確に予測し、診断するために、ディープサロゲートモデルを使用している。
モデルのサイズが1ユニットあたりわずか3~1%のスケールで、アクティブなタスクやホストの数が増えるため、非常にスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2022-12-02T16:51:58Z) - Fault Detection and Diagnosis with Imbalanced and Noisy Data: A Hybrid
Framework for Rotating Machinery [2.580765958706854]
回転機械製造システムの保守コスト低減には, 故障診断が重要な役割を担っている。
従来のフォールト検出および診断(FDD)フレームワークは、現実の状況に対処する際のパフォーマンスが劣っている。
本稿では、上記の3つのコンポーネントを用いて、効果的な信号ベースFDDシステムを実現するハイブリッドフレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-09T01:09:59Z) - RGRecSys: A Toolkit for Robustness Evaluation of Recommender Systems [100.54655931138444]
複数の次元を包含するレコメンダシステムに対して,ロバスト性に関するより包括的視点を提案する。
本稿では、RecSys用のロバストネス評価ツールキットRobustness Gymを紹介し、リコメンダシステムモデルのロバストネスを迅速かつ均一に評価できるようにする。
論文 参考訳(メタデータ) (2022-01-12T10:32:53Z) - Optimization-driven Deep Reinforcement Learning for Robust Beamforming
in IRS-assisted Wireless Communications [54.610318402371185]
Intelligent Reflecting Surface (IRS)は、マルチアンテナアクセスポイント(AP)から受信機へのダウンリンク情報伝達を支援する有望な技術である。
我々は、APのアクティブビームフォーミングとIRSのパッシブビームフォーミングを共同最適化することで、APの送信電力を最小化する。
過去の経験からビームフォーミング戦略に適応できる深層強化学習(DRL)手法を提案する。
論文 参考訳(メタデータ) (2020-05-25T01:42:55Z) - ASFD: Automatic and Scalable Face Detector [129.82350993748258]
ASFD(Automatic and Scalable Face Detector)を提案する。
ASFDはニューラルアーキテクチャ検索技術の組み合わせと新たな損失設計に基づいている。
ASFD-D0は120FPS以上で動作し、MobilenetはVGA解像度の画像を撮影しています。
論文 参考訳(メタデータ) (2020-03-25T06:00:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。