論文の概要: Investigating Memory Failure Prediction Across CPU Architectures
- arxiv url: http://arxiv.org/abs/2406.05354v1
- Date: Sat, 8 Jun 2024 05:10:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 20:14:35.803779
- Title: Investigating Memory Failure Prediction Across CPU Architectures
- Title(参考訳): CPUアーキテクチャ全体にわたるメモリ障害予測の調査
- Authors: Qiao Yu, Wengui Zhang, Min Zhou, Jialiang Yu, Zhenli Sheng, Jasmin Bogatinovski, Jorge Cardoso, Odej Kao,
- Abstract要約: 本稿では,CPUアーキテクチャ間での補正エラー (CE) と修正不可能エラー (UE) の相関について検討する。
本分析では,各プロセッサプラットフォームに関連するメモリ障害のユニークなパターンを同定する。
異なるプロセッサのプラットフォームでメモリ障害予測を行い、既存のアルゴリズムと比較して最大15%F1スコアの改善を実現した。
- 参考スコア(独自算出の注目度): 8.477622236186695
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale datacenters often experience memory failures, where Uncorrectable Errors (UEs) highlight critical malfunction in Dual Inline Memory Modules (DIMMs). Existing approaches primarily utilize Correctable Errors (CEs) to predict UEs, yet they typically neglect how these errors vary between different CPU architectures, especially in terms of Error Correction Code (ECC) applicability. In this paper, we investigate the correlation between CEs and UEs across different CPU architectures, including X86 and ARM. Our analysis identifies unique patterns of memory failure associated with each processor platform. Leveraging Machine Learning (ML) techniques on production datasets, we conduct the memory failure prediction in different processors' platforms, achieving up to 15% improvements in F1-score compared to the existing algorithm. Finally, an MLOps (Machine Learning Operations) framework is provided to consistently improve the failure prediction in the production environment.
- Abstract(参考訳): 大規模なデータセンタはメモリ障害を経験することが多く、Uncorrectable Errors (UE) はDual Inline Memory Modules (DIMM) において重要な障害を浮き彫りにする。
既存のアプローチでは、主に修正可能なエラー(CE)を使用してUEを予測するが、特にエラー訂正コード(ECC)の適用性の観点から、これらのエラーがCPUアーキテクチャによってどのように異なるかは無視されるのが一般的である。
本稿では,X86とARMを含むCPUアーキテクチャ間のCEとUEの相関について検討する。
本分析では,各プロセッサプラットフォームに関連するメモリ障害のユニークなパターンを同定する。
プロダクションデータセットに機械学習(ML)技術を活用することで、異なるプロセッサのプラットフォームでメモリ障害予測を行い、既存のアルゴリズムと比較して最大15%のF1スコアの改善を実現します。
最後に、プロダクション環境での障害予測を継続的に改善するためにMLOps(Machine Learning Operations)フレームワークが提供される。
関連論文リスト
- Kernel Approximation using Analog In-Memory Computing [3.5231018007564203]
カーネル関数は、いくつかの機械学習アルゴリズムの重要な要素であるが、しばしば大きなメモリと計算コストを発生させる。
本稿では,混合信号アナログメモリ・コンピューティング(AIMC)アーキテクチャに適した機械学習アルゴリズムにおけるカーネル近似手法を提案する。
論文 参考訳(メタデータ) (2024-11-05T16:18:47Z) - KGym: A Platform and Dataset to Benchmark Large Language Models on Linux Kernel Crash Resolution [59.20933707301566]
大規模言語モデル(LLM)は、ますます現実的なソフトウェア工学(SE)タスクにおいて一貫して改善されている。
現実世界のソフトウェアスタックでは、Linuxカーネルのような基本的なシステムソフトウェアの開発にSEの取り組みが費やされています。
このような大規模システムレベルのソフトウェアを開発する際にMLモデルが有用かどうかを評価するため、kGymとkBenchを紹介する。
論文 参考訳(メタデータ) (2024-07-02T21:44:22Z) - Exploring Error Bits for Memory Failure Prediction: An In-Depth
Correlative Study [5.292618442300404]
本研究はCEとUEの相関に関する総合的研究である。
解析の結果,大時間誤りビットとUEの発生との間には強い相関関係が認められた。
提案手法は,UEによる仮想マシンの中断回数を約59%削減する。
論文 参考訳(メタデータ) (2023-12-05T16:11:52Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Incremental Online Learning Algorithms Comparison for Gesture and Visual
Smart Sensors [68.8204255655161]
本稿では,加速度センサデータに基づくジェスチャー認識と画像分類の2つの実例として,最先端の4つのアルゴリズムを比較した。
以上の結果から,これらのシステムの信頼性と小型メモリMCUへのデプロイの可能性が確認された。
論文 参考訳(メタデータ) (2022-09-01T17:05:20Z) - An Experimental Evaluation of Machine Learning Training on a Real
Processing-in-Memory System [9.429605859159023]
機械学習(ML)アルゴリズムのトレーニングは、計算集約的なプロセスであり、しばしばメモリバウンドである。
メモリ内の処理能力を備えたメモリ中心のコンピューティングシステムは、このデータ移動ボトルネックを軽減することができる。
実世界の汎用PIMアーキテクチャ上で,いくつかの代表的古典的MLアルゴリズムを実装した。
論文 参考訳(メタデータ) (2022-07-16T09:39:53Z) - Asynchronous Parallel Incremental Block-Coordinate Descent for
Decentralized Machine Learning [55.198301429316125]
機械学習(ML)は、巨大なIoT(Internet of Things)ベースのインテリジェントでユビキタスなコンピューティングのビッグデータ駆動モデリングと分析のための重要なテクニックである。
急成長するアプリケーションやデータ量にとって、分散学習は有望な新興パラダイムである。
本稿では,多くのユーザデバイスに分散した分散システム上でMLモデルをトレーニングする問題について検討する。
論文 参考訳(メタデータ) (2022-02-07T15:04:15Z) - Rethinking Architecture Design for Tackling Data Heterogeneity in
Federated Learning [53.73083199055093]
注意に基づくアーキテクチャ(例えばTransformers)は、分散シフトに対してかなり堅牢であることを示す。
我々の実験は、畳み込みネットワークをトランスフォーマーに置き換えることによって、過去のデバイスを壊滅的に忘れることを大幅に減らせることを示した。
論文 参考訳(メタデータ) (2021-06-10T21:04:18Z) - Diagonal Memory Optimisation for Machine Learning on Micro-controllers [21.222568055417717]
マイクロコントローラと低消費電力CPUは、機械学習モデルによる推論の実行にますます利用されている。
これらのターゲットで利用可能な少量のRAMは、実行可能なモデルのサイズを制限する。
対角メモリ最適化技術は、11の一般的なモデルに適用した場合、最大34.5%のメモリ節約を実現するために説明され、示されている。
論文 参考訳(メタデータ) (2020-10-04T19:45:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。