論文の概要: Reinforcement Learning-based Adaptive Mitigation of Uncorrected DRAM Errors in the Field
- arxiv url: http://arxiv.org/abs/2407.16377v1
- Date: Tue, 23 Jul 2024 11:04:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 17:36:04.698879
- Title: Reinforcement Learning-based Adaptive Mitigation of Uncorrected DRAM Errors in the Field
- Title(参考訳): 強化学習に基づく非修正DRAM誤差の適応緩和
- Authors: Isaac Boixaderas, Sergi Moré, Javier Bartolome, David Vicente, Petar Radojković, Paul M. Carpenter, Eduard Ayguadé,
- Abstract要約: メモリ内の不正エラーは現在のジョブを終了させ、最後のチェックポイントから全ての計算を無駄にする。
本稿では,修正されていない誤りの軽減を誘導する最初の適応手法を提案する。
MareNostrum スーパーコンピュータからの2年間の生産ログでは、この手法は減算を伴わず、損失計算時間を54%削減する。
- 参考スコア(独自算出の注目度): 0.6085230743289477
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaling to larger systems, with current levels of reliability, requires cost-effective methods to mitigate hardware failures. One of the main causes of hardware failure is an uncorrected error in memory, which terminates the current job and wastes all computation since the last checkpoint. This paper presents the first adaptive method for triggering uncorrected error mitigation. It uses a prediction approach that considers the likelihood of an uncorrected error and its current potential cost. The method is based on reinforcement learning, and the only user-defined parameters are the mitigation cost and whether the job can be restarted from a mitigation point. We evaluate our method using classical machine learning metrics together with a cost-benefit analysis, which compares the cost of mitigation actions with the benefits from mitigating some of the errors. On two years of production logs from the MareNostrum supercomputer, our method reduces lost compute time by 54% compared with no mitigation and is just 6% below the optimal Oracle method. All source code is open source.
- Abstract(参考訳): 大規模システムへのスケーリングは、現在の信頼性レベルにおいて、ハードウェア障害を軽減するためのコスト効率のよい方法を必要とする。
ハードウェア障害の主な原因の1つは、メモリの不正なエラーであり、これは現在のジョブを終了し、最後のチェックポイント以降、全ての計算を無駄にする。
本稿では,修正されていない誤りの軽減を誘導する最初の適応手法を提案する。
これは、訂正されていないエラーの可能性と現在の潜在的なコストを考慮に入れた予測アプローチを使用する。
この方法は強化学習に基づいており、ユーザ定義パラメータは緩和コストと、緩和点からジョブを再起動できるかどうかのみである。
我々は,従来の機械学習メトリクスとコストベネフィット分析を用いて手法の評価を行い,そのコストと誤差の軽減の利点を比較した。
MareNostrum スーパーコンピュータからの2年間の運用ログでは,この手法は緩和を伴わず,損失計算時間を 54% 削減し,最適な Oracle 法より6% しか劣らない。
すべてのソースコードはオープンソースである。
関連論文リスト
- Rethinking Early Stopping: Refine, Then Calibrate [49.966899634962374]
校正誤差と校正誤差は,訓練中に同時に最小化されないことを示す。
我々は,早期停止とハイパーパラメータチューニングのための新しい指標を導入し,トレーニング中の改善誤差を最小限に抑える。
本手法は,任意のアーキテクチャとシームレスに統合し,多様な分類タスクにおける性能を継続的に向上する。
論文 参考訳(メタデータ) (2025-01-31T15:03:54Z) - Cost-Aware Query Policies in Active Learning for Efficient Autonomous Robotic Exploration [0.0]
本稿では,動作コストを考慮しつつ,ガウス過程回帰のためのALアルゴリズムを解析する。
距離制約を持つ伝統的な不確実性計量は、軌道距離上のルート平均二乗誤差を最小化する。
論文 参考訳(メタデータ) (2024-10-31T18:35:03Z) - An Efficient Rehearsal Scheme for Catastrophic Forgetting Mitigation during Multi-stage Fine-tuning [55.467047686093025]
このような忘れを緩和するための一般的なアプローチは、微調整中に以前のタスクからサンプルをリハーサルすることである。
側方損傷のリハーサルを優先するサンプリング手法である textttbf mix-cd を提案する。
我々の手法は計算効率が高く、実装が容易で、計算制約のある設定においていくつかの主要な連続学習手法より優れています。
論文 参考訳(メタデータ) (2024-02-12T22:32:12Z) - Leaving the Nest: Going Beyond Local Loss Functions for
Predict-Then-Optimize [57.22851616806617]
本手法は,文献から得られた4つの領域において,最先端の成果が得られることを示す。
提案手法は, 局所性仮定が破られた場合, 既存手法よりも200%近く性能が向上する。
論文 参考訳(メタデータ) (2023-05-26T11:17:45Z) - Self-Evaluation Guided Beam Search for Reasoning [61.523627290397556]
我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。
本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。
我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
論文 参考訳(メタデータ) (2023-05-01T02:37:59Z) - Improving the efficiency of learning-based error mitigation [0.8258451067861933]
クリフォードデータ回帰(CDR)に基づく誤り軽減手法を提案する。
このスキームは、トレーニングデータを慎重に選択し、問題の対称性を活用することにより、フラジリティを向上させる。
提案手法は,従来のCDR手法と同等の精度を維持しつつ,桁違いに安価であることがわかった。
論文 参考訳(メタデータ) (2022-04-14T16:58:51Z) - Tightening the Approximation Error of Adversarial Risk with Auto Loss
Function Search [12.263913626161155]
一般的な評価手法は、モデルの逆方向リスクをロバスト性指標として近似することである。
本稿では,エラーを厳格化するための損失関数を探索する最初の手法であるAutoLoss-ARを提案する。
その結果,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2021-11-09T11:47:43Z) - Segmentation Fault: A Cheap Defense Against Adversarial Machine Learning [0.0]
最近発表されたディープニューラルネットワーク(DNN)に対する攻撃は、重要なシステムでこの技術を使用する際のセキュリティリスクを評価する方法論とツールの重要性を強調している。
本稿では,ディープニューラルネットワーク分類器,特に畳み込みを防御する新しい手法を提案する。
私たちの防衛費は、検出精度の面では安いが、消費電力が少ないという意味では安い。
論文 参考訳(メタデータ) (2021-08-31T04:56:58Z) - Qubit Readout Error Mitigation with Bit-flip Averaging [0.0]
量子ハードウェア上でのキュービットの読み出し誤差をより効率的に軽減する手法を提案する。
本手法では, 読み出し誤差の偏りを除去し, キャリブレーションをはるかに少ない精度で一般的な誤差モデルを構築することができる。
提案手法は,多くの量子ビットに対してもトラクタブルな緩和を可能にする他の緩和手法と組み合わせ,単純化することができる。
論文 参考訳(メタデータ) (2021-06-10T15:08:06Z) - Bayesian Optimization with Missing Inputs [53.476096769837724]
我々は、よく知られたアッパー信頼境界(UCB)獲得関数に基づく新たな獲得関数を開発する。
我々は,本手法の有用性を示すために,合成アプリケーションと実世界のアプリケーションの両方について包括的な実験を行った。
論文 参考訳(メタデータ) (2020-06-19T03:56:27Z) - Excursion Search for Constrained Bayesian Optimization under a Limited
Budget of Failures [62.41541049302712]
本稿では,所定の予算の失敗の関数として探索において許容されるリスクの量を制御する制御理論に基づく新しい意思決定者を提案する。
本アルゴリズムは, 種々の最適化実験において, 故障予算をより効率的に利用し, 一般に, 最先端の手法よりも, 後悔度を低くする。
論文 参考訳(メタデータ) (2020-05-15T09:54:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。