論文の概要: AutoCheck: Automatically Identifying Variables for Checkpointing by Data Dependency Analysis
- arxiv url: http://arxiv.org/abs/2408.06082v3
- Date: Tue, 5 Nov 2024 08:57:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 11:38:16.928644
- Title: AutoCheck: Automatically Identifying Variables for Checkpointing by Data Dependency Analysis
- Title(参考訳): AutoCheck: データ依存分析によるチェックポイントのための変数の自動識別
- Authors: Xiang Fu, Weiping Zhang, Xin Huang, Wubiao Xu, Shiman Meng, Luanzheng Guo, Kento Sato,
- Abstract要約: C/Rのチェックポイントに重要な変数を自動的に識別できる解析モデルとツール(AutoCheck)を提案する。
AutoCheckを使うと、プログラマは重要な変数を数分間で素早くチェックポイントできる。
我々はAutoCheckを14の代表的なHPCベンチマークで評価し、チェックポイントに対する正確なクリティカル変数を効率的に識別できることを実証した。
- 参考スコア(独自算出の注目度): 4.1882523784642745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Checkpoint/Restart (C/R) has been widely deployed in numerous HPC systems, Clouds, and industrial data centers, which are typically operated by system engineers. Nevertheless, there is no existing approach that helps system engineers without domain expertise, and domain scientists without system fault tolerance knowledge identify those critical variables accounted for correct application execution restoration in a failure for C/R. To address this problem, we propose an analytical model and a tool (AutoCheck) that can automatically identify critical variables to checkpoint for C/R. AutoCheck relies on first, analytically tracking and optimizing data dependency between variables and other application execution state, and second, a set of heuristics that identify critical variables for checkpointing from the refined data dependency graph (DDG). AutoCheck allows programmers to pinpoint critical variables to checkpoint quickly within a few minutes. We evaluate AutoCheck on 14 representative HPC benchmarks, demonstrating that AutoCheck can efficiently identify correct critical variables to checkpoint.
- Abstract(参考訳): Checkpoint/Restart(C/R)は、多くのHPCシステム、クラウド、産業データセンターに広くデプロイされており、通常はシステムエンジニアが運用している。
それでも、ドメインの専門知識のないシステムエンジニアを支援する既存のアプローチは存在せず、システムフォールトトレランスの知識のないドメイン科学者は、C/Rの障害時に正しいアプリケーション実行の復元を行うための重要な変数を特定します。
そこで本研究では,C/Rのチェックポイントに重要な変数を自動的に識別する解析モデルとツール(AutoCheck)を提案する。
AutoCheckは、変数と他のアプリケーション実行状態間のデータ依存を分析的に追跡し、最適化する第1の方法と、洗練されたデータ依存グラフ(DDG)からチェックポイントする重要な変数を識別するヒューリスティックのセットに依存している。
AutoCheckを使うと、プログラマは重要な変数を数分間で素早くチェックポイントできる。
我々はAutoCheckを14の代表的なHPCベンチマークで評価し、チェックポイントに対する正確なクリティカル変数を効率的に識別できることを実証した。
関連論文リスト
- Automatically Write Code Checker: An LLM-based Approach with Logic-guided API Retrieval and Case by Case Iteration [9.551021559603349]
AutoCheckerは、ルール記述とテストスイートのみに基づいてコードチェッカーを記述する革新的なアプローチである。
毎回、ルールと1つのテストケースでチェッカーをインクリメンタルに更新する。
AutoCheckerによって生成されたチェッカーは、実際のプロジェクトにうまく適用され、公式チェッカーのパフォーマンスにマッチする。
論文 参考訳(メタデータ) (2024-11-11T08:50:24Z) - ByteCheckpoint: A Unified Checkpointing System for Large Foundation Model Development [9.13331802151585]
ByteCheckpoint は大規模 LFM トレーニングのための産業レベルのチェックポイントシステムである。
ByteCheckpoint はチェックポイントストールを著しく減少させ、平均54.20倍の減少を達成する。
ByteCheckpointは、保存時間とロード時間を最大9.96倍と8.80倍に改善した。
論文 参考訳(メタデータ) (2024-07-29T16:18:20Z) - Leveraging Large Language Models for Efficient Failure Analysis in Game Development [47.618236610219554]
本稿では,テストの失敗の原因となるコードの変更を自動的に識別する手法を提案する。
このメソッドは、LLM(Large Language Models)を利用して、エラーメッセージと対応するコード変更を関連付ける。
当社のアプローチは新たに作成したデータセットで71%の精度に達しています。
論文 参考訳(メタデータ) (2024-06-11T09:21:50Z) - AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving [68.73885845181242]
本稿では,問題を自動的に識別し,データを効率よくキュレートし,自動ラベル付けによりモデルを改善する自動データエンジン(AIDE)を提案する。
さらに,AVデータセットのオープンワールド検出のためのベンチマークを構築し,様々な学習パラダイムを包括的に評価し,提案手法の優れた性能を低コストで実証する。
論文 参考訳(メタデータ) (2024-03-26T04:27:56Z) - Unsupervised Domain Adaptation for Self-Driving from Past Traversal
Features [69.47588461101925]
本研究では,新しい運転環境に3次元物体検出器を適応させる手法を提案する。
提案手法は,空間的量子化履歴特徴を用いたLiDARに基づく検出モデルを強化する。
実世界のデータセットの実験では、大幅な改善が示されている。
論文 参考訳(メタデータ) (2023-09-21T15:00:31Z) - Automated Automotive Radar Calibration With Intelligent Vehicles [73.15674960230625]
本稿では,自動車用レーダセンサの自動校正手法を提案する。
本手法では, 車両の外部改造を必要とせず, 自動走行車から得られる位置情報を利用する。
実地試験場からのデータを評価した結果,インフラセンサを自動で正確に校正できることが判明した。
論文 参考訳(メタデータ) (2023-06-23T07:01:10Z) - Applying Machine Learning for Duplicate Detection, Throttling and
Prioritization of Equipment Commissioning Audits at Fulfillment Network [1.933681537640272]
VQ(Vendor Qualification)とIOQ(Installation and Operation Qualification)監査は倉庫で実施され、すべての機器が品質基準を満たしている。
この作業では、自然言語処理と機械学習を使用して、倉庫のネットワーク用の大規模なチェックリストデータセットをトリムする。
論文 参考訳(メタデータ) (2022-09-28T20:40:32Z) - MOSPAT: AutoML based Model Selection and Parameter Tuning for Time
Series Anomaly Detection [8.942168855247548]
MOSPATは、モデルとパラメータの選択のためのエンドツーエンドの機械学習ベースのアプローチである。
実データおよび合成データを用いた実験により, この手法は, 一つのアルゴリズムを用いて一貫した性能を発揮することを示した。
論文 参考訳(メタデータ) (2022-05-24T03:28:52Z) - A Natural Language Processing and Deep Learning based Model for
Automated Vehicle Diagnostics using Free-Text Customer Service Reports [3.970010025578998]
自動車両診断を改善するための機械学習パイプラインを実演する。
第一に、自然言語処理(NLP)は、自由テキスト障害レポートから重要な情報の抽出を自動化するために使用される。
深層学習アルゴリズムは、サービス要求を検証するために使われ、曖昧で誤解を招くクレームをフィルタリングする。
論文 参考訳(メタデータ) (2021-11-29T21:41:34Z) - Robust and Transferable Anomaly Detection in Log Data using Pre-Trained
Language Models [59.04636530383049]
クラウドのような大規模コンピュータシステムにおける異常や障害は、多くのユーザに影響を与える。
システム情報の主要なトラブルシューティングソースとして,ログデータの異常検出のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-23T09:17:05Z) - PyODDS: An End-to-end Outlier Detection System with Automated Machine
Learning [55.32009000204512]
PyODDSは、データベースサポート付きアウトレイラ検出のための、エンドツーエンドのPythonシステムである。
具体的には,探索空間を外乱検出パイプラインで定義し,与えられた探索空間内で探索戦略を作成する。
また、データサイエンスや機械学習のバックグラウンドの有無に関わらず、統一されたインターフェイスと視覚化を提供する。
論文 参考訳(メタデータ) (2020-03-12T03:30:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。