論文の概要: DaiFu: In-Situ Crash Recovery for Deep Learning Systems
- arxiv url: http://arxiv.org/abs/2507.01628v1
- Date: Wed, 02 Jul 2025 11:58:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.178154
- Title: DaiFu: In-Situ Crash Recovery for Deep Learning Systems
- Title(参考訳): 深層学習システムのためのインサイトクラッシュリカバリ
- Authors: Zilong He, Pengfei Chen, Hongyu Zhang, Xiaoyun Li, Guangba Yu, Hongyang Chen, Zibin Zheng,
- Abstract要約: 本稿では,深層学習(DL)システムのためのin-situリカバリフレームワークであるDaiFuを紹介する。
DaiFuは、その場でクラッシュをインターセプトするように拡張し、プログラム実行状況の動的および瞬間的な更新を可能にする。
評価の結果,DaiFuはクラッシュ復旧に要する時間を短縮し,最先端のソリューションと比較して1372倍の高速化を実現していることがわかった。
- 参考スコア(独自算出の注目度): 54.52831889359226
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning (DL) systems have been widely adopted in many areas, and are becoming even more popular with the emergence of large language models. However, due to the complex software stacks involved in their development and execution, crashes are unavoidable and common. Crashes severely waste computing resources and hinder development productivity, so efficient crash recovery is crucial. Existing solutions, such as checkpoint-retry, are too heavyweight for fast recovery from crashes caused by minor programming errors or transient runtime errors. Therefore, we present DaiFu, an in-situ recovery framework for DL systems. Through a lightweight code transformation to a given DL system, DaiFu augments it to intercept crashes in situ and enables dynamic and instant updates to its program running context (e.g., code, configurations, and other data) for agile crash recovery. Our evaluation shows that DaiFu helps reduce the restore time for crash recovery, achieving a 1372x speedup compared with state-of-the-art solutions. Meanwhile, the overhead of DaiFu is negligible (under 0.40%). We also construct a benchmark spanning 7 distinct crash scenarios in DL systems, and show the effectiveness of DaiFu in diverse situations.
- Abstract(参考訳): ディープラーニング(DL)システムは、多くの分野で広く採用されており、大規模言語モデルの出現とともにさらに人気が高まっている。
しかしながら、開発と実行に関わる複雑なソフトウェアスタックのため、クラッシュは避けられず、一般的です。
コンピューター資源を浪費し、開発生産性を損なうため、効率的なクラッシュリカバリが不可欠です。
チェックポイントリトライのような既存のソリューションは、小さなプログラミングエラーや過渡的なランタイムエラーによるクラッシュからの迅速なリカバリには重すぎる。
そこで,本論文では,DLシステムのためのin-situリカバリフレームワークであるDaiFuについて述べる。
与えられたDLシステムへのライトウェイトなコード変換を通じて、DaiFuはクラッシュをその場でインターセプトするように拡張し、プログラムの実行状況(例えば、コード、設定、その他のデータ)を動的かつ即時に更新することで、アジャイルのクラッシュリカバリを可能にします。
評価の結果,DaiFuはクラッシュ復旧に要する時間を短縮し,最先端のソリューションと比較して1372倍の高速化を実現していることがわかった。
一方、大府のオーバーヘッドは無視できる(0.40%以下)。
また,DLシステムにおける7つの異なるクラッシュシナリオにまたがるベンチマークを構築し,多種多様な状況におけるDaiFuの有効性を示す。
関連論文リスト
- Fault Localization via Fine-tuning Large Language Models with Mutation Generated Stack Traces [3.3158239079459655]
本稿では,スタックトレース情報のみに基づいて障害をローカライズする新たな手法を提案する。
64,369件のクラッシュの微調整によって、コードベースの4100万件の突然変異により、66.9%の精度で、クラッシュの根本原因の位置を正確に予測できる。
論文 参考訳(メタデータ) (2025-01-29T21:40:32Z) - KGym: A Platform and Dataset to Benchmark Large Language Models on Linux Kernel Crash Resolution [59.20933707301566]
大規模言語モデル(LLM)は、ますます現実的なソフトウェア工学(SE)タスクにおいて一貫して改善されている。
現実世界のソフトウェアスタックでは、Linuxカーネルのような基本的なシステムソフトウェアの開発にSEの取り組みが費やされています。
このような大規模システムレベルのソフトウェアを開発する際にMLモデルが有用かどうかを評価するため、kGymとkBenchを紹介する。
論文 参考訳(メタデータ) (2024-07-02T21:44:22Z) - Crash Report Accumulation During Continuous Fuzzing [0.0]
本稿では,CASRツールセットの一部として,クラッシュ蓄積手法を提案し,実装する。
ファジィ結果から得られた事故報告に対する我々のアプローチを評価する。
論文 参考訳(メタデータ) (2024-05-28T13:36:31Z) - Large-scale Crash Localization using Multi-Task Learning [3.4383679424643456]
我々は,スタックトレースにおける非難フレームを識別するための,新しいマルチタスクシーケンスラベリング手法を開発した。
当社のモデルは、4つの人気のあるMicrosoftアプリケーションから100万以上の現実世界のクラッシュで評価しています。
論文 参考訳(メタデータ) (2021-09-29T10:26:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。