Fugu-MT 論文翻訳(概要): DaiFu: In-Situ Crash Recovery for Deep Learning Systems

論文の概要: DaiFu: In-Situ Crash Recovery for Deep Learning Systems

arxiv url: http://arxiv.org/abs/2507.01628v1
Date: Wed, 02 Jul 2025 11:58:38 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-03 14:23:00.178154
Title: DaiFu: In-Situ Crash Recovery for Deep Learning Systems
Title（参考訳）: 深層学習システムのためのインサイトクラッシュリカバリ
Authors: Zilong He, Pengfei Chen, Hongyu Zhang, Xiaoyun Li, Guangba Yu, Hongyang Chen, Zibin Zheng,
Abstract要約: 本稿では,深層学習(DL)システムのためのin-situリカバリフレームワークであるDaiFuを紹介する。 DaiFuは、その場でクラッシュをインターセプトするように拡張し、プログラム実行状況の動的および瞬間的な更新を可能にする。評価の結果,DaiFuはクラッシュ復旧に要する時間を短縮し,最先端のソリューションと比較して1372倍の高速化を実現していることがわかった。
参考スコア（独自算出の注目度）: 54.52831889359226
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deep learning (DL) systems have been widely adopted in many areas, and are becoming even more popular with the emergence of large language models. However, due to the complex software stacks involved in their development and execution, crashes are unavoidable and common. Crashes severely waste computing resources and hinder development productivity, so efficient crash recovery is crucial. Existing solutions, such as checkpoint-retry, are too heavyweight for fast recovery from crashes caused by minor programming errors or transient runtime errors. Therefore, we present DaiFu, an in-situ recovery framework for DL systems. Through a lightweight code transformation to a given DL system, DaiFu augments it to intercept crashes in situ and enables dynamic and instant updates to its program running context (e.g., code, configurations, and other data) for agile crash recovery. Our evaluation shows that DaiFu helps reduce the restore time for crash recovery, achieving a 1372x speedup compared with state-of-the-art solutions. Meanwhile, the overhead of DaiFu is negligible (under 0.40%). We also construct a benchmark spanning 7 distinct crash scenarios in DL systems, and show the effectiveness of DaiFu in diverse situations.
Abstract（参考訳）: ディープラーニング(DL)システムは、多くの分野で広く採用されており、大規模言語モデルの出現とともにさらに人気が高まっている。しかしながら、開発と実行に関わる複雑なソフトウェアスタックのため、クラッシュは避けられず、一般的です。コンピューター資源を浪費し、開発生産性を損なうため、効率的なクラッシュリカバリが不可欠です。チェックポイントリトライのような既存のソリューションは、小さなプログラミングエラーや過渡的なランタイムエラーによるクラッシュからの迅速なリカバリには重すぎる。そこで,本論文では,DLシステムのためのin-situリカバリフレームワークであるDaiFuについて述べる。与えられたDLシステムへのライトウェイトなコード変換を通じて、DaiFuはクラッシュをその場でインターセプトするように拡張し、プログラムの実行状況(例えば、コード、設定、その他のデータ)を動的かつ即時に更新することで、アジャイルのクラッシュリカバリを可能にします。評価の結果,DaiFuはクラッシュ復旧に要する時間を短縮し,最先端のソリューションと比較して1372倍の高速化を実現していることがわかった。一方、大府のオーバーヘッドは無視できる(0.40%以下)。また,DLシステムにおける7つの異なるクラッシュシナリオにまたがるベンチマークを構築し,多種多様な状況におけるDaiFuの有効性を示す。

関連論文リスト

Scalable and Accurate Application-Level Crash-Consistency Testing via Representative Testing [4.659174681934402]
Pathfinderは、少数の代表的なクラッシュ状態を近似するために、更新動作に基づいた、クラッシュ一貫性テストツールです。 Pathfinderは以前の作業よりも大規模アプリケーションに効果的にスケールし、POSIXベースのアプリケーションでは4倍、MMIOベースのアプリケーションでは8倍のバグがある。
論文参考訳（メタデータ） (2025-03-03T10:41:57Z)
Fault Localization via Fine-tuning Large Language Models with Mutation Generated Stack Traces [3.3158239079459655]
本稿では,スタックトレース情報のみに基づいて障害をローカライズする新たな手法を提案する。 64,369件のクラッシュの微調整によって、コードベースの4100万件の突然変異により、66.9%の精度で、クラッシュの根本原因の位置を正確に予測できる。
論文参考訳（メタデータ） (2025-01-29T21:40:32Z)
DRPruning: Efficient Large Language Model Pruning through Distributionally Robust Optimization [59.96455188197593]
大きな言語モデル(LLM)は素晴らしい結果をもたらすが、モデルのサイズと計算コストの増加による課題に直面している。 DRPruningは、トレーニング中にデータ分散を動的に調整し、不均一なマルチタスクデータ間でのバランス性能を回復する手法である。単言語および多言語設定の実験では、DRPランニングはプルーニングと継続トレーニングの両方において同様の大きさのモデルを上回ることが示されている。
論文参考訳（メタデータ） (2024-11-21T12:02:39Z)
KGym: A Platform and Dataset to Benchmark Large Language Models on Linux Kernel Crash Resolution [59.20933707301566]
大規模言語モデル(LLM)は、ますます現実的なソフトウェア工学(SE)タスクにおいて一貫して改善されている。現実世界のソフトウェアスタックでは、Linuxカーネルのような基本的なシステムソフトウェアの開発にSEの取り組みが費やされています。このような大規模システムレベルのソフトウェアを開発する際にMLモデルが有用かどうかを評価するため、kGymとkBenchを紹介する。
論文参考訳（メタデータ） (2024-07-02T21:44:22Z)
Learning Traffic Crashes as Language: Datasets, Benchmarks, and What-if Causal Analyses [76.59021017301127]
我々は,CrashEventという大規模トラフィッククラッシュ言語データセットを提案し,実世界のクラッシュレポート19,340を要約した。さらに,クラッシュイベントの特徴学習を,新たなテキスト推論問題として定式化し,さらに様々な大規模言語モデル(LLM)を微調整して,詳細な事故結果を予測する。実験の結果, LLMに基づくアプローチは事故の重大度を予測できるだけでなく, 事故の種類を分類し, 損害を予測できることがわかった。
論文参考訳（メタデータ） (2024-06-16T03:10:16Z)
Crash Report Accumulation During Continuous Fuzzing [0.0]
本稿では,CASRツールセットの一部として,クラッシュ蓄積手法を提案し,実装する。ファジィ結果から得られた事故報告に対する我々のアプローチを評価する。
論文参考訳（メタデータ） (2024-05-28T13:36:31Z)
CrashTranslator: Automatically Reproducing Mobile Application Crashes Directly from Stack Trace [30.48737611250448]
本稿では,モバイルアプリケーションのクラッシュを自動的にスタックトレースから直接再現するCrashTranslatorという手法を提案する。 CrashTranslatorを58のAndroidアプリを含む75のクラッシュレポートで評価し、61.3%のクラッシュを再現しました。
論文参考訳（メタデータ） (2023-10-11T02:00:18Z)
Large-scale Crash Localization using Multi-Task Learning [3.4383679424643456]
我々は,スタックトレースにおける非難フレームを識別するための,新しいマルチタスクシーケンスラベリング手法を開発した。当社のモデルは、4つの人気のあるMicrosoftアプリケーションから100万以上の現実世界のクラッシュで評価しています。
論文参考訳（メタデータ） (2021-09-29T10:26:57Z)
Always Be Dreaming: A New Approach for Data-Free Class-Incremental Learning [73.24988226158497]
データフリークラスインクリメンタルラーニング(DFCIL)における高インパクト問題について考察する。そこで本研究では, 改良型クロスエントロピートレーニングと重要重み付き特徴蒸留に寄与するDFCILの新たなインクリメンタル蒸留戦略を提案する。本手法は,共通クラスインクリメンタルベンチマークにおけるSOTA DFCIL法と比較して,最終タスク精度(絶対差)が25.1%向上する。
論文参考訳（メタデータ） (2021-06-17T17:56:08Z)
Transferable, Controllable, and Inconspicuous Adversarial Attacks on Person Re-identification With Deep Mis-Ranking [83.48804199140758]
システム出力のランキングを乱す学習とミスランクの定式化を提案する。また,新たなマルチステージネットワークアーキテクチャを開発することで,バックボックス攻撃を行う。そこで本手法では, 異なるマルチショットサンプリングにより, 悪意のある画素数を制御することができる。
論文参考訳（メタデータ） (2020-04-08T18:48:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。