Fugu-MT 論文翻訳(概要): Runtime-Augmented LLMs for Crash Detection and Diagnosis in ML Notebooks

論文の概要: Runtime-Augmented LLMs for Crash Detection and Diagnosis in ML Notebooks

arxiv url: http://arxiv.org/abs/2602.18537v1
Date: Fri, 20 Feb 2026 13:19:06 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.150014
Title: Runtime-Augmented LLMs for Crash Detection and Diagnosis in ML Notebooks
Title（参考訳）: MLノートにおけるクラッシュ検出・診断のための実行時LLM
Authors: Yiran Wang, José Antonio Hernández López, Ulf Nilsson, Dániel Varró,
Abstract要約: CRANE-LLMは,ノートブックカーネル状態から抽出した構造化ランタイム情報を用いて大規模言語モデルを拡張し,クラッシュを検出し診断する手法である。以前実行されたセルとターゲットセルが与えられた場合、CRANE-LLMは静的コードコンテキストとオブジェクトタイプ、テンソル形状、データ属性を含むランタイム情報を組み合わせて、ターゲットセルがクラッシュするかどうかを予測する。 CRANE-LLM on JunoBench, a benchmark of 222 ML notebooks with 111 pair of crashing and corresponding non-crashing notebooks。
参考スコア（独自算出の注目度）: 4.768285672660128
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Jupyter notebooks are widely used for machine learning (ML) development due to their support for interactive and iterative experimentation. However, ML notebooks are highly prone to bugs, with crashes being among the most disruptive. Despite their practical importance, systematic methods for crash detection and diagnosis in ML notebooks remain largely unexplored. We present CRANE-LLM, a novel approach that augments large language models (LLMs) with structured runtime information extracted from the notebook kernel state to detect and diagnose crashes before executing a target cell. Given previously executed cells and a target cell, CRANE-LLM combines static code context with runtime information, including object types, tensor shapes, and data attributes, to predict whether the target cell will crash (detection) and explain the underlying cause (diagnosis). We evaluate CRANE-LLM on JunoBench, a benchmark of 222 ML notebooks comprising 111 pairs of crashing and corresponding non-crashing notebooks across multiple ML libraries and crash root causes. Across three state-of-the-art LLMs (Gemini, Qwen, and GPT-5), runtime information improves crash detection and diagnosis by 7-10 percentage points in accuracy and 8-11 in F1-score, with larger gains for diagnosis. Improvements vary across ML libraries, crash causes, and LLMs, and depends on the integration of complementary categories of runtime information.
Abstract（参考訳）: Jupyterノートブックは、インタラクティブで反復的な実験をサポートするため、機械学習(ML)開発に広く使用されている。しかし、MLノートブックはバグが多いため、クラッシュは最も破壊的だ。その実用的重要性にもかかわらず、MLノートブックのクラッシュ検出と診断の体系的手法はほとんど解明されていない。 CRANE-LLMは,ノートブックカーネル状態から抽出した構造化ランタイム情報を用いて大規模言語モデル(LLM)を拡張して,ターゲットセルの実行前にクラッシュを検出し,診断する手法である。以前実行されたセルとターゲットセルが与えられた場合、CRANE-LLMは静的コードコンテキストとオブジェクトタイプ、テンソル形状、データ属性などの実行時情報を組み合わせて、ターゲットセルがクラッシュする(検出)かどうかを予測し、根本原因を説明する(診断)。我々は,複数のMLライブラリにまたがる111対のクラッシュとそれに対応する非クラッシュノートからなる222のMLノートブックのベンチマークであるJunoBench上でのCRANE-LLMを評価する。 3つの最先端LCM(Gemini, Qwen, GPT-5)において、実行時情報により、精度が7-10ポイント、F1スコアが8-11ポイント向上し、診断精度が向上する。改善はMLライブラリ、クラッシュ原因、LLMによって異なり、実行時の情報を補完するカテゴリの統合に依存している。

関連論文リスト

Outrunning LLM Cutoffs: A Live Kernel Crash Resolution Benchmark for All [57.23434868678603]
Live-kBenchは、新たに発見されたカーネルバグのエージェントをスクラップし、評価するセルフ進化ベンチマークの評価フレームワークである。 kEnvは、カーネルのコンパイル、実行、フィードバックのためのエージェントに依存しないクラッシュ解決環境である。 kEnvを用いて3つの最先端エージェントをベンチマークし、最初の試行で74%のクラッシュを解決したことを示す。
論文参考訳（メタデータ） (2026-02-02T19:06:15Z)
InspectCoder: Dynamic Analysis-Enabled Self Repair through interactive LLM-Debugger Collaboration [71.18377595277018]
大きな言語モデル(LLM)は、診断が難しい複雑なロジックエラーを伴うバグの多いコードを生成することが多い。対話型デバッガ制御による動的解析を LLM に委ねる初のエージェントプログラム修復システムである InspectCoder を提案する。
論文参考訳（メタデータ） (2025-10-21T06:26:29Z)
JunoBench: A Benchmark Dataset of Crashes in Python Machine Learning Jupyter Notebooks [4.768285672660128]
JunoBenchは、PythonベースのMLノートブックにおける実世界のクラッシュのベンチマークデータセットである。 JunoBenchには111のキュレーションと再現可能なクラッシュが含まれている。
論文参考訳（メタデータ） (2025-10-20T18:46:43Z)
Where LLM Agents Fail and How They can Learn From Failures [62.196870049524364]
大規模言語モデル(LLM)エージェントは、複雑なマルチステップタスクの解決において有望であることを示す。単一ルート原因エラーがその後の決定を通じて伝播する、障害のカスケードに対する脆弱性を増幅する。現在のシステムは、モジュール的で体系的な方法でエージェントエラーを包括的に理解できるフレームワークを欠いている。 AgentErrorTaxonomyは、メモリ、リフレクション、計画、アクション、システムレベルの操作にまたがる障害モードのモジュール分類である。
論文参考訳（メタデータ） (2025-09-29T18:20:27Z)
DetectAnyLLM: Towards Generalizable and Robust Detection of Machine-Generated Text Across Domains and Models [60.713908578319256]
タスク指向の知識で検出器を最適化するために,DDL(Direct Discrepancy Learning)を提案する。そこで本研究では,最新のMGTD性能を実現する統合検出フレームワークであるTectAnyLLMを紹介する。 MIRAGEは5つのテキストドメインにまたがる10のコーパスから人書きテキストをサンプリングし、17個の最先端のLLMを使用して再生成または修正する。
論文参考訳（メタデータ） (2025-09-15T10:59:57Z)
When the Code Autopilot Breaks: Why LLMs Falter in Embedded Machine Learning [0.8880611506199766]
我々は、形式、モデル行動、構造的仮定が成功率と失敗特性の両方にどのように影響するかを示す。私たちの分析では、フォーマットによる誤解釈や、コンパイルされるが下流で壊れる実行時ディスラプティブコードなど、さまざまなエラーが発生しやすい挙動を明らかにしています。
論文参考訳（メタデータ） (2025-09-13T19:00:04Z)
CRABS: A syntactic-semantic pincer strategy for bounding LLM interpretation of Python notebooks [8.967739950302407]
再実行によるノートブックの調査は、データとソフトウェアの曖昧さを解決する上での課題のため、現実的ではないことが多い。我々は,Pythonノートブックの完全な理解を支援するために,限定構文解析を用いた戦略を開発する。提案手法の有効性を,50個の代表的,高精細なKaggleノートの注釈付きデータセットを用いて評価し,実証した。
論文参考訳（メタデータ） (2025-07-15T21:14:08Z)
LAMeD: LLM-generated Annotations for Memory Leak Detection [5.529919602615033]
機能固有のアノテーションを自動的に生成する新しいアプローチであるLAMeDを提案する。 Cooddyのようなアナライザと統合すると、LAMeDはメモリリークの検出を大幅に改善し、パスの爆発を低減する。
論文参考訳（メタデータ） (2025-05-05T05:34:33Z)
Why do Machine Learning Notebooks Crash? An Empirical Study on Public Python Jupyter Notebooks [1.8292110434077904]
GitHubとKaggleから92,542件のクラッシュを含む64,031件のノートを収集しています。クラッシュタイプや根本原因など,さまざまな側面にわたる746件のクラッシュのサンプルを分析した。クラッシュの40%以上は、APIの誤用とノートブック特有の問題によるものです。
論文参考訳（メタデータ） (2024-11-25T09:33:08Z)
KGym: A Platform and Dataset to Benchmark Large Language Models on Linux Kernel Crash Resolution [59.20933707301566]
大規模言語モデル(LLM)は、ますます現実的なソフトウェア工学(SE)タスクにおいて一貫して改善されている。現実世界のソフトウェアスタックでは、Linuxカーネルのような基本的なシステムソフトウェアの開発にSEの取り組みが費やされています。このような大規模システムレベルのソフトウェアを開発する際にMLモデルが有用かどうかを評価するため、kGymとkBenchを紹介する。
論文参考訳（メタデータ） (2024-07-02T21:44:22Z)
PULL: Reactive Log Anomaly Detection Based On Iterative PU Learning [58.85063149619348]
本稿では,推定故障時間ウィンドウに基づくリアクティブ異常検出のための反復ログ解析手法PULLを提案する。我々の評価では、PULLは3つの異なるデータセットで10のベンチマークベースラインを一貫して上回っている。
論文参考訳（メタデータ） (2023-01-25T16:34:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。