論文の概要: JunoBench: A Benchmark Dataset of Crashes in Python Machine Learning Jupyter Notebooks
- arxiv url: http://arxiv.org/abs/2510.18013v3
- Date: Mon, 10 Nov 2025 13:52:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 19:11:14.357343
- Title: JunoBench: A Benchmark Dataset of Crashes in Python Machine Learning Jupyter Notebooks
- Title(参考訳): JunoBench: Python機械学習のJupyterノートブックにおけるクレーシェのベンチマークデータセット
- Authors: Yiran Wang, José Antonio Hernández López, Ulf Nilsson, Dániel Varró,
- Abstract要約: JunoBenchは、PythonベースのMLノートブックにおける実世界のクラッシュのベンチマークデータセットである。
JunoBenchには111のキュレーションと再現可能なクラッシュが含まれている。
- 参考スコア(独自算出の注目度): 4.768285672660128
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Jupyter notebooks are widely used for machine learning (ML) prototyping. Yet, few debugging tools are designed for ML code in notebooks, partly, due to the lack of benchmarks. We introduce JunoBench, the first benchmark dataset of real-world crashes in Python-based ML notebooks. JunoBench includes 111 curated and reproducible crashes with verified fixes from public Kaggle notebooks, covering popular ML libraries (e.g., TensorFlow/Keras, PyTorch, Scikit-learn) and notebook-specific out-of-order execution errors. JunoBench ensures reproducibility and ease of use through a unified environment that reliably reproduces all crashes. By providing realistic crashes, their resolutions, richly annotated labels of crash characteristics, and natural-language diagnostic annotations, JunoBench facilitates research on bug detection, localization, diagnosis, and repair in notebook-based ML development.
- Abstract(参考訳): Jupyterノートは機械学習(ML)プロトタイピングに広く使われている。
しかし、ベンチマークの欠如もあって、ノートブックのMLコード用に設計されたデバッグツールはほとんどない。
JunoBenchは、PythonベースのMLノートブックにおける実世界のクラッシュのベンチマークデータセットである。
JunoBenchには、111のキュレーションと再現可能なクラッシュ、パブリックなKaggleノートブックの修正、一般的なMLライブラリ(例:TensorFlow/Keras、PyTorch、Scikit-learn)、ノートブック固有のアウトオブオーダー実行エラーなどが含まれている。
JunoBenchは、すべてのクラッシュを確実に再現する統一された環境を通じて、再現性と使いやすさを保証する。
現実的なクラッシュ、その解決、豊富な注釈付きラベルのクラッシュ特性、自然言語診断アノテーションを提供することで、JunoBenchはノートブックベースのML開発におけるバグ検出、ローカライゼーション、診断、修復の研究を促進する。
関連論文リスト
- Runtime-Augmented LLMs for Crash Detection and Diagnosis in ML Notebooks [4.768285672660128]
CRANE-LLMは,ノートブックカーネル状態から抽出した構造化ランタイム情報を用いて大規模言語モデルを拡張し,クラッシュを検出し診断する手法である。
以前実行されたセルとターゲットセルが与えられた場合、CRANE-LLMは静的コードコンテキストとオブジェクトタイプ、テンソル形状、データ属性を含むランタイム情報を組み合わせて、ターゲットセルがクラッシュするかどうかを予測する。
CRANE-LLM on JunoBench, a benchmark of 222 ML notebooks with 111 pair of crashing and corresponding non-crashing notebooks。
論文 参考訳(メタデータ) (2026-02-20T13:19:06Z) - Outrunning LLM Cutoffs: A Live Kernel Crash Resolution Benchmark for All [57.23434868678603]
Live-kBenchは、新たに発見されたカーネルバグのエージェントをスクラップし、評価するセルフ進化ベンチマークの評価フレームワークである。
kEnvは、カーネルのコンパイル、実行、フィードバックのためのエージェントに依存しないクラッシュ解決環境である。
kEnvを用いて3つの最先端エージェントをベンチマークし、最初の試行で74%のクラッシュを解決したことを示す。
論文 参考訳(メタデータ) (2026-02-02T19:06:15Z) - A Regression Testing Framework with Automated Assertion Generation for Machine Learning Notebooks [2.5834567990387565]
NBTest - 開発者がノートブックにセルレベルのアサーションを書くことができる最初の回帰テストフレームワークである。
NBTestはアサーションAPIのライブラリと、アサーションの実行を可能にするJupyterLabプラグインを提供する。
592カグルノートのNBTestを評価する。
論文 参考訳(メタデータ) (2025-09-17T03:05:16Z) - CrashFixer: A crash resolution agent for the Linux kernel [58.152358195983155]
この作業は、システムレベルのLinuxカーネルバグのベンチマークと、Linuxカーネルで実験を実行するプラットフォームを共有するkGymの上に構築されている。
CrashFixerはLinuxカーネルのバグに適応する最初のLCMベースのソフトウェア修復エージェントである。
論文 参考訳(メタデータ) (2025-04-29T04:18:51Z) - Why do Machine Learning Notebooks Crash? An Empirical Study on Public Python Jupyter Notebooks [1.8292110434077904]
GitHubとKaggleから92,542件のクラッシュを含む64,031件のノートを収集しています。
クラッシュタイプや根本原因など,さまざまな側面にわたる746件のクラッシュのサンプルを分析した。
クラッシュの40%以上は、APIの誤用とノートブック特有の問題によるものです。
論文 参考訳(メタデータ) (2024-11-25T09:33:08Z) - STAMP: Outlier-Aware Test-Time Adaptation with Stable Memory Replay [76.06127233986663]
テスト時間適応(TTA)は、トレーニングデータとテストデータの間の分散シフトに、未ラベルのデータのみを用いて対処することを目的としている。
本稿では,サンプル認識とオフリエ拒絶の両方を行う問題に注意を払っている。
本稿では,STAble Memory rePlay (STAMP) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-22T16:25:41Z) - KGym: A Platform and Dataset to Benchmark Large Language Models on Linux Kernel Crash Resolution [59.20933707301566]
大規模言語モデル(LLM)は、ますます現実的なソフトウェア工学(SE)タスクにおいて一貫して改善されている。
現実世界のソフトウェアスタックでは、Linuxカーネルのような基本的なシステムソフトウェアの開発にSEの取り組みが費やされています。
このような大規模システムレベルのソフトウェアを開発する際にMLモデルが有用かどうかを評価するため、kGymとkBenchを紹介する。
論文 参考訳(メタデータ) (2024-07-02T21:44:22Z) - DebugBench: Evaluating Debugging Capability of Large Language Models [80.73121177868357]
DebugBench - LLM(Large Language Models)のベンチマーク。
C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。
ゼロショットシナリオで2つの商用および4つのオープンソースモデルを評価する。
論文 参考訳(メタデータ) (2024-01-09T15:46:38Z) - Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。
本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文 参考訳(メタデータ) (2023-04-11T10:43:43Z) - Pynblint: a Static Analyzer for Python Jupyter Notebooks [10.190501703364234]
Pynblintは、Pythonで書かれたJupyterノートブックの静的アナライザである。
経験的に検証されたベストプラクティスのセットで、ノートブック(および周辺のリポジトリ)のコンプライアンスをチェックする。
論文 参考訳(メタデータ) (2022-05-24T09:56:03Z) - ReproduceMeGit: A Visualization Tool for Analyzing Reproducibility of
Jupyter Notebooks [0.0]
本稿では、Jupyter NotebooksのGitHubを分析する可視化ツールであるReproduceMeGitを紹介する。
このツールは、再現可能なノートブックの数、例外となったノートブック数、オリジナルのノートブックと異なる結果を得たノートブック数などの情報を提供する。
論文 参考訳(メタデータ) (2020-06-22T10:05:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。