論文の概要: JunoBench: A Benchmark Dataset of Crashes in Python Machine Learning Jupyter Notebooks
- arxiv url: http://arxiv.org/abs/2510.18013v2
- Date: Sat, 25 Oct 2025 07:59:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 13:14:10.589955
- Title: JunoBench: A Benchmark Dataset of Crashes in Python Machine Learning Jupyter Notebooks
- Title(参考訳): JunoBench: Python機械学習のJupyterノートブックにおけるクレーシェのベンチマークデータセット
- Authors: Yiran Wang, José Antonio Hernández López, Ulf Nilsson, Dániel Varró,
- Abstract要約: JunoBenchは、Pythonベースの機械学習ノートブックにおける実世界のクラッシュのベンチマークデータセットである。
JunoBenchには111のキュレーションと再現可能なクラッシュがあり、それぞれに検証可能な修正が備わっている。
JunoBenchは、クラッシュと修正を確実に再現できる統一された実行環境を提供する。
- 参考スコア(独自算出の注目度): 4.768285672660128
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Jupyter notebooks are widely used for machine learning (ML) prototyping. Yet few debugging tools are designed for ML code in notebooks, potentially due to the lack of benchmarks. We introduce JunoBench, the first benchmark dataset of real-world crashes in Python-based ML notebooks. JunoBench has 111 curated and reproducible crashes from public Kaggle notebooks, each paired with a verifiable fix, ranging over popular ML libraries, including TensorFlow/Keras, PyTorch, Scikit-learn, Pandas, and NumPy, as well as notebook-specific out-of-order execution issue. To support reproducibility and ease of use, JunoBench offers a unified execution environment where crashes and fixes can be reliably reproduced. By providing realistic crashes and their resolutions, JunoBench facilitates bug detection, localization, diagnosis, and repair tailored to the interactive and iterative nature of notebook-based ML development.
- Abstract(参考訳): Jupyterノートは機械学習(ML)プロトタイピングに広く使われている。
しかし、ノートブックのMLコード用に設計されたデバッグツールはほとんどない。
JunoBenchは、PythonベースのMLノートブックにおける実世界のクラッシュのベンチマークデータセットである。
JunoBenchには、公開Kaggleノートブックから111のキュレーションと再現可能なクラッシュがあり、それぞれが検証可能な修正とペアリングされており、TensorFlow/Keras、PyTorch、Scikit-learn、Pandas、NumPyなど、一般的なMLライブラリにまたがっている。
再現性と使いやすさをサポートするために、JunoBenchは、クラッシュと修正を確実に再現できる統一された実行環境を提供する。
現実的なクラッシュとその解決を提供することで、JunoBenchはノートブックベースのML開発におけるインタラクティブで反復的な性質に合わせて、バグ検出、ローカライゼーション、診断、修復を容易にする。
関連論文リスト
- A Regression Testing Framework with Automated Assertion Generation for Machine Learning Notebooks [2.5834567990387565]
NBTest - 開発者がノートブックにセルレベルのアサーションを書くことができる最初の回帰テストフレームワークである。
NBTestはアサーションAPIのライブラリと、アサーションの実行を可能にするJupyterLabプラグインを提供する。
592カグルノートのNBTestを評価する。
論文 参考訳(メタデータ) (2025-09-17T03:05:16Z) - Why do Machine Learning Notebooks Crash? An Empirical Study on Public Python Jupyter Notebooks [1.8292110434077904]
GitHubとKaggleから92,542件のクラッシュを含む64,031件のノートを収集しています。
クラッシュタイプや根本原因など,さまざまな側面にわたる746件のクラッシュのサンプルを分析した。
クラッシュの40%以上は、APIの誤用とノートブック特有の問題によるものです。
論文 参考訳(メタデータ) (2024-11-25T09:33:08Z) - KGym: A Platform and Dataset to Benchmark Large Language Models on Linux Kernel Crash Resolution [59.20933707301566]
大規模言語モデル(LLM)は、ますます現実的なソフトウェア工学(SE)タスクにおいて一貫して改善されている。
現実世界のソフトウェアスタックでは、Linuxカーネルのような基本的なシステムソフトウェアの開発にSEの取り組みが費やされています。
このような大規模システムレベルのソフトウェアを開発する際にMLモデルが有用かどうかを評価するため、kGymとkBenchを紹介する。
論文 参考訳(メタデータ) (2024-07-02T21:44:22Z) - Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。
本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文 参考訳(メタデータ) (2023-04-11T10:43:43Z) - Pynblint: a Static Analyzer for Python Jupyter Notebooks [10.190501703364234]
Pynblintは、Pythonで書かれたJupyterノートブックの静的アナライザである。
経験的に検証されたベストプラクティスのセットで、ノートブック(および周辺のリポジトリ)のコンプライアンスをチェックする。
論文 参考訳(メタデータ) (2022-05-24T09:56:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。