論文の概要: JunoBench: A Benchmark Dataset of Crashes in Python Machine Learning Jupyter Notebooks
- arxiv url: http://arxiv.org/abs/2510.18013v3
- Date: Mon, 10 Nov 2025 13:52:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 19:11:14.357343
- Title: JunoBench: A Benchmark Dataset of Crashes in Python Machine Learning Jupyter Notebooks
- Title(参考訳): JunoBench: Python機械学習のJupyterノートブックにおけるクレーシェのベンチマークデータセット
- Authors: Yiran Wang, José Antonio Hernández López, Ulf Nilsson, Dániel Varró,
- Abstract要約: JunoBenchは、PythonベースのMLノートブックにおける実世界のクラッシュのベンチマークデータセットである。
JunoBenchには111のキュレーションと再現可能なクラッシュが含まれている。
- 参考スコア(独自算出の注目度): 4.768285672660128
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Jupyter notebooks are widely used for machine learning (ML) prototyping. Yet, few debugging tools are designed for ML code in notebooks, partly, due to the lack of benchmarks. We introduce JunoBench, the first benchmark dataset of real-world crashes in Python-based ML notebooks. JunoBench includes 111 curated and reproducible crashes with verified fixes from public Kaggle notebooks, covering popular ML libraries (e.g., TensorFlow/Keras, PyTorch, Scikit-learn) and notebook-specific out-of-order execution errors. JunoBench ensures reproducibility and ease of use through a unified environment that reliably reproduces all crashes. By providing realistic crashes, their resolutions, richly annotated labels of crash characteristics, and natural-language diagnostic annotations, JunoBench facilitates research on bug detection, localization, diagnosis, and repair in notebook-based ML development.
- Abstract(参考訳): Jupyterノートは機械学習(ML)プロトタイピングに広く使われている。
しかし、ベンチマークの欠如もあって、ノートブックのMLコード用に設計されたデバッグツールはほとんどない。
JunoBenchは、PythonベースのMLノートブックにおける実世界のクラッシュのベンチマークデータセットである。
JunoBenchには、111のキュレーションと再現可能なクラッシュ、パブリックなKaggleノートブックの修正、一般的なMLライブラリ(例:TensorFlow/Keras、PyTorch、Scikit-learn)、ノートブック固有のアウトオブオーダー実行エラーなどが含まれている。
JunoBenchは、すべてのクラッシュを確実に再現する統一された環境を通じて、再現性と使いやすさを保証する。
現実的なクラッシュ、その解決、豊富な注釈付きラベルのクラッシュ特性、自然言語診断アノテーションを提供することで、JunoBenchはノートブックベースのML開発におけるバグ検出、ローカライゼーション、診断、修復の研究を促進する。
関連論文リスト
- A Regression Testing Framework with Automated Assertion Generation for Machine Learning Notebooks [2.5834567990387565]
NBTest - 開発者がノートブックにセルレベルのアサーションを書くことができる最初の回帰テストフレームワークである。
NBTestはアサーションAPIのライブラリと、アサーションの実行を可能にするJupyterLabプラグインを提供する。
592カグルノートのNBTestを評価する。
論文 参考訳(メタデータ) (2025-09-17T03:05:16Z) - Why do Machine Learning Notebooks Crash? An Empirical Study on Public Python Jupyter Notebooks [1.8292110434077904]
GitHubとKaggleから92,542件のクラッシュを含む64,031件のノートを収集しています。
クラッシュタイプや根本原因など,さまざまな側面にわたる746件のクラッシュのサンプルを分析した。
クラッシュの40%以上は、APIの誤用とノートブック特有の問題によるものです。
論文 参考訳(メタデータ) (2024-11-25T09:33:08Z) - KGym: A Platform and Dataset to Benchmark Large Language Models on Linux Kernel Crash Resolution [59.20933707301566]
大規模言語モデル(LLM)は、ますます現実的なソフトウェア工学(SE)タスクにおいて一貫して改善されている。
現実世界のソフトウェアスタックでは、Linuxカーネルのような基本的なシステムソフトウェアの開発にSEの取り組みが費やされています。
このような大規模システムレベルのソフトウェアを開発する際にMLモデルが有用かどうかを評価するため、kGymとkBenchを紹介する。
論文 参考訳(メタデータ) (2024-07-02T21:44:22Z) - Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。
本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文 参考訳(メタデータ) (2023-04-11T10:43:43Z) - Pynblint: a Static Analyzer for Python Jupyter Notebooks [10.190501703364234]
Pynblintは、Pythonで書かれたJupyterノートブックの静的アナライザである。
経験的に検証されたベストプラクティスのセットで、ノートブック(および周辺のリポジトリ)のコンプライアンスをチェックする。
論文 参考訳(メタデータ) (2022-05-24T09:56:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。