論文の概要: Suggesting Code Edits in Interactive Machine Learning Notebooks Using Large Language Models
- arxiv url: http://arxiv.org/abs/2501.09745v1
- Date: Thu, 16 Jan 2025 18:55:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-17 15:11:59.832994
- Title: Suggesting Code Edits in Interactive Machine Learning Notebooks Using Large Language Models
- Title(参考訳): 大規模言語モデルを用いた対話型機械学習ノートにおけるコード編集の提案
- Authors: Bihui Jin, Jiayue Wang, Pengyu Nie,
- Abstract要約: GitHub上の792の機械学習リポジトリの20,095のリビジョンから得られた48,398のJupyterノートブック編集の最初のデータセットを提示する。
我々のデータセットは、セルレベルとラインレベルの修正の詳細な詳細をキャプチャし、機械学習における現実のメンテナンスパターンを理解する基盤を提供する。
- 参考スコア(独自算出の注目度): 3.2433570328895196
- License:
- Abstract: Machine learning developers frequently use interactive computational notebooks, such as Jupyter notebooks, to host code for data processing and model training. Jupyter notebooks provide a convenient tool for writing machine learning pipelines and interactively observing outputs, however, maintaining Jupyter notebooks, e.g., to add new features or fix bugs, can be challenging due to the length and complexity of the notebooks. Moreover, there is no existing benchmark related to developer edits on Jupyter notebooks. To address this, we present the first dataset of 48,398 Jupyter notebook edits derived from 20,095 revisions of 792 machine learning repositories on GitHub, and perform the first study of the using LLMs to predict code edits in Jupyter notebooks. Our dataset captures granular details of cell-level and line-level modifications, offering a foundation for understanding real-world maintenance patterns in machine learning workflows. We observed that the edits on Jupyter notebooks are highly localized, with changes averaging only 166 lines of code in repositories. While larger models outperform smaller counterparts in code editing, all models have low accuracy on our dataset even after finetuning, demonstrating the complexity of real-world machine learning maintenance tasks. Our findings emphasize the critical role of contextual information in improving model performance and point toward promising avenues for advancing large language models' capabilities in engineering machine learning code.
- Abstract(参考訳): 機械学習開発者は、Jupyterノートブックのようなインタラクティブな計算ノートブックを使用して、データ処理とモデルトレーニングのためのコードをホストする。
Jupyterノートブックは、機械学習パイプラインを記述し、アウトプットをインタラクティブに観察する便利なツールを提供するが、Jupyterノートブックの維持、例えば、新機能の追加やバグ修正は、ノートブックの長さと複雑さのために困難である。
さらに、Jupyterノートブックの開発者編集に関する既存のベンチマークはない。
これを解決するために、GitHub上の792の機械学習リポジトリの20,095のリビジョンから得られた48,398のJupyterノートブック編集の最初のデータセットを提示し、Jupyterノートブックのコード編集を予測するためにLLMを使用した最初の研究を行う。
我々のデータセットは、セルレベルとラインレベルの修正の詳細な詳細をキャプチャし、機械学習ワークフローにおける現実のメンテナンスパターンを理解する基盤を提供します。
Jupyterノートブックの編集は高度にローカライズされており、リポジトリ内のコードの平均は166行に過ぎなかった。
より大きなモデルはコード編集においてより小さなモデルよりも優れていますが、すべてのモデルは微調整後もデータセットの精度が低く、現実の機械学習保守タスクの複雑さを示しています。
本研究は,機械学習コードにおける大規模言語モデルの能力向上に向けて,モデルの性能向上における文脈情報の重要性を強調した。
関連論文リスト
- Cookbook: A framework for improving LLM generative abilities via programmatic data generating templates [57.29125360837203]
Cookbookはランダムトークン上の単純なパターンからなるトレーニングデータを生成するフレームワークである。
クックブック生成したデータの微調整により,対応するタスクの性能を最大52.7の精度で向上できることがわかった。
論文 参考訳(メタデータ) (2024-10-07T17:29:40Z) - Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。
本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文 参考訳(メタデータ) (2023-04-11T10:43:43Z) - Static Analysis Driven Enhancements for Comprehension in Machine Learning Notebooks [7.142786325863891]
Jupyterノートブックを使えば、開発者はリッチテキストとインラインビジュアライゼーションでコードスニペットをインターリーブできる。
最近の研究では、Jupyterノートの大部分が文書化されておらず、物語構造が欠けていることが示されている。
本稿では、コードセルに分類型マークダウンヘッダーを付加する新しいツールベースのアプローチであるHeaderGenを提案する。
論文 参考訳(メタデータ) (2023-01-11T11:57:52Z) - Natural Language to Code Generation in Interactive Data Science
Notebooks [35.621936471322385]
データサイエンスノートブックのパンダスデータ分析フレームワークを用いて1082のコード生成問題のベンチマークであるARCADEを構築した。
我々は,Python 計算ノートブック用の 62B コード言語モデル PaChiNCo を開発した。
論文 参考訳(メタデータ) (2022-12-19T05:06:00Z) - EditEval: An Instruction-Based Benchmark for Text Improvements [73.5918084416016]
編集機能の自動評価のためのインストラクションベース、ベンチマーク、評価スイートであるEditEvalを提示する。
InstructGPTとPEERが最良であることを示す事前学習モデルをいくつか評価するが,ほとんどのベースラインは教師付きSOTA以下である。
我々の分析は、タスクの編集によく使われるメトリクスが必ずしも相関しているとは限らないことを示し、最高の性能を持つプロンプトに対する最適化は、必ずしも異なるモデルに対して強い堅牢性を持つとは限らないことを示唆している。
論文 参考訳(メタデータ) (2022-09-27T12:26:05Z) - Pynblint: a Static Analyzer for Python Jupyter Notebooks [10.190501703364234]
Pynblintは、Pythonで書かれたJupyterノートブックの静的アナライザである。
経験的に検証されたベストプラクティスのセットで、ノートブック(および周辺のリポジトリ)のコンプライアンスをチェックする。
論文 参考訳(メタデータ) (2022-05-24T09:56:03Z) - StickyLand: Breaking the Linear Presentation of Computational Notebooks [5.1175396458764855]
StickyLandはノートブックの拡張機能で、ユーザは自由にコードをリニアな方法で整理できる。
常に画面に表示される粘着性のあるセルを使えば、ユーザーはノートに素早くアクセスでき、実験結果をすぐに観察でき、インタラクティブなダッシュボードを簡単に構築できる。
論文 参考訳(メタデータ) (2022-02-22T18:25:54Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - ProtoTransformer: A Meta-Learning Approach to Providing Student Feedback [54.142719510638614]
本稿では,フィードバックを数発の分類として提供するという課題について考察する。
メタラーナーは、インストラクターによるいくつかの例から、新しいプログラミング質問に関する学生のコードにフィードバックを与えるように適応します。
本手法は,第1段階の大学が提供したプログラムコースにおいて,16,000名の学生試験ソリューションに対するフィードバックの提供に成功している。
論文 参考訳(メタデータ) (2021-07-23T22:41:28Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z) - ReproduceMeGit: A Visualization Tool for Analyzing Reproducibility of
Jupyter Notebooks [0.0]
本稿では、Jupyter NotebooksのGitHubを分析する可視化ツールであるReproduceMeGitを紹介する。
このツールは、再現可能なノートブックの数、例外となったノートブック数、オリジナルのノートブックと異なる結果を得たノートブック数などの情報を提供する。
論文 参考訳(メタデータ) (2020-06-22T10:05:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。