論文の概要: Observing Fine-Grained Changes in Jupyter Notebooks During Development Time
- arxiv url: http://arxiv.org/abs/2507.15831v1
- Date: Mon, 21 Jul 2025 17:41:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.513484
- Title: Observing Fine-Grained Changes in Jupyter Notebooks During Development Time
- Title(参考訳): ジュピターノートの微粒化観察
- Authors: Sergey Titov, Konstantin Grotov, Cristina Sarasua, Yaroslav Golubev, Dhivyabharathi Ramasamy, Alberto Bacchelli, Abraham Bernstein, Timofey Bryksin,
- Abstract要約: 開発期間中にJupyterノートブックのコード変更を収集するためのツールセットを紹介します。
次に、データ分析タスクと機械学習タスクに関連する100時間以上の作業を収集します。
第3に、このデータセットを用いてノートの開発プロセスの動的性質を調査する。
- 参考スコア(独自算出の注目度): 12.75622665542759
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In software engineering, numerous studies have focused on the analysis of fine-grained logs, leading to significant innovations in areas such as refactoring, security, and code completion. However, no similar studies have been conducted for computational notebooks in the context of data science. To help bridge this research gap, we make three scientific contributions: we (1) introduce a toolset for collecting code changes in Jupyter notebooks during development time; (2) use it to collect more than 100 hours of work related to a data analysis task and a machine learning task (carried out by 20 developers with different levels of expertise), resulting in a dataset containing 2,655 cells and 9,207 cell executions; and (3) use this dataset to investigate the dynamic nature of the notebook development process and the changes that take place in the notebooks. In our analysis of the collected data, we classified the changes made to the cells between executions and found that a significant number of these changes were relatively small fixes and code iteration modifications. This suggests that notebooks are used not only as a development and exploration tool but also as a debugging tool. We report a number of other insights and propose potential future research directions on the novel data.
- Abstract(参考訳): ソフトウェア工学では、多くの研究がきめ細かいログの分析に重点を置いており、リファクタリング、セキュリティ、コード補完といった分野で大きな革新をもたらしている。
しかし、データサイエンスの文脈において、計算ノートに類似した研究は行われていない。
この研究ギャップを埋めるために、(1)開発期間中にJupyterノートブックのコード変更を収集するためのツールセットの導入、(2)データ分析タスクと機械学習タスク(20人の開発者によって異なるレベルの専門知識を持つ開発者によって運営されている)に関する100時間以上の作業の収集、(3)ノートブック開発プロセスの動的な性質とノートブックの変更を調査するためのデータセットの使用、の3つの科学的貢献を行う。
収集したデータの解析では,実行間のセルの変更を分類し,これらの変更の多くは比較的小さな修正とコード反復修正であった。
これはノートブックが開発ツールや調査ツールとしてだけでなく、デバッグツールとしても使われていることを示唆している。
他にも多くの知見を報告し、今後の新たなデータ研究の方向性を提案する。
関連論文リスト
- A Systematic Literature Review of Software Engineering Research on Jupyter Notebook [8.539234346904905]
本研究の目的は,Jupyterノートのソフトウェア工学研究で使用されるトレンド,ギャップ,方法論を分析することである。
ジュピターノートのソフトウェア工学研究を出版する最も人気のある場所は、人間とコンピュータの相互作用に関するものである。
論文 参考訳(メタデータ) (2025-04-22T18:12:04Z) - Suggesting Code Edits in Interactive Machine Learning Notebooks Using Large Language Models [3.2433570328895196]
GitHub上の792の機械学習リポジトリの20,095のリビジョンから得られた48,398のJupyterノートブック編集の最初のデータセットを提示する。
我々のデータセットは、セルレベルとラインレベルの修正の詳細な詳細をキャプチャし、機械学習における現実のメンテナンスパターンを理解する基盤を提供する。
論文 参考訳(メタデータ) (2025-01-16T18:55:38Z) - Contextualized Data-Wrangling Code Generation in Computational Notebooks [131.26365849822932]
我々は、マルチモーダルなコンテキスト依存を明確にしたデータラングリングコード生成例をマイニングするために、CoCoMineという自動アプローチを提案する。
コンテクスト化されたデータラングリングコード生成のための58,221のサンプルを含むデータセットであるCoCoNoteをNotebooksで構築する。
実験結果は、データラングリングコード生成にデータコンテキストを組み込むことの重要性を示す。
論文 参考訳(メタデータ) (2024-09-20T14:49:51Z) - Untangling Knots: Leveraging LLM for Error Resolution in Computational Notebooks [4.318590074766604]
本稿では,反復型LCMエージェントを用いて,計算ノートブックの誤りを解消するための潜在的解決策を提案する。
本稿では,本手法によって提起された問題について議論し,バグを含む新しい計算ノートブックのデータセットを共有する。
論文 参考訳(メタデータ) (2024-03-26T18:53:17Z) - A Survey of Neural Code Intelligence: Paradigms, Advances and Beyond [84.95530356322621]
この調査は、コードインテリジェンスの発展に関する体系的なレビューを示す。
50以上の代表モデルとその変種、20以上のタスクのカテゴリ、および680以上の関連する広範な研究をカバーしている。
発達軌道の考察に基づいて、コードインテリジェンスとより広範なマシンインテリジェンスとの間の新たな相乗効果について検討する。
論文 参考訳(メタデータ) (2024-03-21T08:54:56Z) - Investigating Reproducibility in Deep Learning-Based Software Fault
Prediction [16.25827159504845]
ますます複雑な機械学習モデルが急速に採用されるようになると、学者が文献で報告される結果を再現することがますます困難になる。
特に、適用されたディープラーニングモデルと評価方法論が適切に文書化されていない場合と、コードとデータが共有されていない場合である。
我々は,2019年から2022年にかけて,トップレベルのソフトウェアエンジニアリングカンファレンスにおいて,現在の文献を体系的にレビューし,56件の研究論文のレベルを検討した。
論文 参考訳(メタデータ) (2024-02-08T13:00:18Z) - CodeLL: A Lifelong Learning Dataset to Support the Co-Evolution of Data
and Language Models of Code [6.491009626125319]
コード変更に焦点を当てた生涯学習データセットであるCodeLLを紹介します。
私たちのデータセットは、オープンソースソフトウェアリポジトリのリリース履歴全体にわたるコード変更を包括的にキャプチャすることを目的としています。
CodeLLは、コード変更を学ぶための生涯にわたる微調整設定において、LMの振る舞いを研究することができる。
論文 参考訳(メタデータ) (2023-12-20T01:20:24Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - Privacy-Preserving Graph Machine Learning from Data to Computation: A
Survey [67.7834898542701]
我々は,グラフ機械学習のプライバシ保護手法の見直しに重点を置いている。
まずプライバシ保護グラフデータを生成する方法を検討する。
次に,プライバシ保護情報を送信する方法について述べる。
論文 参考訳(メタデータ) (2023-07-10T04:30:23Z) - Mining the Characteristics of Jupyter Notebooks in Data Science Projects [1.655246222110267]
計算ノートブック (Jupyter Notebook) は、実際はよく知られたデータサイエンスツールである。
本研究の目的は,Kaggle上のJupyter Notebooksと,GitHub上のデータサイエンスプロジェクトで人気の高いJupyter Notebooksの特徴を理解することである。
論文 参考訳(メタデータ) (2023-04-11T16:30:53Z) - Natural Language to Code Generation in Interactive Data Science
Notebooks [35.621936471322385]
データサイエンスノートブックのパンダスデータ分析フレームワークを用いて1082のコード生成問題のベンチマークであるARCADEを構築した。
我々は,Python 計算ノートブック用の 62B コード言語モデル PaChiNCo を開発した。
論文 参考訳(メタデータ) (2022-12-19T05:06:00Z) - Time-Varying Propensity Score to Bridge the Gap between the Past and Present [104.46387765330142]
本稿では,データ分布の段階的変化を検出するための時間変化確率スコアを提案する。
実装のさまざまな方法を示し、さまざまな問題について評価する。
論文 参考訳(メタデータ) (2022-10-04T07:21:49Z) - dMelodies: A Music Dataset for Disentanglement Learning [70.90415511736089]
我々は、研究者が様々な領域でアルゴリズムの有効性を実証するのに役立つ新しいシンボリック・ミュージック・データセットを提案する。
これはまた、音楽用に特別に設計されたアルゴリズムを評価する手段を提供する。
データセットは、遠絡学習のためのディープネットワークのトレーニングとテストに十分な大きさ(約13万データポイント)である。
論文 参考訳(メタデータ) (2020-07-29T19:20:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。