論文の概要: Mining the Characteristics of Jupyter Notebooks in Data Science Projects
- arxiv url: http://arxiv.org/abs/2304.05325v2
- Date: Sat, 26 Apr 2025 07:31:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:51.48265
- Title: Mining the Characteristics of Jupyter Notebooks in Data Science Projects
- Title(参考訳): データサイエンスプロジェクトにおけるJupyterノートの特徴のマイニング
- Authors: Morakot Choetkiertikul, Apirak Hoonlor, Chaiyong Ragkhitwetsagul, Siripen Pongpaichet, Thanwadee Sunetnanta, Tasha Settewong, Vacharavich Jiravatvanich, Urisayar Kaewpichai, Raula Gaikovina Kula,
- Abstract要約: 計算ノートブック (Jupyter Notebook) は、実際はよく知られたデータサイエンスツールである。
本研究の目的は,Kaggle上のJupyter Notebooksと,GitHub上のデータサイエンスプロジェクトで人気の高いJupyter Notebooksの特徴を理解することである。
- 参考スコア(独自算出の注目度): 1.655246222110267
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Nowadays, numerous industries have exceptional demand for skills in data science, such as data analysis, data mining, and machine learning. The computational notebook (e.g., Jupyter Notebook) is a well-known data science tool adopted in practice. Kaggle and GitHub are two platforms where data science communities are used for knowledge-sharing, skill-practicing, and collaboration. While tutorials and guidelines for novice data science are available on both platforms, there is a low number of Jupyter Notebooks that received high numbers of votes from the community. The high-voted notebook is considered well-documented, easy to understand, and applies the best data science and software engineering practices. In this research, we aim to understand the characteristics of high-voted Jupyter Notebooks on Kaggle and the popular Jupyter Notebooks for data science projects on GitHub. We plan to mine and analyse the Jupyter Notebooks on both platforms. We will perform exploratory analytics, data visualization, and feature importances to understand the overall structure of these notebooks and to identify common patterns and best-practice features separating the low-voted and high-voted notebooks. Upon the completion of this research, the discovered insights can be applied as training guidelines for aspiring data scientists and machine learning practitioners looking to improve their performance from novice ranking Jupyter Notebook on Kaggle to a deployable project on GitHub.
- Abstract(参考訳): 現在、多くの産業がデータ分析、データマイニング、機械学習といったデータサイエンスのスキルを非常に要求している。
計算ノートブック(例えばJupyter Notebook)は、実際はよく知られたデータサイエンスツールである。
KaggleとGitHubは、知識共有、スキル実践、コラボレーションにデータサイエンスコミュニティが使用される2つのプラットフォームである。
初心者データサイエンスのチュートリアルやガイドラインは両プラットフォームで利用可能だが、コミュニティから多数の投票を受けたJupyter Notebookは少ない。
高額のノートブックは、文書化され、理解しやすく、最良のデータサイエンスとソフトウェアエンジニアリングのプラクティスを適用している。
本研究では,GitHub上のデータサイエンスプロジェクトにおいて,Kaggle上のJupyter Notebooksと人気のあるJupyter Notebooksの特徴を理解することを目的としている。
両プラットフォームでJupyter Notebooksをマイニングし、分析する予定です。
我々は,これらのノートブックの全体構造を理解し,低声と高声のノートブックを分離した共通パターンとベストプラクティスの特徴を特定するために,探索的分析,データ可視化,特徴重要度の実行を行う。
この研究が完了すると、発見された洞察は、初級のJupyter Notebook on KaggleからGitHub上のデプロイ可能なプロジェクトへのパフォーマンス向上を目指すデータサイエンティストや機械学習実践者のトレーニングガイドラインとして適用することができる。
関連論文リスト
- A Systematic Literature Review of Software Engineering Research on Jupyter Notebook [8.539234346904905]
本研究の目的は,Jupyterノートのソフトウェア工学研究で使用されるトレンド,ギャップ,方法論を分析することである。
ジュピターノートのソフトウェア工学研究を出版する最も人気のある場所は、人間とコンピュータの相互作用に関するものである。
論文 参考訳(メタデータ) (2025-04-22T18:12:04Z) - Suggesting Code Edits in Interactive Machine Learning Notebooks Using Large Language Models [3.2433570328895196]
GitHub上の792の機械学習リポジトリの20,095のリビジョンから得られた48,398のJupyterノートブック編集の最初のデータセットを提示する。
我々のデータセットは、セルレベルとラインレベルの修正の詳細な詳細をキャプチャし、機械学習における現実のメンテナンスパターンを理解する基盤を提供する。
論文 参考訳(メタデータ) (2025-01-16T18:55:38Z) - Exploring Text-to-Motion Generation with Human Preference [59.28730218998923]
本稿では,テキスト・トゥ・モーション・ジェネレーションにおける嗜好学習の探索について述べる。
テキスト・トゥ・モーション・ジェネレーションの現在の改善は、まだモーションキャプチャシステムを備えたエキスパート・ラベラーを必要とするデータセットに依存していることがわかった。
我々は、好み学習が、現在のテキスト・ツー・モーション生成モデルを大幅に改善する可能性があることを示す。
論文 参考訳(メタデータ) (2024-04-15T04:14:42Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - Notably Inaccessible -- Data Driven Understanding of Data Science
Notebook (In)Accessibility [13.428631054625797]
各種アクセシビリティ問題を特定するために,10000 Jupyter ノートの大規模システム解析を行った。
ノートのアーティファクトのアクセシビリティ向上,オーサリングプラクティスの提案,ノートブックのアクセス性向上のためのインフラストラクチャの変更を提案する。
論文 参考訳(メタデータ) (2023-08-07T01:33:32Z) - The Semantic Scholar Open Data Platform [92.2948743167744]
セマンティック・スカラー(Semantic Scholar、S2)は、学術文献の発見と理解を支援することを目的としたオープンデータプラットフォームおよびウェブサイトである。
我々は、学術的なPDFコンテンツ抽出と知識グラフの自動構築のための最先端技術を用いて、パブリックおよびプロプライエタリなデータソースを組み合わせる。
このグラフには、構造解析されたテキスト、自然言語要約、ベクトル埋め込みなどの高度な意味的特徴が含まれている。
論文 参考訳(メタデータ) (2023-01-24T17:13:08Z) - Deep learning for table detection and structure recognition: A survey [49.09628624903334]
本調査の目的は,テーブル検出の分野での大きな進展を深く理解することである。
この分野における古典的アプリケーションと新しいアプリケーションの両方について分析する。
既存のモデルのデータセットとソースコードは、読者にこの膨大な文献のコンパスを提供するために組織されている。
論文 参考訳(メタデータ) (2022-11-15T19:42:27Z) - StickyLand: Breaking the Linear Presentation of Computational Notebooks [5.1175396458764855]
StickyLandはノートブックの拡張機能で、ユーザは自由にコードをリニアな方法で整理できる。
常に画面に表示される粘着性のあるセルを使えば、ユーザーはノートに素早くアクセスでき、実験結果をすぐに観察でき、インタラクティブなダッシュボードを簡単に構築できる。
論文 参考訳(メタデータ) (2022-02-22T18:25:54Z) - DeepShovel: An Online Collaborative Platform for Data Extraction in
Geoscience Literature with AI Assistance [48.55345030503826]
地質学者は、関連する結果やデータを発見、抽出、集約するために膨大な量の文献を読む必要がある。
DeepShovelは、彼らのニーズをサポートするAI支援データ抽出システムである。
14人の研究者によるユーザ評価の結果、DeepShovelは科学データベース構築のためのデータ抽出の効率を改善した。
論文 参考訳(メタデータ) (2022-02-21T12:18:08Z) - GIS and Computational Notebooks [0.0]
この章では、地理的文脈で計算ノートを紹介します。
これはまず、ノートブックの根底にある計算パラダイムと哲学を説明することから始まる。
そして、そのアーキテクチャをアンパックして、ノートブックユーザの典型的なワークフローを図示する。
論文 参考訳(メタデータ) (2021-01-02T01:59:14Z) - Scaling Systematic Literature Reviews with Machine Learning Pipelines [57.82662094602138]
体系的なレビューは、科学的文書からデータを抽出する。
これらの側面をそれぞれ自動化するパイプラインを構築し、多くの人間時間対システム品質トレードオフを実験します。
人間の専門的アノテーションの2週間だけで、パイプラインシステム全体の驚くほどの精度と一般性が得られることが分かりました。
論文 参考訳(メタデータ) (2020-10-09T16:19:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。