論文の概要: A Systematic Review of Common Beginner Programming Mistakes in Data Engineering
- arxiv url: http://arxiv.org/abs/2504.16644v1
- Date: Wed, 23 Apr 2025 12:04:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 16:38:44.745673
- Title: A Systematic Review of Common Beginner Programming Mistakes in Data Engineering
- Title(参考訳): データエンジニアリングにおける共通ベジナープログラミングミスの体系的レビュー
- Authors: Max Neuwinger, Dirk Riehle,
- Abstract要約: データエンジニアリングのミスに特有の限られた文献と、データエンジニアリングで一般的に使用される言語における一般的なプログラミングミスの両方を分析することで、初心者(学生)に焦点をあてる。
私たちの体系的な分類は、研究者、実践者、教育者が初心者データエンジニアが直面する課題を理解し、解決するのに役立ちます。
- 参考スコア(独自算出の注目度): 0.5678271181959528
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The design of effective programming languages, libraries, frameworks, tools, and platforms for data engineering strongly depends on their ease and correctness of use. Anyone who ignores that it is humans who use these tools risks building tools that are useless, or worse, harmful. To ensure our data engineering tools are based on solid foundations, we performed a systematic review of common programming mistakes in data engineering. We focus on programming beginners (students) by analyzing both the limited literature specific to data engineering mistakes and general programming mistakes in languages commonly used in data engineering (Python, SQL, Java). Through analysis of 21 publications spanning from 2003 to 2024, we synthesized these complementary sources into a comprehensive classification that captures both general programming challenges and domain-specific data engineering mistakes. This classification provides an empirical foundation for future tool development and educational strategies. We believe our systematic categorization will help researchers, practitioners, and educators better understand and address the challenges faced by novice data engineers.
- Abstract(参考訳): データエンジニアリングのための効果的なプログラミング言語、ライブラリ、フレームワーク、ツール、プラットフォームの設計は、その使いやすさと正確さに強く依存している。
これらのツールを使用する人間は、役に立たない、あるいは悪い、有害なツールを構築する危険を冒している。
データエンジニアリングツールがしっかりとした基盤に基づいていることを保証するため、データエンジニアリングにおいて一般的なプログラミングミスを体系的にレビューした。
データエンジニアリング(Python、SQL、Java)で一般的に使われている言語において、データエンジニアリングのミスに特有の限られた文献と一般的なプログラミングミスの両方を分析することで、初心者(学生)に焦点を合わせます。
2003年から2024年にかけての21の出版物の分析を通じて、これらの補完資料を総合的な分類に合成し、一般的なプログラミング課題とドメイン固有のデータエンジニアリングの誤りの両方を捉えた。
この分類は、将来のツール開発と教育戦略のための実証的な基盤を提供する。
私たちの体系的な分類は、研究者、実践者、教育者が初心者データエンジニアが直面している課題を理解し、解決するのに役立ちます。
関連論文リスト
- From Bugs to Benchmarks: A Comprehensive Survey of Software Defect Datasets [19.140541190998842]
ソフトウェア欠陥データセットは、ソフトウェアバグとその関連情報の集合である。
長年にわたり、多くのソフトウェア欠陥データセットが開発され、コミュニティに豊富なリソースを提供してきた。
この記事では、132のソフトウェア欠陥データセットを包括的に調査する。
論文 参考訳(メタデータ) (2025-04-24T23:07:04Z) - COFO: COdeFOrces dataset for Program Classification, Recognition and Tagging [0.0]
COFOは809のクラス/アウトプットからなるデータセットで、C、C++、Java、Pythonで書かれた合計369Kのソースコードを持つ。
このデータセットは、プログラム分類/プロブレム、タグ付け、プログラム特性の予測、コード理解といった機械学習ベースの問題を解決するのに有用であると考えています。
論文 参考訳(メタデータ) (2025-03-24T00:29:43Z) - DiSciPLE: Learning Interpretable Programs for Scientific Visual Discovery [61.02102713094486]
優れた意思決定を可能にするため、科学的推論において優れた解釈が重要である。
本稿では,ニューラルネットワークをインターリーブする学習プログラムを用いて,そのような解釈可能な設計モデルを得るための自動手法を提案する。
本稿では,大言語モデル (LLM) の常識と事前知識を活用する進化的アルゴリズムであるDiSciPLEを提案し,視覚データを説明するPythonプログラムを作成する。
論文 参考訳(メタデータ) (2025-02-14T10:26:14Z) - Towards Understanding the Impact of Data Bugs on Deep Learning Models in Software Engineering [13.17302533571231]
ディープラーニング(DL)システムは、トレーニングデータを含む多くのソースからのバグがちである。
既存の文献では、トレーニングデータのバグが非常に多いことが示唆されている。
本稿では,コードベース,テキストベース,メトリックベースの3種類のデータについて検討する。
論文 参考訳(メタデータ) (2024-11-19T00:28:20Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - Modelling Concurrency Bugs Using Machine Learning [0.0]
このプロジェクトは、一般的な機械学習アプローチと最近の機械学習アプローチを比較することを目的としている。
我々は、実生活(同時)プログラムをシミュレートする範囲で生成する合成データセットを定義する。
各種機械学習モデルモデルの基本的な限界に関する仮説を定式化する。
論文 参考訳(メタデータ) (2023-05-08T17:30:24Z) - What is it like to program with artificial intelligence? [10.343988028594612]
大規模言語モデルは、自然言語で表される様々な問題を解決するためにコードを生成することができる。
この技術はすでに、少なくとも1つの広く使用されているプログラミングエディタ拡張、GitHub Copilotで商用化されている。
我々は,大規模言語モデル(LLM支援プログラミング)を用いたプログラミングが,プログラマ支援の事前概念化とどのように似ており,異なるのかを考察する。
論文 参考訳(メタデータ) (2022-08-12T10:48:46Z) - Kubric: A scalable dataset generator [73.78485189435729]
KubricはPythonフレームワークで、PyBulletやBlenderとインターフェースして写真リアリスティックなシーンを生成する。
本研究では,3次元NeRFモデルの研究から光フロー推定まで,13種類の異なるデータセットを提示することで,Kubricの有効性を実証する。
論文 参考訳(メタデータ) (2022-03-07T18:13:59Z) - A Survey on Machine Learning Techniques for Source Code Analysis [14.129976741300029]
ソースコード解析に応用された機械学習の領域における現在の知識を要約することを目的としている。
そこで本研究では,2002年から2021年にかけて,広範囲にわたる文献検索を行い,初等研究364点を同定した。
論文 参考訳(メタデータ) (2021-10-18T20:13:38Z) - AI Explainability 360: Impact and Design [120.95633114160688]
2019年、私たちはAI Explainability 360(Arya et al. 2020)を開発しました。
本稿では,いくつかのケーススタディ,統計,コミュニティフィードバックを用いて,ツールキットが与える影響について検討する。
また,ツールキットのフレキシブルな設計,使用例,利用者が利用可能な教育資料や資料についても述べる。
論文 参考訳(メタデータ) (2021-09-24T19:17:09Z) - On the validity of pre-trained transformers for natural language
processing in the software engineering domain [78.32146765053318]
ソフトウェア工学データを用いて訓練されたBERT変換器モデルと一般領域データに基づく変換器との比較を行った。
ソフトウェアエンジニアリングのコンテキストを理解するために必要なタスクに対しては,ソフトウェアエンジニアリングデータの事前学習が重要であることを示す。
論文 参考訳(メタデータ) (2021-09-10T08:46:31Z) - Machine Learning for Software Engineering: A Systematic Mapping [73.30245214374027]
ソフトウェア開発業界は、現代のソフトウェアシステムを高度にインテリジェントで自己学習システムに移行するために、機械学習を急速に採用している。
ソフトウェアエンジニアリングライフサイクルの段階にわたって機械学習の採用について、現状を探求する包括的な研究は存在しない。
本研究は,機械学習によるソフトウェア工学(MLSE)分類を,ソフトウェア工学ライフサイクルのさまざまな段階に適用性に応じて,最先端の機械学習技術に分類するものである。
論文 参考訳(メタデータ) (2020-05-27T11:56:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。