論文の概要: Characterizing Bugs in Python and R Data Analytics Programs
- arxiv url: http://arxiv.org/abs/2306.08632v1
- Date: Wed, 14 Jun 2023 16:50:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 19:48:22.407688
- Title: Characterizing Bugs in Python and R Data Analytics Programs
- Title(参考訳): PythonとRのデータ分析プログラムでバグを特徴付ける
- Authors: Shibbir Ahmed, Mohammad Wardat, Hamid Bagheri, Breno Dantas Cruz,
Hridesh Rajan
- Abstract要約: 我々は、RとPythonのバグを理解するために最も使われているライブラリの5,068のStack Overflowポスト、GitHubリポジトリからの1,800のバグ修正コミット、GitHubの問題に関する包括的な調査を示す。
RとPythonのどちらも、データ分析の経験不足によるバグがあるが、PythonはRに比べて、データ前処理のバグが大幅に大きい。
Rはデータアナリストにとって可読性の障壁がわずかに高いが、Rの統計力は悪いパフォーマンスのバグを少なくする。
- 参考スコア(独自算出の注目度): 17.4802455319052
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: R and Python are among the most popular languages used in many critical data
analytics tasks. However, we still do not fully understand the capabilities of
these two languages w.r.t. bugs encountered in data analytics tasks. What type
of bugs are common? What are the main root causes? What is the relation between
bugs and root causes? How to mitigate these bugs? We present a comprehensive
study of 5,068 Stack Overflow posts, 1,800 bug fix commits from GitHub
repositories, and several GitHub issues of the most used libraries to
understand bugs in R and Python. Our key findings include: while both R and
Python have bugs due to inexperience with data analysis, Python see
significantly larger data preprocessing bugs compared to R. Developers
experience significantly more data flow bugs in R because intermediate results
are often implicit. We also found changes and bugs in packages and libraries
cause more bugs in R compared to Python while package or library misselection
and conflicts cause more bugs in Python than R. While R has a slightly higher
readability barrier for data analysts, the statistical power of R leads to a
less number of bad performance bugs. In terms of data visualization, R packages
have significantly more bugs than Python libraries. We also identified a strong
correlation between comparable packages in R and Python despite their
linguistic and methodological differences. Lastly, we contribute a large
dataset of manually verified R and Python bugs.
- Abstract(参考訳): RとPythonは多くの重要なデータ分析タスクで使われている最も人気のある言語の一つである。
しかし、これらの2つの言語がデータ分析タスクで発生するバグについて、まだ完全には理解していません。
どんなバグがよくあるのか?
主な原因は何ですか?
バグと根本原因の関係は何か?
これらのバグを緩和する方法?
我々は5,068のStack Overflowポスト、GitHubリポジトリからの1,800のバグ修正コミット、RとPythonのバグを理解するために最も使われているライブラリのGitHub問題に関する包括的な調査を紹介する。
RとPythonには、データ分析の経験不足によるバグがあるが、PythonはRと比較して、データ前処理のバグが大幅に大きい。
また、パッケージやライブラリの変更やバグがPythonよりもRのバグを発生させるのに対して、パッケージやライブラリのミスセレクションやコンフリクトはRよりもPythonのバグを発生させる。
データビジュアライゼーションの面では、RパッケージはPythonライブラリよりもはるかに多くのバグがある。
また,言語的および方法論的差異にもかかわらず,RとPythonのパッケージに比較して強い相関関係が認められた。
最後に、手作業によるRとPythonのバグの大規模なデータセットを寄贈する。
関連論文リスト
- KGym: A Platform and Dataset to Benchmark Large Language Models on Linux Kernel Crash Resolution [59.20933707301566]
大規模言語モデル(LLM)は、ますます現実的なソフトウェア工学(SE)タスクにおいて一貫して改善されている。
現実世界のソフトウェアスタックでは、Linuxカーネルのような基本的なシステムソフトウェアの開発にSEの取り組みが費やされています。
このような大規模システムレベルのソフトウェアを開発する際にMLモデルが有用かどうかを評価するため、kGymとkBenchを紹介する。
論文 参考訳(メタデータ) (2024-07-02T21:44:22Z) - Causal-learn: Causal Discovery in Python [53.17423883919072]
因果発見は、観測データから因果関係を明らかにすることを目的としている。
$textitcausal-learn$は因果発見のためのオープンソースのPythonライブラリである。
論文 参考訳(メタデータ) (2023-07-31T05:00:35Z) - An Empirical Study on Bugs Inside PyTorch: A Replication Study [10.848682558737494]
私たちは、非常に人気のあるディープラーニングフレームワークであるPyTorchライブラリのバグを特徴付けています。
私たちの結果は、PyTorchのバグはディープラーニングの特徴よりも、従来のソフトウェアプロジェクトのバグに近いことを強調しています。
論文 参考訳(メタデータ) (2023-07-25T19:23:55Z) - Understanding Bugs in Multi-Language Deep Learning Frameworks [12.524231041454044]
ディープラーニングフレームワーク(DLF)は、複数のプログラミング言語(PL)の使用によって引き起こされるバグに悩まされている
MPL DLF(MXNet, PyTorch, MXNet)の1497のバグを分析した。
PLの組み合わせ PythonとC/C++は、すべてのDLFで92%以上のMPLバグを修正するのに最も使われている。
論文 参考訳(メタデータ) (2023-03-05T15:19:37Z) - Using Developer Discussions to Guide Fixing Bugs in Software [51.00904399653609]
我々は,タスク実行前に利用可能であり,また自然発生しているバグレポートの議論を,開発者による追加情報の必要性を回避して利用することを提案する。
このような議論から派生したさまざまな自然言語コンテキストがバグ修正に役立ち、オラクルのバグ修正コミットに対応するコミットメッセージの使用よりもパフォーマンスの向上につながることを実証する。
論文 参考訳(メタデータ) (2022-11-11T16:37:33Z) - DADApy: Distance-based Analysis of DAta-manifolds in Python [51.37841707191944]
DADApyは、高次元データの分析と特徴付けのためのピソンソフトウェアパッケージである。
固有次元と確率密度を推定し、密度に基づくクラスタリングを行い、異なる距離メトリクスを比較する方法を提供する。
論文 参考訳(メタデータ) (2022-05-04T08:41:59Z) - PyHHMM: A Python Library for Heterogeneous Hidden Markov Models [63.01207205641885]
PyHHMM は Heterogeneous-Hidden Markov Models (HHMM) のオブジェクト指向Python実装である。
PyHHMMは、異種観測モデル、データ推論の欠如、異なるモデルの順序選択基準、半教師付きトレーニングなど、同様のフレームワークではサポートされない機能を強調している。
PyHHMMは、numpy、scipy、scikit-learn、およびシーボーンPythonパッケージに依存しており、Apache-2.0ライセンスの下で配布されている。
論文 参考訳(メタデータ) (2022-01-12T07:32:36Z) - Identifying non-natural language artifacts in bug reports [1.464410818828473]
我々は,Pythonの行レベルにおいて,コンテンツを自然言語とアーティファクトに分類する機械学習ベースのアプローチを提案する。
GitHubのイシュートラッカからのデータを、自動トレーニングセット生成にどのように使用できるかを示します。
我々のモデルは手動でアノテートした検証セットに対して0.95ROC-AUCと0.93F1でスコアし、10k行を0.72秒で分類する。
論文 参考訳(メタデータ) (2021-10-04T11:33:51Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z) - Advaita: Bug Duplicity Detection System [1.9624064951902522]
重複バグ率(重複バグの%)は、製品の成熟度、コードのサイズ、プロジェクトに取り組んでいるエンジニアの数に基づいて、1桁(1~9%)から2桁(40%)の範囲にある。
重複の検出は、2つのバグが同じ意味を持つかどうかを識別する。
このアプローチでは、基本的なテキスト統計的特徴、意味的特徴、文脈的特徴など、複数の機能セットを考慮に入れている。
論文 参考訳(メタデータ) (2020-01-24T04:48:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。