論文の概要: An Empirical Study of API Misuses of Data-Centric Libraries
- arxiv url: http://arxiv.org/abs/2408.15853v1
- Date: Wed, 28 Aug 2024 15:15:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-29 15:40:56.136760
- Title: An Empirical Study of API Misuses of Data-Centric Libraries
- Title(参考訳): データ中心ライブラリのAPI誤用に関する実証的研究
- Authors: Akalanka Galappaththi, Sarah Nadi, Christoph Treude,
- Abstract要約: 本稿では,データ処理,数値計算,機械学習,可視化などの分野をカバーする5つのデータ中心ライブラリのAPI誤用に関する実証的研究を行う。
Stack OverflowとGitHubのデータを分析することで、これらのライブラリの誤用を特定します。
- 参考スコア(独自算出の注目度): 9.667988837321943
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Developers rely on third-party library Application Programming Interfaces (APIs) when developing software. However, libraries typically come with assumptions and API usage constraints, whose violation results in API misuse. API misuses may result in crashes or incorrect behavior. Even though API misuse is a well-studied area, a recent study of API misuse of deep learning libraries showed that the nature of these misuses and their symptoms are different from misuses of traditional libraries, and as a result highlighted potential shortcomings of current misuse detection tools. We speculate that these observations may not be limited to deep learning API misuses but may stem from the data-centric nature of these APIs. Data-centric libraries often deal with diverse data structures, intricate processing workflows, and a multitude of parameters, which can make them inherently more challenging to use correctly. Therefore, understanding the potential misuses of these libraries is important to avoid unexpected application behavior. To this end, this paper contributes an empirical study of API misuses of five data-centric libraries that cover areas such as data processing, numerical computation, machine learning, and visualization. We identify misuses of these libraries by analyzing data from both Stack Overflow and GitHub. Our results show that many of the characteristics of API misuses observed for deep learning libraries extend to misuses of the data-centric library APIs we study. We also find that developers tend to misuse APIs from data-centric libraries, regardless of whether the API directive appears in the documentation. Overall, our work exposes the challenges of API misuse in data-centric libraries, rather than only focusing on deep learning libraries. Our collected misuses and their characterization lay groundwork for future research to help reduce misuses of these libraries.
- Abstract(参考訳): 開発者はソフトウェア開発において、サードパーティのライブラリであるアプリケーションプログラミングインタフェース(API)に依存している。
しかし、ライブラリは通常、仮定とAPI使用制限が伴い、その違反がAPIの誤用につながる。
APIの誤用はクラッシュや誤った動作を引き起こします。
API誤用はよく研究されている分野だが、最近のディープラーニングライブラリのAPI誤用の研究により、これらの誤用の性質と症状は従来のライブラリの誤用とは異なることが示され、その結果、現在の誤用検出ツールの潜在的な欠点が浮かび上がった。
これらの観察は、ディープラーニングAPIの誤用に限らず、データ中心のAPIの性質に起因しているのではないかと推測する。
データ中心のライブラリは、多種多様なデータ構造、複雑な処理ワークフロー、および多数のパラメータを扱うことが多い。
したがって、これらのライブラリの潜在的な誤用を理解することは、予期せぬアプリケーションの振る舞いを避けるために重要である。
そこで本研究では,データ処理,数値計算,機械学習,可視化といった分野をカバーする5つのデータ中心ライブラリのAPI誤用に関する実証的研究を行った。
Stack OverflowとGitHubのデータを分析することで、これらのライブラリの誤用を特定します。
その結果,ディープラーニングライブラリで観察されるAPI誤用の特徴の多くは,私たちが研究しているデータ中心ライブラリAPIの誤用にまで及んでいることがわかった。
また、APIディレクティブがドキュメントに現れるかどうかに関わらず、開発者はデータ中心のライブラリからAPIを誤用する傾向があることもわかりました。
全体として、私たちの研究は、ディープラーニングライブラリのみに焦点を当てるのではなく、データ中心のライブラリでAPIを誤用するという課題を明らかにしています。
収集した誤用とその特徴は,これらの図書館の誤用を減らすために,今後の研究の土台となった。
関連論文リスト
- A Systematic Evaluation of Large Code Models in API Suggestion: When, Which, and How [53.65636914757381]
API提案は、現代のソフトウェア開発において重要なタスクである。
大規模コードモデル(LCM)の最近の進歩は、API提案タスクにおいて有望であることを示している。
論文 参考訳(メタデータ) (2024-09-20T03:12:35Z) - A Solution-based LLM API-using Methodology for Academic Information Seeking [49.096714812902576]
SoAyは学術情報検索のためのソリューションベースのLLM API利用方法論である。
ソリューションが事前に構築されたAPI呼び出しシーケンスである場合、推論メソッドとしてソリューションを備えたコードを使用する。
その結果、最先端のLLM APIベースのベースラインと比較して34.58-75.99%のパフォーマンス改善が見られた。
論文 参考訳(メタデータ) (2024-05-24T02:44:14Z) - Lightweight Syntactic API Usage Analysis with UCov [0.0]
本稿では,ライブラリメンテナのAPIによるインタラクション理解を支援するための,新しい概念フレームワークを提案する。
これらのカスタマイズ可能なモデルにより、ライブラリメンテナはリリース前に設計を改善することができ、進化中の摩擦を減らすことができる。
我々は,これらのモデルを新しいツールUCovに実装し,多様なインタラクションスタイルを示す3つのライブラリ上でその能力を実証する。
論文 参考訳(メタデータ) (2024-02-19T10:33:41Z) - Causal-learn: Causal Discovery in Python [53.17423883919072]
因果発見は、観測データから因果関係を明らかにすることを目的としている。
$textitcausal-learn$は因果発見のためのオープンソースのPythonライブラリである。
論文 参考訳(メタデータ) (2023-07-31T05:00:35Z) - Private-Library-Oriented Code Generation with Large Language Models [52.73999698194344]
本稿では,大規模言語モデル(LLM)をプライベートライブラリのコード生成に活用することに焦点を当てる。
プログラマがプライベートコードを書く過程をエミュレートする新しいフレームワークを提案する。
TorchDataEval、TorchDataComplexEval、MonkeyEval、BeatNumEvalの4つのプライベートライブラリベンチマークを作成しました。
論文 参考訳(メタデータ) (2023-07-28T07:43:13Z) - An Empirical Study on Bugs Inside PyTorch: A Replication Study [10.848682558737494]
私たちは、非常に人気のあるディープラーニングフレームワークであるPyTorchライブラリのバグを特徴付けています。
私たちの結果は、PyTorchのバグはディープラーニングの特徴よりも、従来のソフトウェアプロジェクトのバグに近いことを強調しています。
論文 参考訳(メタデータ) (2023-07-25T19:23:55Z) - LibAUC: A Deep Learning Library for X-Risk Optimization [43.32145407575245]
本稿では,LibAUC という賞を受賞したディープラーニングライブラリについて紹介する。
LibAUCは、Xリスクと呼ばれるリスク関数のファミリーを最適化するための最先端のアルゴリズムを実装している。
論文 参考訳(メタデータ) (2023-06-05T17:43:46Z) - torchgfn: A PyTorch GFlowNet library [56.071033896777784]
torchgfnはPyTorchライブラリで、このニーズに対処することを目指している。
環境のためのシンプルなAPIと、サンプルと損失のための有用な抽象化を提供する。
論文 参考訳(メタデータ) (2023-05-24T00:20:59Z) - SequeL: A Continual Learning Library in PyTorch and JAX [50.33956216274694]
SequeLは継続学習のためのライブラリで、PyTorchとJAXフレームワークの両方をサポートする。
それは、正規化ベースのアプローチ、リプレイベースのアプローチ、ハイブリッドアプローチを含む、幅広い連続学習アルゴリズムのための統一インターフェースを提供する。
私たちはSequeLをオープンソースライブラリとしてリリースし、研究者や開発者が自身の目的で簡単にライブラリを実験し拡張することができます。
論文 参考訳(メタデータ) (2023-04-21T10:00:22Z) - Do Not Take It for Granted: Comparing Open-Source Libraries for Software
Development Effort Estimation [9.224578642189023]
本稿では、ソフトウェア開発努力推定(SEE)に異なる機械学習(ML)ライブラリを使用する場合の差異に対する意識を高めることを目的とする。
各種言語(Scikit-Learn, Caret, Weka)で書かれた最も人気のあるMLオープンソースライブラリの3つで提供される決定論的機械学習について検討する。
本研究の結果,3つの図書館で提供される予測は,平均95%のケースで,合計105ケースで異なることがわかった。
論文 参考訳(メタデータ) (2022-07-04T20:06:40Z) - giotto-tda: A Topological Data Analysis Toolkit for Machine Learning and
Data Exploration [4.8353738137338755]
giotto-tdaは、高性能なトポロジカルデータ分析と機械学習を統合するPythonライブラリである。
このライブラリの様々な種類のデータを扱う能力は、幅広い事前処理技術に根ざしている。
論文 参考訳(メタデータ) (2020-04-06T10:53:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。