Fugu-MT 論文翻訳(概要): An Empirical Study of API Misuses of Data-Centric Libraries

論文の概要: An Empirical Study of API Misuses of Data-Centric Libraries

arxiv url: http://arxiv.org/abs/2408.15853v1
Date: Wed, 28 Aug 2024 15:15:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-29 15:40:56.136760
Title: An Empirical Study of API Misuses of Data-Centric Libraries
Title（参考訳）: データ中心ライブラリのAPI誤用に関する実証的研究
Authors: Akalanka Galappaththi, Sarah Nadi, Christoph Treude,
Abstract要約: 本稿では,データ処理,数値計算,機械学習,可視化などの分野をカバーする5つのデータ中心ライブラリのAPI誤用に関する実証的研究を行う。 Stack OverflowとGitHubのデータを分析することで、これらのライブラリの誤用を特定します。
参考スコア（独自算出の注目度）: 9.667988837321943
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Developers rely on third-party library Application Programming Interfaces (APIs) when developing software. However, libraries typically come with assumptions and API usage constraints, whose violation results in API misuse. API misuses may result in crashes or incorrect behavior. Even though API misuse is a well-studied area, a recent study of API misuse of deep learning libraries showed that the nature of these misuses and their symptoms are different from misuses of traditional libraries, and as a result highlighted potential shortcomings of current misuse detection tools. We speculate that these observations may not be limited to deep learning API misuses but may stem from the data-centric nature of these APIs. Data-centric libraries often deal with diverse data structures, intricate processing workflows, and a multitude of parameters, which can make them inherently more challenging to use correctly. Therefore, understanding the potential misuses of these libraries is important to avoid unexpected application behavior. To this end, this paper contributes an empirical study of API misuses of five data-centric libraries that cover areas such as data processing, numerical computation, machine learning, and visualization. We identify misuses of these libraries by analyzing data from both Stack Overflow and GitHub. Our results show that many of the characteristics of API misuses observed for deep learning libraries extend to misuses of the data-centric library APIs we study. We also find that developers tend to misuse APIs from data-centric libraries, regardless of whether the API directive appears in the documentation. Overall, our work exposes the challenges of API misuse in data-centric libraries, rather than only focusing on deep learning libraries. Our collected misuses and their characterization lay groundwork for future research to help reduce misuses of these libraries.
Abstract（参考訳）: 開発者はソフトウェア開発において、サードパーティのライブラリであるアプリケーションプログラミングインタフェース(API)に依存している。しかし、ライブラリは通常、仮定とAPI使用制限が伴い、その違反がAPIの誤用につながる。 APIの誤用はクラッシュや誤った動作を引き起こします。 API誤用はよく研究されている分野だが、最近のディープラーニングライブラリのAPI誤用の研究により、これらの誤用の性質と症状は従来のライブラリの誤用とは異なることが示され、その結果、現在の誤用検出ツールの潜在的な欠点が浮かび上がった。これらの観察は、ディープラーニングAPIの誤用に限らず、データ中心のAPIの性質に起因しているのではないかと推測する。データ中心のライブラリは、多種多様なデータ構造、複雑な処理ワークフロー、および多数のパラメータを扱うことが多い。したがって、これらのライブラリの潜在的な誤用を理解することは、予期せぬアプリケーションの振る舞いを避けるために重要である。そこで本研究では,データ処理,数値計算,機械学習,可視化といった分野をカバーする5つのデータ中心ライブラリのAPI誤用に関する実証的研究を行った。 Stack OverflowとGitHubのデータを分析することで、これらのライブラリの誤用を特定します。その結果,ディープラーニングライブラリで観察されるAPI誤用の特徴の多くは,私たちが研究しているデータ中心ライブラリAPIの誤用にまで及んでいることがわかった。また、APIディレクティブがドキュメントに現れるかどうかに関わらず、開発者はデータ中心のライブラリからAPIを誤用する傾向があることもわかりました。全体として、私たちの研究は、ディープラーニングライブラリのみに焦点を当てるのではなく、データ中心のライブラリでAPIを誤用するという課題を明らかにしています。収集した誤用とその特徴は,これらの図書館の誤用を減らすために,今後の研究の土台となった。

関連論文リスト

Framework-Aware Code Generation with API Knowledge Graph-Constructed Data: A Study on HarmonyOS [52.483888557864326]
APIKG4SYNはAPI指向の質問コードペアの構築にAPIナレッジグラフを活用するように設計されたフレームワークである。 APIKG4SYNを使ったHarmonyOSコード生成のための最初のベンチマークを構築した。
論文参考訳（メタデータ） (2025-11-29T08:13:54Z)
Detecting and Fixing API Misuses of Data Science Libraries Using Large Language Models [0.6958509696068848]
本稿では,データサイエンスライブラリのAPI誤用を検出し,修正するためのLCMベースのアプローチであるDSCHECKERを紹介する。 APIの誤用の検出と修正に有用な2つの重要な情報、すなわちAPIディレクティブとデータ情報を特定します。ドシェッカー剤は48.65パーセントのF1スコアを検出でき、誤用の39.47パーセントを修正している。
論文参考訳（メタデータ） (2025-09-29T18:30:02Z)
Applications and Challenges of Fairness APIs in Machine Learning Software [3.3383488302533997]
バイアス検出と緩和オープンソースのソフトウェアライブラリ(別名APIライブラリ)が開発され、使用されている。本稿では,これらのオープンソースフェアネスAPIがどのようなシナリオで利用されているかを理解するための質的研究を行う。 MLソフトウェアのバイアスに対処するために開発された13のAPIを使用した204のGitHubリポジトリを分析した。
論文参考訳（メタデータ） (2025-08-22T13:33:37Z)
An Empirical Study of Bugs in Data Visualization Libraries [7.75848222829394]
本研究では,5つの広く使用されているライブラリから収集された564個のバグを調査し,DataVizライブラリのバグの包括的解析を行った。その結果,DataVizライブラリでは誤り/不正確なプロットが広まっており,誤ったグラフィック計算が主な原因であることが判明した。このようなバグをトリガーする8つの重要なステップと、DataVizライブラリ特有の2つのテストオラクルを特定しました。
論文参考訳（メタデータ） (2025-06-18T02:49:09Z)
Understanding API Usage and Testing: An Empirical Study of C Libraries [0.2532202013576546]
この研究は、C/C++エコシステムの規模でAPI使用率とAPIテストを比較する最初のものである。我々はLibProbeを開発した。LibProbeはライブラリの大規模なコーパスを分析できるフレームワークだ。
論文参考訳（メタデータ） (2025-06-13T09:07:16Z)
Your Fix Is My Exploit: Enabling Comprehensive DL Library API Fuzzing with Large Language Models [49.214291813478695]
AIアプリケーションで広く使用されているディープラーニング(DL)ライブラリは、オーバーフローやバッファフリーエラーなどの脆弱性を含むことが多い。従来のファジィングはDLライブラリの複雑さとAPIの多様性に悩まされている。 DLライブラリのためのLLM駆動ファジィ手法であるDFUZZを提案する。
論文参考訳（メタデータ） (2025-01-08T07:07:22Z)
Subgraph-Oriented Testing for Deep Learning Libraries [9.78188667672054]
我々は,異なるハードウェアプラットフォーム上でディープラーニング(DL)ライブラリをテストするためのSORT(Subgraph-Oriented Realistic Testing)を提案する。 SORTは、テスト対象として、しばしばモデルグラフのサブグラフとして表現される、人気のあるAPIインタラクションパターンを採用している。 SORTは100%有効な入力生成率を実現し、既存のメソッドよりも精度の高いバグを検出し、シングルAPIテストで欠落したインタラクション関連のバグを明らかにする。
論文参考訳（メタデータ） (2024-12-09T12:10:48Z)
ExploraCoder: Advancing code generation for multiple unseen APIs via planning and chained exploration [70.26807758443675]
ExploraCoderはトレーニング不要のフレームワークで、大規模な言語モデルにコードソリューションで見えないAPIを呼び出す権限を与える。 ExploraCoderは,事前のAPI知識を欠いたモデルのパフォーマンスを著しく向上させ,NAGアプローチの11.24%,pass@10の事前トレーニングメソッドの14.07%を絶対的に向上させることを示す。
論文参考訳（メタデータ） (2024-12-06T19:00:15Z)
The Seeds of the FUTURE Sprout from History: Fuzzing for Unveiling Vulnerabilities in Prospective Deep-Learning Libraries [14.260990784121423]
Futureは、新しく導入され、将来的なDLライブラリ用に調整された最初のユニバーサルファジィフレームワークである。既存のライブラリからの履歴バグ情報と、特殊なコード生成のための微調整LDMを使用する。バグ検出、バグ再現の成功率、コード生成の妥当性、APIカバレッジにおいて、既存のファジィアよりも大幅に優れています。
論文参考訳（メタデータ） (2024-12-02T09:33:28Z)
A Systematic Evaluation of Large Code Models in API Suggestion: When, Which, and How [53.65636914757381]
API提案は、現代のソフトウェア開発において重要なタスクである。大規模コードモデル(LCM)の最近の進歩は、API提案タスクにおいて有望であることを示している。
論文参考訳（メタデータ） (2024-09-20T03:12:35Z)
A Solution-based LLM API-using Methodology for Academic Information Seeking [49.096714812902576]
SoAyは学術情報検索のためのソリューションベースのLLM API利用方法論である。ソリューションが事前に構築されたAPI呼び出しシーケンスである場合、推論メソッドとしてソリューションを備えたコードを使用する。その結果、最先端のLLM APIベースのベースラインと比較して34.58-75.99%のパフォーマンス改善が見られた。
論文参考訳（メタデータ） (2024-05-24T02:44:14Z)
Lightweight Syntactic API Usage Analysis with UCov [0.0]
本稿では,ライブラリメンテナのAPIによるインタラクション理解を支援するための,新しい概念フレームワークを提案する。これらのカスタマイズ可能なモデルにより、ライブラリメンテナはリリース前に設計を改善することができ、進化中の摩擦を減らすことができる。我々は,これらのモデルを新しいツールUCovに実装し,多様なインタラクションスタイルを示す3つのライブラリ上でその能力を実証する。
論文参考訳（メタデータ） (2024-02-19T10:33:41Z)
Causal-learn: Causal Discovery in Python [53.17423883919072]
因果発見は、観測データから因果関係を明らかにすることを目的としている。 $textitcausal-learn$は因果発見のためのオープンソースのPythonライブラリである。
論文参考訳（メタデータ） (2023-07-31T05:00:35Z)
Private-Library-Oriented Code Generation with Large Language Models [52.73999698194344]
本稿では,大規模言語モデル(LLM)をプライベートライブラリのコード生成に活用することに焦点を当てる。プログラマがプライベートコードを書く過程をエミュレートする新しいフレームワークを提案する。 TorchDataEval、TorchDataComplexEval、MonkeyEval、BeatNumEvalの4つのプライベートライブラリベンチマークを作成しました。
論文参考訳（メタデータ） (2023-07-28T07:43:13Z)
An Empirical Study on Bugs Inside PyTorch: A Replication Study [10.848682558737494]
私たちは、非常に人気のあるディープラーニングフレームワークであるPyTorchライブラリのバグを特徴付けています。私たちの結果は、PyTorchのバグはディープラーニングの特徴よりも、従来のソフトウェアプロジェクトのバグに近いことを強調しています。
論文参考訳（メタデータ） (2023-07-25T19:23:55Z)
LibAUC: A Deep Learning Library for X-Risk Optimization [43.32145407575245]
本稿では,LibAUC という賞を受賞したディープラーニングライブラリについて紹介する。 LibAUCは、Xリスクと呼ばれるリスク関数のファミリーを最適化するための最先端のアルゴリズムを実装している。
論文参考訳（メタデータ） (2023-06-05T17:43:46Z)
torchgfn: A PyTorch GFlowNet library [56.071033896777784]
torchgfnはPyTorchライブラリで、このニーズに対処することを目指している。環境のためのシンプルなAPIと、サンプルと損失のための有用な抽象化を提供する。
論文参考訳（メタデータ） (2023-05-24T00:20:59Z)
SequeL: A Continual Learning Library in PyTorch and JAX [50.33956216274694]
SequeLは継続学習のためのライブラリで、PyTorchとJAXフレームワークの両方をサポートする。それは、正規化ベースのアプローチ、リプレイベースのアプローチ、ハイブリッドアプローチを含む、幅広い連続学習アルゴリズムのための統一インターフェースを提供する。私たちはSequeLをオープンソースライブラリとしてリリースし、研究者や開発者が自身の目的で簡単にライブラリを実験し拡張することができます。
論文参考訳（メタデータ） (2023-04-21T10:00:22Z)
Do Not Take It for Granted: Comparing Open-Source Libraries for Software Development Effort Estimation [9.224578642189023]
本稿では、ソフトウェア開発努力推定(SEE)に異なる機械学習(ML)ライブラリを使用する場合の差異に対する意識を高めることを目的とする。各種言語(Scikit-Learn, Caret, Weka)で書かれた最も人気のあるMLオープンソースライブラリの3つで提供される決定論的機械学習について検討する。本研究の結果,3つの図書館で提供される予測は,平均95%のケースで,合計105ケースで異なることがわかった。
論文参考訳（メタデータ） (2022-07-04T20:06:40Z)
giotto-tda: A Topological Data Analysis Toolkit for Machine Learning and Data Exploration [4.8353738137338755]
giotto-tdaは、高性能なトポロジカルデータ分析と機械学習を統合するPythonライブラリである。このライブラリの様々な種類のデータを扱う能力は、幅広い事前処理技術に根ざしている。
論文参考訳（メタデータ） (2020-04-06T10:53:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。