論文の概要: Do Not Take It for Granted: Comparing Open-Source Libraries for Software
Development Effort Estimation
- arxiv url: http://arxiv.org/abs/2207.01705v1
- Date: Mon, 4 Jul 2022 20:06:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-06 15:56:15.180287
- Title: Do Not Take It for Granted: Comparing Open-Source Libraries for Software
Development Effort Estimation
- Title(参考訳): 認めざるを得ない - ソフトウェア開発のためのオープンソースライブラリの比較
- Authors: Rebecca Moussa and Federica Sarro
- Abstract要約: 本稿では、ソフトウェア開発努力推定(SEE)に異なる機械学習(ML)ライブラリを使用する場合の差異に対する意識を高めることを目的とする。
各種言語(Scikit-Learn, Caret, Weka)で書かれた最も人気のあるMLオープンソースライブラリの3つで提供される決定論的機械学習について検討する。
本研究の結果,3つの図書館で提供される予測は,平均95%のケースで,合計105ケースで異なることがわかった。
- 参考スコア(独自算出の注目度): 9.224578642189023
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the past two decades, several Machine Learning (ML) libraries have become
freely available. Many studies have used such libraries to carry out empirical
investigations on predictive Software Engineering (SE) tasks. However, the
differences stemming from using one library over another have been overlooked,
implicitly assuming that using any of these libraries would provide the user
with the same or very similar results. This paper aims at raising awareness of
the differences incurred when using different ML libraries for software
development effort estimation (SEE), one of most widely studied SE prediction
tasks. To this end, we investigate 4 deterministic machine learners as provided
by 3 of the most popular ML open-source libraries written in different
languages (namely, Scikit-Learn, Caret and Weka). We carry out a thorough
empirical study comparing the performance of the machine learners on 5 SEE
datasets in the two most common SEE scenarios (i.e., out-of-the-box-ml and
tuned-ml) as well as an in-depth analysis of the documentation and code of
their APIs. The results of our study reveal that the predictions provided by
the 3 libraries differ in 95% of the cases on average across a total of 105
cases studied. These differences are significantly large in most cases and
yield misestimations of up to approx. 3,000 hours per project. Moreover, our
API analysis reveals that these libraries provide the user with different
levels of control on the parameters one can manipulate, and a lack of clarity
and consistency, overall, which might mislead users. Our findings highlight
that the ML library is an important design choice for SEE studies, which can
lead to a difference in performance. However, such a difference is
under-documented. We conclude by highlighting open-challenges with suggestions
for the developers of libraries as well as for the researchers and
practitioners using them.
- Abstract(参考訳): 過去20年間で、いくつかの機械学習(ML)ライブラリが無料で利用可能になった。
多くの研究は、予測ソフトウェア工学(SE)タスクに関する実証的な調査を行うためにそのようなライブラリを使っている。
しかし、あるライブラリを別のライブラリで使用することに起因する違いは見過ごされ、これらのライブラリを使用すると、同じか非常に似た結果が得られると暗黙的に仮定している。
本稿では,ソフトウェア開発作業推定(SEE)に異なるMLライブラリを使用した場合の差異に対する意識を高めることを目的としている。
そこで我々は,さまざまな言語(Scikit-Learn, Caret, Weka)で書かれた最も人気のあるMLオープンソースライブラリのうち,3つが提供する決定論的機械学習について検討した。
私たちは、最もよく見られる2つのシナリオ(アウトオブボックスmlとtuned-ml)のデータセットと、apiのドキュメンテーションとコードを詳細に分析した、機械学習の性能比較を行い、徹底的な実証研究を行いました。
本研究の結果から,3つの図書館が提供する予測は,平均95%のケースで105のケースで異なることが明らかとなった。
これらの違いは、ほとんどのケースにおいて著しく大きく、最大で近似の誤推定をもたらす。
1プロジェクトあたり3000時間。
さらに当社のapi分析では,これらのライブラリがユーザに対して,操作可能なパラメータのコントロールレベルの違いと,ユーザを誤解させる可能性のある明確性と一貫性の欠如を明らかにした。
この結果から,MLライブラリはSEE研究において重要な設計選択であり,性能の違いにつながる可能性が示唆された。
しかし、そのような違いは文書化されていない。
最後に,オープンチャレングを強調して,ライブラリの開発者や,それを使用する研究者や実践者への提案を行った。
関連論文リスト
- Library Learning Doesn't: The Curious Case of the Single-Use "Library" [20.25809428140996]
LEGO-ProverとTroVEの2つのライブラリ学習システムについて検討した。
機能再利用は miniF2F と MATH では極めて稀である。
我々の追跡実験は、再利用よりも自己補正と自己整合が、観察されたパフォーマンス向上の主要な要因であることを示唆している。
論文 参考訳(メタデータ) (2024-10-26T21:05:08Z) - An Empirical Study of API Misuses of Data-Centric Libraries [9.667988837321943]
本稿では,データ処理,数値計算,機械学習,可視化などの分野をカバーする5つのデータ中心ライブラリのAPI誤用に関する実証的研究を行う。
Stack OverflowとGitHubのデータを分析することで、これらのライブラリの誤用を特定します。
論文 参考訳(メタデータ) (2024-08-28T15:15:52Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - LLMBox: A Comprehensive Library for Large Language Models [109.15654830320553]
本稿では,大規模言語モデル (LLM) の開発, 使用, 評価を容易にするために, 包括的で統一されたライブラリ LLMBox を提案する。
このライブラリには,(1)多様なトレーニング戦略の柔軟な実装を支援する統一データインターフェース,(2)広範囲なタスクやデータセット,モデルをカバーする包括的な評価,(3)ユーザフレンドリさや効率性など,より実践的な考慮,という3つのメリットがある。
論文 参考訳(メタデータ) (2024-07-08T02:39:33Z) - Towards Coarse-to-Fine Evaluation of Inference Efficiency for Large Language Models [95.96734086126469]
大規模言語モデル(LLM)は、ユーザが仕事を達成するのを助けるアシスタントとして機能し、高度なアプリケーションの開発をサポートする。
LLMの幅広い応用にとって、推論効率は重要な問題であり、既存の研究で広く研究されている。
各種コードライブラリの推論性能の粗大な解析を行う。
論文 参考訳(メタデータ) (2024-04-17T15:57:50Z) - Lightweight Syntactic API Usage Analysis with UCov [0.0]
本稿では,ライブラリメンテナのAPIによるインタラクション理解を支援するための,新しい概念フレームワークを提案する。
これらのカスタマイズ可能なモデルにより、ライブラリメンテナはリリース前に設計を改善することができ、進化中の摩擦を減らすことができる。
我々は,これらのモデルを新しいツールUCovに実装し,多様なインタラクションスタイルを示す3つのライブラリ上でその能力を実証する。
論文 参考訳(メタデータ) (2024-02-19T10:33:41Z) - Evaluating In-Context Learning of Libraries for Code Generation [35.57902679044737]
大規模言語モデル(LLM)は高いレベルのコード生成と理解能力を示す。
近年の研究では、大規模プロプライエタリなLLMがデモから新しいライブラリの使用法を学習できることが示されている。
論文 参考訳(メタデータ) (2023-11-16T07:37:25Z) - Large Language Model-Aware In-Context Learning for Code Generation [75.68709482932903]
大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。
コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習ベース選択手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T06:12:58Z) - SequeL: A Continual Learning Library in PyTorch and JAX [50.33956216274694]
SequeLは継続学習のためのライブラリで、PyTorchとJAXフレームワークの両方をサポートする。
それは、正規化ベースのアプローチ、リプレイベースのアプローチ、ハイブリッドアプローチを含む、幅広い連続学習アルゴリズムのための統一インターフェースを提供する。
私たちはSequeLをオープンソースライブラリとしてリリースし、研究者や開発者が自身の目的で簡単にライブラリを実験し拡張することができます。
論文 参考訳(メタデータ) (2023-04-21T10:00:22Z) - An Empirical Study of Library Usage and Dependency in Deep Learning
Frameworks [12.624032509149869]
ピトルチ、カフェ、シキットルンはプロジェクトの18%と14%で最も頻度の高い組み合わせである。
開発者は同じプロジェクトで2つか3つのdlライブラリを使用し、同じ関数と同じファイルの両方で異なる複数のdlライブラリを使用する傾向がある。
論文 参考訳(メタデータ) (2022-11-28T19:31:56Z) - LibFewShot: A Comprehensive Library for Few-shot Learning [78.58842209282724]
近年,画像分類に注目が集まり,近年顕著な進歩が見られた。
近年の研究では、データ強化、事前学習、知識蒸留、自己超越といった多くの一般的な手法や技法が、数発の学習法の性能を大幅に向上させる可能性があることが暗黙的に示されている。
そこで本研究では,PyTorchに固有の単一言語を組み込んだ一貫したフレームワークにおいて,17の最先端の複数ショット学習手法を再実装することにより,小ショット学習のための総合ライブラリ(LibFewShot)を提案する。
論文 参考訳(メタデータ) (2021-09-10T14:12:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。