論文の概要: Beyond Accuracy: An Empirical Study on Unit Testing in Open-source Deep
Learning Projects
- arxiv url: http://arxiv.org/abs/2402.16546v1
- Date: Mon, 26 Feb 2024 13:08:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 13:37:24.660432
- Title: Beyond Accuracy: An Empirical Study on Unit Testing in Open-source Deep
Learning Projects
- Title(参考訳): beyond accuracy: オープンソースのディープラーニングプロジェクトにおけるユニットテストに関する実証的研究
- Authors: Han Wang, Sijia Yu, Chunyang Chen, Burak Turhan, Xiaodong Zhu
- Abstract要約: ディープラーニング(DL)モデルは急速に進歩し、モデルの精度と堅牢性をテストすることによって高いパフォーマンスを達成することに重点を置いている。
DLプロジェクトは、ソフトウェアシステムとして、他のソフトウェアシステムのように扱い、テストする必要がある場合、徹底的にテストされるか、機能的に正しいかは定かではない。
オープンソースのDLプロジェクトでユニットテストを経験的に研究し、GitHubから9,129のプロジェクトを分析しました。
- 参考スコア(独自算出の注目度): 24.712437703214547
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Learning (DL) models have rapidly advanced, focusing on achieving high
performance through testing model accuracy and robustness. However, it is
unclear whether DL projects, as software systems, are tested thoroughly or
functionally correct when there is a need to treat and test them like other
software systems. Therefore, we empirically study the unit tests in open-source
DL projects, analyzing 9,129 projects from GitHub. We find that: 1) unit tested
DL projects have positive correlation with the open-source project metrics and
have a higher acceptance rate of pull requests, 2) 68% of the sampled DL
projects are not unit tested at all, 3) the layer and utilities (utils) of DL
models have the most unit tests. Based on these findings and previous research
outcomes, we built a mapping taxonomy between unit tests and faults in DL
projects. We discuss the implications of our findings for developers and
researchers and highlight the need for unit testing in open-source DL projects
to ensure their reliability and stability. The study contributes to this
community by raising awareness of the importance of unit testing in DL projects
and encouraging further research in this area.
- Abstract(参考訳): ディープラーニング(DL)モデルは急速に進歩し、モデルの精度と堅牢性をテストすることによって高いパフォーマンスを達成することに重点を置いている。
しかし、DLプロジェクトがソフトウェアシステムとして、他のソフトウェアシステムのように扱い、テストする必要がある場合、徹底的に、あるいは機能的に正しいかどうかは不明である。
そこで我々は,オープンソースdlプロジェクトのユニットテストを実証的に研究し,githubの9,129プロジェクトを分析した。
私たちはそれを見つけました
1) ユニットテストDLプロジェクトはオープンソースプロジェクトのメトリクスと正の相関を持ち,プルリクエストの受け入れ率が高い。
2)サンプルDLプロジェクトの68%は単体テストを受けていない。
3)DLモデルのレイヤとユーティリティ(ユーティリティ)は、最もユニットテストを受けています。
これらの知見と過去の研究成果に基づいて,DLプロジェクトにおけるユニットテストと障害のマッピング分類を構築した。
我々は、この発見が開発者や研究者に与える影響を議論し、その信頼性と安定性を確保するためにオープンソースdlプロジェクトでの単体テストの必要性を強調する。
この研究は、DLプロジェクトにおける単体テストの重要性の認識を高め、この分野のさらなる研究を奨励することで、このコミュニティに貢献する。
関連論文リスト
- Which Combination of Test Metrics Can Predict Success of a Software Project? A Case Study in a Year-Long Project Course [1.553083901660282]
テストはソフトウェア開発プロジェクトの成功を保証する上で重要な役割を担います。
種々のテストが機能的適合性に与える影響を定量化できるかどうかを検討する。
論文 参考訳(メタデータ) (2024-08-22T04:23:51Z) - A System for Automated Unit Test Generation Using Large Language Models and Assessment of Generated Test Suites [1.4563527353943984]
大規模言語モデル(LLM)はソフトウェア開発の様々な側面に適用されている。
Javaプロジェクトのテストスイートを生成する自動化システムであるAgoneTestを紹介します。
論文 参考訳(メタデータ) (2024-08-14T23:02:16Z) - A Tale of Two DL Cities: When Library Tests Meet Compiler [12.751626834965231]
DLライブラリのテスト入力からドメイン知識を抽出するOPERAを提案する。
OPERAはDLライブラリの様々なテストインプットから様々なテストを構築する。
多様性に基づくテストの優先順位付け戦略を取り入れて、これらのテストインプットを移行し実行します。
論文 参考訳(メタデータ) (2024-07-23T16:35:45Z) - Automatic benchmarking of large multimodal models via iterative experiment programming [71.78089106671581]
本稿では,LMMの自動ベンチマークのための最初のフレームワークであるAPExを紹介する。
自然言語で表現された研究の質問に対して、APExは大きな言語モデル(LLM)と事前定義されたツールのライブラリを活用して、手元にあるモデルの一連の実験を生成する。
調査の現在の状況に基づいて、APExはどの実験を行うか、結果が結論を引き出すのに十分かどうかを選択する。
論文 参考訳(メタデータ) (2024-06-18T06:43:46Z) - Testing in the Evolving World of DL Systems:Insights from Python GitHub Projects [4.171555557592296]
本研究では、GitHubのDLプロジェクトにおけるテストプラクティスについて調査する。
テスト自動化、テストの種類(ユニットテスト、インテグレーション、システムなど)、テストスイートの成長率、さまざまなプロジェクトバージョンにおけるテストプラクティスの進化といった側面に焦点を当てています。
論文 参考訳(メタデータ) (2024-05-30T11:58:05Z) - How is Testing Related to Single Statement Bugs? [0.25782420501870285]
GitHubのトップ100のMavenベースのプロジェクトからのデータを分析しました。
以上の結果より, SSBの増加はSSBの発生をやや減少させる可能性が示唆された。
論文 参考訳(メタデータ) (2024-03-27T03:31:00Z) - DevBench: A Comprehensive Benchmark for Software Development [72.24266814625685]
DevBenchは、ソフトウェア開発ライフサイクルのさまざまな段階にわたる大規模言語モデル(LLM)を評価するベンチマークである。
GPT-4-Turboを含む現在のLLMは、DevBench内での課題の解決に失敗している。
本研究は,LLMを現実のプログラミングアプリケーションに展開する上で,現実的な知見を提供するものである。
論文 参考訳(メタデータ) (2024-03-13T15:13:44Z) - DevEval: Evaluating Code Generation in Practical Software Projects [52.16841274646796]
我々はDevEvalという名の新しいベンチマークを提案し、実践プロジェクトにおける開発者の経験と一致している。
DevEvalは、119の実用的なプロジェクトから2,690のサンプルを含む厳格なパイプラインを通じて収集される。
DevEvalの5つの人気のあるLCMを評価し、コード生成における実際の能力を明らかにする。
論文 参考訳(メタデータ) (2024-01-12T06:51:30Z) - LeanDojo: Theorem Proving with Retrieval-Augmented Language Models [72.54339382005732]
大規模言語モデル(LLM)は、Leanのような証明アシスタントを使って形式的な定理を証明することを約束している。
既存のメソッドは、プライベートコード、データ、計算要求のために、複製や構築が難しい。
本稿では、ツールキット、データ、モデルからなるオープンソースのリーンツールキットであるLeanDojoを紹介します。
本研究では,LLM ベースの証明器 ReProver を開発した。
論文 参考訳(メタデータ) (2023-06-27T17:05:32Z) - Self-Checker: Plug-and-Play Modules for Fact-Checking with Large Language Models [75.75038268227554]
Self-Checkerはファクトチェックを容易にするプラグインとプレイモジュールからなるフレームワークである。
このフレームワークは、低リソース環境でファクトチェックシステムを構築するための、高速で効率的な方法を提供する。
論文 参考訳(メタデータ) (2023-05-24T01:46:07Z) - A Survey of Deep Active Learning [54.376820959917005]
アクティブラーニング(AL)は、最も少ないサンプルをマークすることで、モデルの性能向上を最大化しようとする。
ディープラーニング(DL)はデータに対して欲張りであり、大量のパラメータを最適化するために大量のデータ供給を必要とする。
ディープラーニング(Deep Active Learning, DAL)が誕生した。
論文 参考訳(メタデータ) (2020-08-30T04:28:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。