論文の概要: Beyond Accuracy: An Empirical Study on Unit Testing in Open-source Deep
Learning Projects
- arxiv url: http://arxiv.org/abs/2402.16546v1
- Date: Mon, 26 Feb 2024 13:08:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 13:37:24.660432
- Title: Beyond Accuracy: An Empirical Study on Unit Testing in Open-source Deep
Learning Projects
- Title(参考訳): beyond accuracy: オープンソースのディープラーニングプロジェクトにおけるユニットテストに関する実証的研究
- Authors: Han Wang, Sijia Yu, Chunyang Chen, Burak Turhan, Xiaodong Zhu
- Abstract要約: ディープラーニング(DL)モデルは急速に進歩し、モデルの精度と堅牢性をテストすることによって高いパフォーマンスを達成することに重点を置いている。
DLプロジェクトは、ソフトウェアシステムとして、他のソフトウェアシステムのように扱い、テストする必要がある場合、徹底的にテストされるか、機能的に正しいかは定かではない。
オープンソースのDLプロジェクトでユニットテストを経験的に研究し、GitHubから9,129のプロジェクトを分析しました。
- 参考スコア(独自算出の注目度): 24.712437703214547
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Learning (DL) models have rapidly advanced, focusing on achieving high
performance through testing model accuracy and robustness. However, it is
unclear whether DL projects, as software systems, are tested thoroughly or
functionally correct when there is a need to treat and test them like other
software systems. Therefore, we empirically study the unit tests in open-source
DL projects, analyzing 9,129 projects from GitHub. We find that: 1) unit tested
DL projects have positive correlation with the open-source project metrics and
have a higher acceptance rate of pull requests, 2) 68% of the sampled DL
projects are not unit tested at all, 3) the layer and utilities (utils) of DL
models have the most unit tests. Based on these findings and previous research
outcomes, we built a mapping taxonomy between unit tests and faults in DL
projects. We discuss the implications of our findings for developers and
researchers and highlight the need for unit testing in open-source DL projects
to ensure their reliability and stability. The study contributes to this
community by raising awareness of the importance of unit testing in DL projects
and encouraging further research in this area.
- Abstract(参考訳): ディープラーニング(DL)モデルは急速に進歩し、モデルの精度と堅牢性をテストすることによって高いパフォーマンスを達成することに重点を置いている。
しかし、DLプロジェクトがソフトウェアシステムとして、他のソフトウェアシステムのように扱い、テストする必要がある場合、徹底的に、あるいは機能的に正しいかどうかは不明である。
そこで我々は,オープンソースdlプロジェクトのユニットテストを実証的に研究し,githubの9,129プロジェクトを分析した。
私たちはそれを見つけました
1) ユニットテストDLプロジェクトはオープンソースプロジェクトのメトリクスと正の相関を持ち,プルリクエストの受け入れ率が高い。
2)サンプルDLプロジェクトの68%は単体テストを受けていない。
3)DLモデルのレイヤとユーティリティ(ユーティリティ)は、最もユニットテストを受けています。
これらの知見と過去の研究成果に基づいて,DLプロジェクトにおけるユニットテストと障害のマッピング分類を構築した。
我々は、この発見が開発者や研究者に与える影響を議論し、その信頼性と安定性を確保するためにオープンソースdlプロジェクトでの単体テストの必要性を強調する。
この研究は、DLプロジェクトにおける単体テストの重要性の認識を高め、この分野のさらなる研究を奨励することで、このコミュニティに貢献する。
関連論文リスト
- Unit Testing Past vs. Present: Examining LLMs' Impact on Defect Detection and Efficiency [2.4936576553283283]
ソフトウェア工学へのLLM(Large Language Models)の統合は生産性を高める可能性を示している。
本稿では,LLMサポートが単体テスト時の欠陥検出効率を向上させるかを検討する。
論文 参考訳(メタデータ) (2025-02-13T22:27:55Z) - Mock Deep Testing: Toward Separate Development of Data and Models for Deep Learning [21.563130049562357]
本研究では,ディープラーニングアプリケーションの単体テストのためのモックディープテスト手法を紹介する。
単体テストを可能にするために、ワークフローを独立した管理可能なコンポーネントに分解する設計パラダイムを導入します。
Kerasライブラリのモックディープテストを可能にするフレームワークであるKUnitを開発しました。
論文 参考訳(メタデータ) (2025-02-11T17:11:11Z) - ProjectTest: A Project-level LLM Unit Test Generation Benchmark and Impact of Error Fixing Mechanisms [48.43237545197775]
単体テスト生成はLLMの有望かつ重要なユースケースとなっている。
ProjectTestは、Python、Java、JavaScriptをカバーするユニットテスト生成のためのプロジェクトレベルのベンチマークである。
論文 参考訳(メタデータ) (2025-02-10T15:24:30Z) - A Large-scale Empirical Study on Fine-tuning Large Language Models for Unit Testing [8.22619177301814]
大規模言語モデル(LLM)は、様々な単体テストタスクに可能性を示している。
単体テストのための微調整LDMに関する大規模な実験的検討を行った。
論文 参考訳(メタデータ) (2024-12-21T13:28:11Z) - Commit0: Library Generation from Scratch [77.38414688148006]
Commit0は、AIエージェントにスクラッチからライブラリを書くよう促すベンチマークである。
エージェントには、ライブラリのAPIを概説する仕様文書と、インタラクティブなユニットテストスイートが提供されている。
Commit0はまた、モデルが生成したコードに対して静的解析と実行フィードバックを受け取る、インタラクティブな環境も提供する。
論文 参考訳(メタデータ) (2024-12-02T18:11:30Z) - A Tale of Two DL Cities: When Library Tests Meet Compiler [12.751626834965231]
DLライブラリのテスト入力からドメイン知識を抽出するOPERAを提案する。
OPERAはDLライブラリの様々なテストインプットから様々なテストを構築する。
多様性に基づくテストの優先順位付け戦略を取り入れて、これらのテストインプットを移行し実行します。
論文 参考訳(メタデータ) (2024-07-23T16:35:45Z) - Automatic benchmarking of large multimodal models via iterative experiment programming [71.78089106671581]
本稿では,LMMの自動ベンチマークのための最初のフレームワークであるAPExを紹介する。
自然言語で表現された研究の質問に対して、APExは大きな言語モデル(LLM)と事前定義されたツールのライブラリを活用して、手元にあるモデルの一連の実験を生成する。
調査の現在の状況に基づいて、APExはどの実験を行うか、結果が結論を引き出すのに十分かどうかを選択する。
論文 参考訳(メタデータ) (2024-06-18T06:43:46Z) - Testing in the Evolving World of DL Systems:Insights from Python GitHub Projects [4.171555557592296]
本研究では、GitHubのDLプロジェクトにおけるテストプラクティスについて調査する。
テスト自動化、テストの種類(ユニットテスト、インテグレーション、システムなど)、テストスイートの成長率、さまざまなプロジェクトバージョンにおけるテストプラクティスの進化といった側面に焦点を当てています。
論文 参考訳(メタデータ) (2024-05-30T11:58:05Z) - DevEval: Evaluating Code Generation in Practical Software Projects [52.16841274646796]
我々はDevEvalという名の新しいベンチマークを提案し、実践プロジェクトにおける開発者の経験と一致している。
DevEvalは、119の実用的なプロジェクトから2,690のサンプルを含む厳格なパイプラインを通じて収集される。
DevEvalの5つの人気のあるLCMを評価し、コード生成における実際の能力を明らかにする。
論文 参考訳(メタデータ) (2024-01-12T06:51:30Z) - LeanDojo: Theorem Proving with Retrieval-Augmented Language Models [72.54339382005732]
大規模言語モデル(LLM)は、Leanのような証明アシスタントを使って形式的な定理を証明することを約束している。
既存のメソッドは、プライベートコード、データ、計算要求のために、複製や構築が難しい。
本稿では、ツールキット、データ、モデルからなるオープンソースのリーンツールキットであるLeanDojoを紹介します。
本研究では,LLM ベースの証明器 ReProver を開発した。
論文 参考訳(メタデータ) (2023-06-27T17:05:32Z) - A Survey of Deep Active Learning [54.376820959917005]
アクティブラーニング(AL)は、最も少ないサンプルをマークすることで、モデルの性能向上を最大化しようとする。
ディープラーニング(DL)はデータに対して欲張りであり、大量のパラメータを最適化するために大量のデータ供給を必要とする。
ディープラーニング(Deep Active Learning, DAL)が誕生した。
論文 参考訳(メタデータ) (2020-08-30T04:28:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。