論文の概要: Beyond Accuracy: An Empirical Study on Unit Testing in Open-source Deep
Learning Projects
- arxiv url: http://arxiv.org/abs/2402.16546v1
- Date: Mon, 26 Feb 2024 13:08:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 13:37:24.660432
- Title: Beyond Accuracy: An Empirical Study on Unit Testing in Open-source Deep
Learning Projects
- Title(参考訳): beyond accuracy: オープンソースのディープラーニングプロジェクトにおけるユニットテストに関する実証的研究
- Authors: Han Wang, Sijia Yu, Chunyang Chen, Burak Turhan, Xiaodong Zhu
- Abstract要約: ディープラーニング(DL)モデルは急速に進歩し、モデルの精度と堅牢性をテストすることによって高いパフォーマンスを達成することに重点を置いている。
DLプロジェクトは、ソフトウェアシステムとして、他のソフトウェアシステムのように扱い、テストする必要がある場合、徹底的にテストされるか、機能的に正しいかは定かではない。
オープンソースのDLプロジェクトでユニットテストを経験的に研究し、GitHubから9,129のプロジェクトを分析しました。
- 参考スコア(独自算出の注目度): 24.712437703214547
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Learning (DL) models have rapidly advanced, focusing on achieving high
performance through testing model accuracy and robustness. However, it is
unclear whether DL projects, as software systems, are tested thoroughly or
functionally correct when there is a need to treat and test them like other
software systems. Therefore, we empirically study the unit tests in open-source
DL projects, analyzing 9,129 projects from GitHub. We find that: 1) unit tested
DL projects have positive correlation with the open-source project metrics and
have a higher acceptance rate of pull requests, 2) 68% of the sampled DL
projects are not unit tested at all, 3) the layer and utilities (utils) of DL
models have the most unit tests. Based on these findings and previous research
outcomes, we built a mapping taxonomy between unit tests and faults in DL
projects. We discuss the implications of our findings for developers and
researchers and highlight the need for unit testing in open-source DL projects
to ensure their reliability and stability. The study contributes to this
community by raising awareness of the importance of unit testing in DL projects
and encouraging further research in this area.
- Abstract(参考訳): ディープラーニング(DL)モデルは急速に進歩し、モデルの精度と堅牢性をテストすることによって高いパフォーマンスを達成することに重点を置いている。
しかし、DLプロジェクトがソフトウェアシステムとして、他のソフトウェアシステムのように扱い、テストする必要がある場合、徹底的に、あるいは機能的に正しいかどうかは不明である。
そこで我々は,オープンソースdlプロジェクトのユニットテストを実証的に研究し,githubの9,129プロジェクトを分析した。
私たちはそれを見つけました
1) ユニットテストDLプロジェクトはオープンソースプロジェクトのメトリクスと正の相関を持ち,プルリクエストの受け入れ率が高い。
2)サンプルDLプロジェクトの68%は単体テストを受けていない。
3)DLモデルのレイヤとユーティリティ(ユーティリティ)は、最もユニットテストを受けています。
これらの知見と過去の研究成果に基づいて,DLプロジェクトにおけるユニットテストと障害のマッピング分類を構築した。
我々は、この発見が開発者や研究者に与える影響を議論し、その信頼性と安定性を確保するためにオープンソースdlプロジェクトでの単体テストの必要性を強調する。
この研究は、DLプロジェクトにおける単体テストの重要性の認識を高め、この分野のさらなる研究を奨励することで、このコミュニティに貢献する。
関連論文リスト
- How is Testing Related to Single Statement Bugs? [0.25782420501870285]
GitHubのトップ100のMavenベースのプロジェクトからのデータを分析しました。
以上の結果より, SSBの増加はSSBの発生をやや減少させる可能性が示唆された。
論文 参考訳(メタデータ) (2024-03-27T03:31:00Z) - DevBench: A Comprehensive Benchmark for Software Development [72.24266814625685]
DevBenchは、ソフトウェア開発ライフサイクルのさまざまな段階にわたる大規模言語モデル(LLM)を評価するベンチマークである。
GPT-4-Turboを含む現在のLLMは、DevBench内での課題の解決に失敗している。
本研究は,LLMを現実のプログラミングアプリケーションに展開する上で,現実的な知見を提供するものである。
論文 参考訳(メタデータ) (2024-03-13T15:13:44Z) - A Preliminary Study on Using Large Language Models in Software
Pentesting [2.0551676463612636]
大規模言語モデル(LLM)は、セキュリティタスクを自動化するための有望な可能性を提供すると考えられている。
ソフトウェアペンテスティングにおけるLLMの使用について検討し,ソースコード中のソフトウェアセキュリティ脆弱性を自動的に識別する作業を行う。
論文 参考訳(メタデータ) (2024-01-30T21:42:59Z) - DevEval: Evaluating Code Generation in Practical Software Projects [52.16841274646796]
我々はDevEvalという名の新しいベンチマークを提案し、実践プロジェクトにおける開発者の経験と一致している。
DevEvalは、119の実用的なプロジェクトから2,690のサンプルを含む厳格なパイプラインを通じて収集される。
DevEvalの5つの人気のあるLCMを評価し、コード生成における実際の能力を明らかにする。
論文 参考訳(メタデータ) (2024-01-12T06:51:30Z) - An Exploratory Study on Automatic Identification of Assumptions in the Development of Deep Learning Frameworks [3.457512613793633]
既存の仮定管理のためのアプローチとツールは通常、仮定のマニュアル識別に依存する。
手動で仮定を識別する問題を克服するため、GitHub上のリポジトリから収集された仮定の新しい最大データセット(AssuEval)を構築しました。
AlBERTは、AssuEvalデータセット上の仮定を特定する最高のパフォーマンス(f1スコア: 0.9584)を達成する。
論文 参考訳(メタデータ) (2024-01-08T03:50:03Z) - LeanDojo: Theorem Proving with Retrieval-Augmented Language Models [72.54339382005732]
大規模言語モデル(LLM)は、Leanのような証明アシスタントを使って形式的な定理を証明することを約束している。
既存のメソッドは、プライベートコード、データ、計算要求のために、複製や構築が難しい。
本稿では、ツールキット、データ、モデルからなるオープンソースのリーンツールキットであるLeanDojoを紹介します。
本研究では,LLM ベースの証明器 ReProver を開発した。
論文 参考訳(メタデータ) (2023-06-27T17:05:32Z) - Self-Checker: Plug-and-Play Modules for Fact-Checking with Large Language Models [75.75038268227554]
Self-Checkerはファクトチェックを容易にするプラグインとプレイモジュールからなるフレームワークである。
このフレームワークは、低リソース環境でファクトチェックシステムを構築するための、高速で効率的な方法を提供する。
論文 参考訳(メタデータ) (2023-05-24T01:46:07Z) - An Empirical Study of Library Usage and Dependency in Deep Learning
Frameworks [12.624032509149869]
ピトルチ、カフェ、シキットルンはプロジェクトの18%と14%で最も頻度の高い組み合わせである。
開発者は同じプロジェクトで2つか3つのdlライブラリを使用し、同じ関数と同じファイルの両方で異なる複数のdlライブラリを使用する傾向がある。
論文 参考訳(メタデータ) (2022-11-28T19:31:56Z) - Distribution Awareness for AI System Testing [0.0]
基礎となるDLシステムタスクに関連する新たな未確認テストケースを生成することを目的とした,新しいOOD誘導テスト手法を提案する。
以上の結果から,CIFAR-10では55.44%の誤差試験をフィルタでき,ロバスト性向上に10.05%有効であることが示唆された。
論文 参考訳(メタデータ) (2021-05-06T09:24:06Z) - KILT: a Benchmark for Knowledge Intensive Language Tasks [102.33046195554886]
知識集約型言語タスク(KILT)のベンチマークを示す。
KILTのすべてのタスクはウィキペディアのスナップショットと同じだ。
共有密度ベクトル指数とSeq2seqモデルとの結合が強いベースラインであることが分かる。
論文 参考訳(メタデータ) (2020-09-04T15:32:19Z) - A Survey of Deep Active Learning [54.376820959917005]
アクティブラーニング(AL)は、最も少ないサンプルをマークすることで、モデルの性能向上を最大化しようとする。
ディープラーニング(DL)はデータに対して欲張りであり、大量のパラメータを最適化するために大量のデータ供給を必要とする。
ディープラーニング(Deep Active Learning, DAL)が誕生した。
論文 参考訳(メタデータ) (2020-08-30T04:28:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。