Fugu-MT 論文翻訳(概要): Beyond Accuracy: An Empirical Study on Unit Testing in Open-source Deep Learning Projects

論文の概要: Beyond Accuracy: An Empirical Study on Unit Testing in Open-source Deep Learning Projects

arxiv url: http://arxiv.org/abs/2402.16546v1
Date: Mon, 26 Feb 2024 13:08:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-27 13:37:24.660432
Title: Beyond Accuracy: An Empirical Study on Unit Testing in Open-source Deep Learning Projects
Title（参考訳）: beyond accuracy: オープンソースのディープラーニングプロジェクトにおけるユニットテストに関する実証的研究
Authors: Han Wang, Sijia Yu, Chunyang Chen, Burak Turhan, Xiaodong Zhu
Abstract要約: ディープラーニング(DL)モデルは急速に進歩し、モデルの精度と堅牢性をテストすることによって高いパフォーマンスを達成することに重点を置いている。 DLプロジェクトは、ソフトウェアシステムとして、他のソフトウェアシステムのように扱い、テストする必要がある場合、徹底的にテストされるか、機能的に正しいかは定かではない。オープンソースのDLプロジェクトでユニットテストを経験的に研究し、GitHubから9,129のプロジェクトを分析しました。
参考スコア（独自算出の注目度）: 24.712437703214547
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep Learning (DL) models have rapidly advanced, focusing on achieving high performance through testing model accuracy and robustness. However, it is unclear whether DL projects, as software systems, are tested thoroughly or functionally correct when there is a need to treat and test them like other software systems. Therefore, we empirically study the unit tests in open-source DL projects, analyzing 9,129 projects from GitHub. We find that: 1) unit tested DL projects have positive correlation with the open-source project metrics and have a higher acceptance rate of pull requests, 2) 68% of the sampled DL projects are not unit tested at all, 3) the layer and utilities (utils) of DL models have the most unit tests. Based on these findings and previous research outcomes, we built a mapping taxonomy between unit tests and faults in DL projects. We discuss the implications of our findings for developers and researchers and highlight the need for unit testing in open-source DL projects to ensure their reliability and stability. The study contributes to this community by raising awareness of the importance of unit testing in DL projects and encouraging further research in this area.
Abstract（参考訳）: ディープラーニング(DL)モデルは急速に進歩し、モデルの精度と堅牢性をテストすることによって高いパフォーマンスを達成することに重点を置いている。しかし、DLプロジェクトがソフトウェアシステムとして、他のソフトウェアシステムのように扱い、テストする必要がある場合、徹底的に、あるいは機能的に正しいかどうかは不明である。そこで我々は,オープンソースdlプロジェクトのユニットテストを実証的に研究し,githubの9,129プロジェクトを分析した。私たちはそれを見つけました 1) ユニットテストDLプロジェクトはオープンソースプロジェクトのメトリクスと正の相関を持ち,プルリクエストの受け入れ率が高い。 2)サンプルDLプロジェクトの68%は単体テストを受けていない。 3)DLモデルのレイヤとユーティリティ(ユーティリティ)は、最もユニットテストを受けています。これらの知見と過去の研究成果に基づいて,DLプロジェクトにおけるユニットテストと障害のマッピング分類を構築した。我々は、この発見が開発者や研究者に与える影響を議論し、その信頼性と安定性を確保するためにオープンソースdlプロジェクトでの単体テストの必要性を強調する。この研究は、DLプロジェクトにおける単体テストの重要性の認識を高め、この分野のさらなる研究を奨励することで、このコミュニティに貢献する。

関連論文リスト

SWE-Flow: Synthesizing Software Engineering Data in a Test-Driven Manner [53.54568352375669]
テスト駆動開発(TDD)に基づく新しいデータ合成フレームワーク**SWE-Flow*を紹介します。人為的な問題に依存する既存のソフトウェアエンジニアリングデータとは異なり、**SWE-Flow*は、単体テストから直接インクリメンタルな開発ステップを推論する。私たちは現実のGitHubプロジェクトから16,061のトレーニングインスタンスと2,020のテストインスタンスを生成し、**SWE-Flow-Eval**ベンチマークを作成しました。
論文参考訳（メタデータ） (2025-06-10T17:23:33Z)
Unit Testing Past vs. Present: Examining LLMs' Impact on Defect Detection and Efficiency [2.4936576553283283]
ソフトウェア工学へのLLM(Large Language Models)の統合は生産性を高める可能性を示している。本稿では,LLMサポートが単体テスト時の欠陥検出効率を向上させるかを検討する。
論文参考訳（メタデータ） (2025-02-13T22:27:55Z)
Mock Deep Testing: Toward Separate Development of Data and Models for Deep Learning [21.563130049562357]
本研究では,ディープラーニングアプリケーションの単体テストのためのモックディープテスト手法を紹介する。単体テストを可能にするために、ワークフローを独立した管理可能なコンポーネントに分解する設計パラダイムを導入します。 Kerasライブラリのモックディープテストを可能にするフレームワークであるKUnitを開発しました。
論文参考訳（メタデータ） (2025-02-11T17:11:11Z)
ProjectTest: A Project-level LLM Unit Test Generation Benchmark and Impact of Error Fixing Mechanisms [48.43237545197775]
単体テスト生成はLLMの有望かつ重要なユースケースとなっている。 ProjectTestは、Python、Java、JavaScriptをカバーするユニットテスト生成のためのプロジェクトレベルのベンチマークである。
論文参考訳（メタデータ） (2025-02-10T15:24:30Z)
A Large-scale Empirical Study on Fine-tuning Large Language Models for Unit Testing [8.22619177301814]
大規模言語モデル(LLM)は、様々な単体テストタスクに可能性を示している。単体テストのための微調整LDMに関する大規模な実験的検討を行った。
論文参考訳（メタデータ） (2024-12-21T13:28:11Z)
Commit0: Library Generation from Scratch [77.38414688148006]
Commit0は、AIエージェントにスクラッチからライブラリを書くよう促すベンチマークである。エージェントには、ライブラリのAPIを概説する仕様文書と、インタラクティブなユニットテストスイートが提供されている。 Commit0はまた、モデルが生成したコードに対して静的解析と実行フィードバックを受け取る、インタラクティブな環境も提供する。
論文参考訳（メタデータ） (2024-12-02T18:11:30Z)
Which Combination of Test Metrics Can Predict Success of a Software Project? A Case Study in a Year-Long Project Course [1.553083901660282]
テストはソフトウェア開発プロジェクトの成功を保証する上で重要な役割を担います。種々のテストが機能的適合性に与える影響を定量化できるかどうかを検討する。
論文参考訳（メタデータ） (2024-08-22T04:23:51Z)
A System for Automated Unit Test Generation Using Large Language Models and Assessment of Generated Test Suites [1.4563527353943984]
大規模言語モデル(LLM)はソフトウェア開発の様々な側面に適用されている。 Javaプロジェクトのテストスイートを生成する自動化システムであるAgoneTestを紹介します。
論文参考訳（メタデータ） (2024-08-14T23:02:16Z)
A Tale of Two DL Cities: When Library Tests Meet Compiler [12.751626834965231]
DLライブラリのテスト入力からドメイン知識を抽出するOPERAを提案する。 OPERAはDLライブラリの様々なテストインプットから様々なテストを構築する。多様性に基づくテストの優先順位付け戦略を取り入れて、これらのテストインプットを移行し実行します。
論文参考訳（メタデータ） (2024-07-23T16:35:45Z)
Automatic benchmarking of large multimodal models via iterative experiment programming [71.78089106671581]
本稿では,LMMの自動ベンチマークのための最初のフレームワークであるAPExを紹介する。自然言語で表現された研究の質問に対して、APExは大きな言語モデル(LLM)と事前定義されたツールのライブラリを活用して、手元にあるモデルの一連の実験を生成する。調査の現在の状況に基づいて、APExはどの実験を行うか、結果が結論を引き出すのに十分かどうかを選択する。
論文参考訳（メタデータ） (2024-06-18T06:43:46Z)
Testing in the Evolving World of DL Systems:Insights from Python GitHub Projects [4.171555557592296]
本研究では、GitHubのDLプロジェクトにおけるテストプラクティスについて調査する。テスト自動化、テストの種類(ユニットテスト、インテグレーション、システムなど)、テストスイートの成長率、さまざまなプロジェクトバージョンにおけるテストプラクティスの進化といった側面に焦点を当てています。
論文参考訳（メタデータ） (2024-05-30T11:58:05Z)
How is Testing Related to Single Statement Bugs? [0.25782420501870285]
GitHubのトップ100のMavenベースのプロジェクトからのデータを分析しました。以上の結果より, SSBの増加はSSBの発生をやや減少させる可能性が示唆された。
論文参考訳（メタデータ） (2024-03-27T03:31:00Z)
DevBench: A Comprehensive Benchmark for Software Development [72.24266814625685]
DevBenchは、ソフトウェア開発ライフサイクルのさまざまな段階にわたる大規模言語モデル(LLM)を評価するベンチマークである。 GPT-4-Turboを含む現在のLLMは、DevBench内での課題の解決に失敗している。本研究は,LLMを現実のプログラミングアプリケーションに展開する上で,現実的な知見を提供するものである。
論文参考訳（メタデータ） (2024-03-13T15:13:44Z)
DevEval: Evaluating Code Generation in Practical Software Projects [52.16841274646796]
我々はDevEvalという名の新しいベンチマークを提案し、実践プロジェクトにおける開発者の経験と一致している。 DevEvalは、119の実用的なプロジェクトから2,690のサンプルを含む厳格なパイプラインを通じて収集される。 DevEvalの5つの人気のあるLCMを評価し、コード生成における実際の能力を明らかにする。
論文参考訳（メタデータ） (2024-01-12T06:51:30Z)
LeanDojo: Theorem Proving with Retrieval-Augmented Language Models [72.54339382005732]
大規模言語モデル(LLM)は、Leanのような証明アシスタントを使って形式的な定理を証明することを約束している。既存のメソッドは、プライベートコード、データ、計算要求のために、複製や構築が難しい。本稿では、ツールキット、データ、モデルからなるオープンソースのリーンツールキットであるLeanDojoを紹介します。本研究では,LLM ベースの証明器 ReProver を開発した。
論文参考訳（メタデータ） (2023-06-27T17:05:32Z)
Self-Checker: Plug-and-Play Modules for Fact-Checking with Large Language Models [75.75038268227554]
Self-Checkerはファクトチェックを容易にするプラグインとプレイモジュールからなるフレームワークである。このフレームワークは、低リソース環境でファクトチェックシステムを構築するための、高速で効率的な方法を提供する。
論文参考訳（メタデータ） (2023-05-24T01:46:07Z)
A Survey of Deep Active Learning [54.376820959917005]
アクティブラーニング(AL)は、最も少ないサンプルをマークすることで、モデルの性能向上を最大化しようとする。ディープラーニング(DL)はデータに対して欲張りであり、大量のパラメータを最適化するために大量のデータ供給を必要とする。ディープラーニング(Deep Active Learning, DAL)が誕生した。
論文参考訳（メタデータ） (2020-08-30T04:28:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。