論文の概要: Mock Deep Testing: Toward Separate Development of Data and Models for Deep Learning
- arxiv url: http://arxiv.org/abs/2502.07712v1
- Date: Tue, 11 Feb 2025 17:11:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:09:02.729321
- Title: Mock Deep Testing: Toward Separate Development of Data and Models for Deep Learning
- Title(参考訳): モックディープテスト - ディープラーニングのためのデータとモデルの分離開発を目指して
- Authors: Ruchira Manke, Mohammad Wardat, Foutse Khomh, Hridesh Rajan,
- Abstract要約: 本研究では,ディープラーニングアプリケーションの単体テストのためのモックディープテスト手法を紹介する。
単体テストを可能にするために、ワークフローを独立した管理可能なコンポーネントに分解する設計パラダイムを導入します。
Kerasライブラリのモックディープテストを可能にするフレームワークであるKUnitを開発しました。
- 参考スコア(独自算出の注目度): 21.563130049562357
- License:
- Abstract: While deep learning (DL) has permeated, and become an integral component of many critical software systems, today software engineering research hasn't explored how to separately test data and models that are integral for DL approaches to work effectively. The main challenge in independently testing these components arises from the tight dependency between data and models. This research explores this gap, introducing our methodology of mock deep testing for unit testing of DL applications. To enable unit testing, we introduce a design paradigm that decomposes the workflow into distinct, manageable components, minimizes sequential dependencies, and modularizes key stages of the DL. For unit testing these components, we propose modeling their dependencies using mocks. This modular approach facilitates independent development and testing of the components, ensuring comprehensive quality assurance throughout the development process. We have developed KUnit, a framework for enabling mock deep testing for the Keras library. We empirically evaluated KUnit to determine the effectiveness of mocks. Our assessment of 50 DL programs obtained from Stack Overflow and GitHub shows that mocks effectively identified 10 issues in the data preparation stage and 53 issues in the model design stage. We also conducted a user study with 36 participants using KUnit to perceive the effectiveness of our approach. Participants using KUnit successfully resolved 25 issues in the data preparation stage and 38 issues in the model design stage. Our findings highlight that mock objects provide a lightweight emulation of the dependencies for unit testing, facilitating early bug detection. Lastly, to evaluate the usability of KUnit, we conducted a post-study survey. The results reveal that KUnit is helpful to DL application developers, enabling them to independently test each component effectively in different stages.
- Abstract(参考訳): ディープラーニング(DL)は浸透し、多くの重要なソフトウェアシステムにおいて不可欠なコンポーネントとなっているが、今日のソフトウェア工学の研究は、DLアプローチが効果的に機能するために不可欠なデータとモデルを個別にテストする方法を探求していない。
これらのコンポーネントを独立してテストする際の大きな課題は、データとモデル間の密接な依存関係から生じます。
本研究は、DLアプリケーションの単体テストのためのモックディープテストの方法論を導入し、このギャップを考察する。
単体テストを可能にするために、ワークフローを独立した管理可能なコンポーネントに分解し、シーケンシャルな依存関係を最小限に抑え、DLの重要なステージをモジュール化する設計パラダイムを導入する。
これらのコンポーネントを単体テストするために、モックを使って依存関係をモデリングすることを提案する。
このモジュール化されたアプローチは、コンポーネントの独立した開発とテストを促進し、開発プロセス全体を通して包括的な品質保証を保証する。
Kerasライブラリのモックディープテストを可能にするフレームワークであるKUnitを開発しました。
我々はKUnitを実証的に評価し、モックの有効性を判定した。
Stack OverflowとGitHubから得られた50のDLプログラムの評価によると、モックはデータ準備段階で10の課題とモデル設計段階で53の課題を効果的に特定した。
また,36名の被験者を対象に,KUnitを用いたユーザスタディを実施し,アプローチの有効性について検討した。
KUnitを使用する参加者は、データ準備段階で25の問題を解決し、モデル設計段階で38の問題を解決した。
我々の発見は、モックオブジェクトが単体テストの依存関係の軽量なエミュレーションを提供し、早期バグ検出を容易にすることを強調した。
最後に,KUnitのユーザビリティを評価するために,研究後の調査を行った。
その結果、KUnitはDLアプリケーション開発者にとって役立ち、異なる段階で各コンポーネントを独立してテストできることがわかった。
関連論文リスト
- Which Combination of Test Metrics Can Predict Success of a Software Project? A Case Study in a Year-Long Project Course [1.553083901660282]
テストはソフトウェア開発プロジェクトの成功を保証する上で重要な役割を担います。
種々のテストが機能的適合性に与える影響を定量化できるかどうかを検討する。
論文 参考訳(メタデータ) (2024-08-22T04:23:51Z) - A System for Automated Unit Test Generation Using Large Language Models and Assessment of Generated Test Suites [1.4563527353943984]
大規模言語モデル(LLM)はソフトウェア開発の様々な側面に適用されている。
Javaプロジェクトのテストスイートを生成する自動化システムであるAgoneTestを紹介します。
論文 参考訳(メタデータ) (2024-08-14T23:02:16Z) - EduNLP: Towards a Unified and Modularized Library for Educational Resources [78.8523961816045]
我々はEduNLPという,統一された,モジュール化された,広範なライブラリを紹介し,教育資源の理解に焦点をあてる。
このライブラリでは、ワークフロー全体を4つのキーモジュールに分離し、データ構成、処理、モデル実装、モデル評価など、一貫したインターフェースを提供します。
現在のバージョンでは、主に4つのカテゴリから10の典型的なモデルを提供し、教育領域における5つのダウンストリーム評価タスクを、ユーザの使用に対して8つの被験者に提供します。
論文 参考訳(メタデータ) (2024-06-03T12:45:40Z) - Combating Missing Modalities in Egocentric Videos at Test Time [92.38662956154256]
現実のアプリケーションは、プライバシの懸念、効率性の必要性、ハードウェアの問題により、不完全なモダリティを伴う問題に直面することが多い。
再トレーニングを必要とせずに,テスト時にこの問題に対処する新しい手法を提案する。
MiDlは、欠落したモダリティをテスト時にのみ扱う、自己管理型のオンラインソリューションとしては初めてのものだ。
論文 参考訳(メタデータ) (2024-04-23T16:01:33Z) - Beyond Accuracy: An Empirical Study on Unit Testing in Open-source Deep
Learning Projects [24.712437703214547]
ディープラーニング(DL)モデルは急速に進歩し、モデルの精度と堅牢性をテストすることによって高いパフォーマンスを達成することに重点を置いている。
DLプロジェクトは、ソフトウェアシステムとして、他のソフトウェアシステムのように扱い、テストする必要がある場合、徹底的にテストされるか、機能的に正しいかは定かではない。
オープンソースのDLプロジェクトでユニットテストを経験的に研究し、GitHubから9,129のプロジェクトを分析しました。
論文 参考訳(メタデータ) (2024-02-26T13:08:44Z) - Revisiting and Improving Retrieval-Augmented Deep Assertion Generation [13.373681113601982]
単体テストはソフトウェア開発プロセスにおいて重要な活動となっている。
Yuらは単体テストのためのアサーションを生成する統合的なアプローチ(略して積分)を提案した。
有望であるにもかかわらず、なぜ統合が機能するのか、それとも機能しないのかについては、いまだに知識のギャップがあります。
論文 参考訳(メタデータ) (2023-09-19T02:39:02Z) - Modular Deep Learning [120.36599591042908]
トランスファーラーニングは近年、機械学習の主要なパラダイムとなっている。
負の干渉を伴わずに複数のタスクを専門とするモデルを開発する方法はまだ不明である。
これらの課題に対する有望な解決策として、モジュール型ディープラーニングが登場した。
論文 参考訳(メタデータ) (2023-02-22T18:11:25Z) - Mimicking Production Behavior with Generated Mocks [11.367562045401554]
実運用環境でのアプリケーションを監視して,モックによる現実的な実行シナリオを模倣するテストを生成することを提案する。
このアプローチは自動化され、RICKと呼ばれるオープンソースのツールで実装されている。
生成されたテストケースはすべて実行可能であり、52.4%は本番環境で観測されたターゲットメソッドの完全な実行コンテキストをうまく模倣している。
論文 参考訳(メタデータ) (2022-08-02T09:08:18Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z) - Stance Detection Benchmark: How Robust Is Your Stance Detection? [65.91772010586605]
Stance Detection (StD) は、あるトピックやクレームに対する著者の姿勢を検出することを目的としている。
マルチデータセット学習環境において、さまざまなドメインの10のStDデータセットから学習するStDベンチマークを導入する。
このベンチマーク設定では、5つのデータセットに新しい最先端結果を表示することができます。
論文 参考訳(メタデータ) (2020-01-06T13:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。