Fugu-MT 論文翻訳(概要): Mock Deep Testing: Toward Separate Development of Data and Models for Deep Learning

論文の概要: Mock Deep Testing: Toward Separate Development of Data and Models for Deep Learning

arxiv url: http://arxiv.org/abs/2502.07712v1
Date: Tue, 11 Feb 2025 17:11:11 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-12 18:22:48.252404
Title: Mock Deep Testing: Toward Separate Development of Data and Models for Deep Learning
Title（参考訳）: モックディープテスト - ディープラーニングのためのデータとモデルの分離開発を目指して
Authors: Ruchira Manke, Mohammad Wardat, Foutse Khomh, Hridesh Rajan,
Abstract要約: 本研究では,ディープラーニングアプリケーションの単体テストのためのモックディープテスト手法を紹介する。単体テストを可能にするために、ワークフローを独立した管理可能なコンポーネントに分解する設計パラダイムを導入します。 Kerasライブラリのモックディープテストを可能にするフレームワークであるKUnitを開発しました。
参考スコア（独自算出の注目度）: 21.563130049562357
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While deep learning (DL) has permeated, and become an integral component of many critical software systems, today software engineering research hasn't explored how to separately test data and models that are integral for DL approaches to work effectively. The main challenge in independently testing these components arises from the tight dependency between data and models. This research explores this gap, introducing our methodology of mock deep testing for unit testing of DL applications. To enable unit testing, we introduce a design paradigm that decomposes the workflow into distinct, manageable components, minimizes sequential dependencies, and modularizes key stages of the DL. For unit testing these components, we propose modeling their dependencies using mocks. This modular approach facilitates independent development and testing of the components, ensuring comprehensive quality assurance throughout the development process. We have developed KUnit, a framework for enabling mock deep testing for the Keras library. We empirically evaluated KUnit to determine the effectiveness of mocks. Our assessment of 50 DL programs obtained from Stack Overflow and GitHub shows that mocks effectively identified 10 issues in the data preparation stage and 53 issues in the model design stage. We also conducted a user study with 36 participants using KUnit to perceive the effectiveness of our approach. Participants using KUnit successfully resolved 25 issues in the data preparation stage and 38 issues in the model design stage. Our findings highlight that mock objects provide a lightweight emulation of the dependencies for unit testing, facilitating early bug detection. Lastly, to evaluate the usability of KUnit, we conducted a post-study survey. The results reveal that KUnit is helpful to DL application developers, enabling them to independently test each component effectively in different stages.
Abstract（参考訳）: ディープラーニング(DL)は浸透し、多くの重要なソフトウェアシステムにおいて不可欠なコンポーネントとなっているが、今日のソフトウェア工学の研究は、DLアプローチが効果的に機能するために不可欠なデータとモデルを個別にテストする方法を探求していない。これらのコンポーネントを独立してテストする際の大きな課題は、データとモデル間の密接な依存関係から生じます。本研究は、DLアプリケーションの単体テストのためのモックディープテストの方法論を導入し、このギャップを考察する。単体テストを可能にするために、ワークフローを独立した管理可能なコンポーネントに分解し、シーケンシャルな依存関係を最小限に抑え、DLの重要なステージをモジュール化する設計パラダイムを導入する。これらのコンポーネントを単体テストするために、モックを使って依存関係をモデリングすることを提案する。このモジュール化されたアプローチは、コンポーネントの独立した開発とテストを促進し、開発プロセス全体を通して包括的な品質保証を保証する。 Kerasライブラリのモックディープテストを可能にするフレームワークであるKUnitを開発しました。我々はKUnitを実証的に評価し、モックの有効性を判定した。 Stack OverflowとGitHubから得られた50のDLプログラムの評価によると、モックはデータ準備段階で10の課題とモデル設計段階で53の課題を効果的に特定した。また,36名の被験者を対象に,KUnitを用いたユーザスタディを実施し,アプローチの有効性について検討した。 KUnitを使用する参加者は、データ準備段階で25の問題を解決し、モデル設計段階で38の問題を解決した。我々の発見は、モックオブジェクトが単体テストの依存関係の軽量なエミュレーションを提供し、早期バグ検出を容易にすることを強調した。最後に,KUnitのユーザビリティを評価するために,研究後の調査を行った。その結果、KUnitはDLアプリケーション開発者にとって役立ち、異なる段階で各コンポーネントを独立してテストできることがわかった。

関連論文リスト

SWE-Flow: Synthesizing Software Engineering Data in a Test-Driven Manner [53.54568352375669]
テスト駆動開発(TDD)に基づく新しいデータ合成フレームワーク**SWE-Flow*を紹介します。人為的な問題に依存する既存のソフトウェアエンジニアリングデータとは異なり、**SWE-Flow*は、単体テストから直接インクリメンタルな開発ステップを推論する。私たちは現実のGitHubプロジェクトから16,061のトレーニングインスタンスと2,020のテストインスタンスを生成し、**SWE-Flow-Eval**ベンチマークを作成しました。
論文参考訳（メタデータ） (2025-06-10T17:23:33Z)
Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文参考訳（メタデータ） (2025-02-20T18:32:19Z)
A Large-scale Empirical Study on Fine-tuning Large Language Models for Unit Testing [8.22619177301814]
大規模言語モデル(LLM)は、様々な単体テストタスクに可能性を示している。単体テストのための微調整LDMに関する大規模な実験的検討を行った。
論文参考訳（メタデータ） (2024-12-21T13:28:11Z)
ViUniT: Visual Unit Tests for More Robust Visual Programming [104.55763189099125]
モデルが正しく答えると、不正なプログラムを33%生成します。自動単体テストを生成することで、視覚プログラムの信頼性を向上させるためのフレームワークであるVisual Unit Testing (ViUniT)を提案する。
論文参考訳（メタデータ） (2024-12-12T01:36:18Z)
Commit0: Library Generation from Scratch [77.38414688148006]
Commit0は、AIエージェントにスクラッチからライブラリを書くよう促すベンチマークである。エージェントには、ライブラリのAPIを概説する仕様文書と、インタラクティブなユニットテストスイートが提供されている。 Commit0はまた、モデルが生成したコードに対して静的解析と実行フィードバックを受け取る、インタラクティブな環境も提供する。
論文参考訳（メタデータ） (2024-12-02T18:11:30Z)
Which Combination of Test Metrics Can Predict Success of a Software Project? A Case Study in a Year-Long Project Course [1.553083901660282]
テストはソフトウェア開発プロジェクトの成功を保証する上で重要な役割を担います。種々のテストが機能的適合性に与える影響を定量化できるかどうかを検討する。
論文参考訳（メタデータ） (2024-08-22T04:23:51Z)
A System for Automated Unit Test Generation Using Large Language Models and Assessment of Generated Test Suites [1.4563527353943984]
大規模言語モデル(LLM)はソフトウェア開発の様々な側面に適用されている。 Javaプロジェクトのテストスイートを生成する自動化システムであるAgoneTestを紹介します。
論文参考訳（メタデータ） (2024-08-14T23:02:16Z)
EduNLP: Towards a Unified and Modularized Library for Educational Resources [78.8523961816045]
我々はEduNLPという,統一された,モジュール化された,広範なライブラリを紹介し,教育資源の理解に焦点をあてる。このライブラリでは、ワークフロー全体を4つのキーモジュールに分離し、データ構成、処理、モデル実装、モデル評価など、一貫したインターフェースを提供します。現在のバージョンでは、主に4つのカテゴリから10の典型的なモデルを提供し、教育領域における5つのダウンストリーム評価タスクを、ユーザの使用に対して8つの被験者に提供します。
論文参考訳（メタデータ） (2024-06-03T12:45:40Z)
Combating Missing Modalities in Egocentric Videos at Test Time [92.38662956154256]
現実のアプリケーションは、プライバシの懸念、効率性の必要性、ハードウェアの問題により、不完全なモダリティを伴う問題に直面することが多い。再トレーニングを必要とせずに,テスト時にこの問題に対処する新しい手法を提案する。 MiDlは、欠落したモダリティをテスト時にのみ扱う、自己管理型のオンラインソリューションとしては初めてのものだ。
論文参考訳（メタデータ） (2024-04-23T16:01:33Z)
Beyond Accuracy: An Empirical Study on Unit Testing in Open-source Deep Learning Projects [24.712437703214547]
ディープラーニング(DL)モデルは急速に進歩し、モデルの精度と堅牢性をテストすることによって高いパフォーマンスを達成することに重点を置いている。 DLプロジェクトは、ソフトウェアシステムとして、他のソフトウェアシステムのように扱い、テストする必要がある場合、徹底的にテストされるか、機能的に正しいかは定かではない。オープンソースのDLプロジェクトでユニットテストを経験的に研究し、GitHubから9,129のプロジェクトを分析しました。
論文参考訳（メタデータ） (2024-02-26T13:08:44Z)
Revisiting and Improving Retrieval-Augmented Deep Assertion Generation [13.373681113601982]
単体テストはソフトウェア開発プロセスにおいて重要な活動となっている。 Yuらは単体テストのためのアサーションを生成する統合的なアプローチ(略して積分)を提案した。有望であるにもかかわらず、なぜ統合が機能するのか、それとも機能しないのかについては、いまだに知識のギャップがあります。
論文参考訳（メタデータ） (2023-09-19T02:39:02Z)
ALT-MAS: A Data-Efficient Framework for Active Testing of Machine Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文参考訳（メタデータ） (2021-04-11T12:14:04Z)
Stance Detection Benchmark: How Robust Is Your Stance Detection? [65.91772010586605]
Stance Detection (StD) は、あるトピックやクレームに対する著者の姿勢を検出することを目的としている。マルチデータセット学習環境において、さまざまなドメインの10のStDデータセットから学習するStDベンチマークを導入する。このベンチマーク設定では、5つのデータセットに新しい最先端結果を表示することができます。
論文参考訳（メタデータ） (2020-01-06T13:37:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。