論文の概要: Studying the Practices of Testing Machine Learning Software in the Wild
- arxiv url: http://arxiv.org/abs/2312.12604v1
- Date: Tue, 19 Dec 2023 21:18:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 17:50:34.287819
- Title: Studying the Practices of Testing Machine Learning Software in the Wild
- Title(参考訳): 野生における機械学習ソフトウェアテストの実践について
- Authors: Moses Openja, Foutse Khomh, Armstrong Foundjem, Zhen Ming (Jack)
Jiang, Mouna Abidi, Ahmed E. Hassan
- Abstract要約: 私たちは、多くのソフトウェアシステムで機械学習(ML)アルゴリズムの採用が増えているのを目撃しています。
これらのシステムのソフトウェア品質を保証することは、研究コミュニティにとって依然としてオープンな課題である。
- 参考スコア(独自算出の注目度): 19.804344437508213
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Background: We are witnessing an increasing adoption of machine learning
(ML), especially deep learning (DL) algorithms in many software systems,
including safety-critical systems such as health care systems or autonomous
driving vehicles. Ensuring the software quality of these systems is yet an open
challenge for the research community, mainly due to the inductive nature of ML
software systems. Traditionally, software systems were constructed deductively,
by writing down the rules that govern the behavior of the system as program
code. However, for ML software, these rules are inferred from training data.
Few recent research advances in the quality assurance of ML systems have
adapted different concepts from traditional software testing, such as mutation
testing, to help improve the reliability of ML software systems. However, it is
unclear if any of these proposed testing techniques from research are adopted
in practice. There is little empirical evidence about the testing strategies of
ML engineers. Aims: To fill this gap, we perform the first fine-grained
empirical study on ML testing practices in the wild, to identify the ML
properties being tested, the followed testing strategies, and their
implementation throughout the ML workflow. Method: First, we systematically
summarized the different testing strategies (e.g., Oracle Approximation), the
tested ML properties (e.g., Correctness, Bias, and Fairness), and the testing
methods (e.g., Unit test) from the literature. Then, we conducted a study to
understand the practices of testing ML software. Results: In our findings: 1)
we identified four (4) major categories of testing strategy including Grey-box,
White-box, Black-box, and Heuristic-based techniques that are used by the ML
engineers to find software bugs. 2) We identified 16 ML properties that are
tested in the ML workflow.
- Abstract(参考訳): 背景: マシンラーニング(ml)、特に、医療システムや自動運転車といった安全クリティカルなシステムを含む、多くのソフトウェアシステムにおけるディープラーニング(dl)アルゴリズムの採用が増加しているのを目撃しています。
これらのシステムのソフトウェア品質を保証することは、主にMLソフトウェアシステムの帰納的な性質のため、研究コミュニティにとって依然としてオープンな課題である。
伝統的に、ソフトウェアシステムはプログラムコードとしてシステムの振舞いを規定するルールを記述することによって演能的に構築された。
しかし、MLソフトウェアの場合、これらのルールはトレーニングデータから推測される。
MLシステムの品質保証に関する最近の研究は、突然変異テストのような従来のソフトウェアテストとは異なる概念を適用し、MLソフトウェアシステムの信頼性向上に寄与している。
しかし、これらの研究から提案された試験手法が実際に採用されているかは定かではない。
MLエンジニアのテスト戦略に関する実証的な証拠はほとんどない。
Aims: このギャップを埋めるために、テスト対象のMLプロパティ、それに続くテスト戦略、そしてMLワークフロー全体におけるそれらの実装を特定するために、MLテストプラクティスに関する初の詳細な実証的研究を行います。
メソッド: まず、さまざまなテスト戦略(Oracle Approximationなど)、テストされたMLプロパティ(例えば、正確性、バイアス、公正性)、そしてテストメソッド(例えば、ユニットテスト)を文献から体系的に要約しました。
そこで我々は,MLソフトウェアテストの実践を理解するために調査を行った。
結果: 1) ソフトウェアバグ発見にmlエンジニアが使用するgrey-box, white-box, black-box, and heuristic-based techniqueの4つの主要なテスト戦略のカテゴリを特定した。
2) MLワークフローでテストされる16のMLプロパティを特定した。
関連論文リスト
- Test & Evaluation Best Practices for Machine Learning-Enabled Systems [7.148282824413932]
機械学習(ML)ベースのソフトウェアシステムは、さまざまな領域で急速に普及している。
本報告では,ML対応ソフトウェアシステムのライフサイクル全体にわたるテスト・評価(T&E)のベストプラクティスについて述べる。
論文 参考訳(メタデータ) (2023-10-10T17:11:14Z) - Efficiently Measuring the Cognitive Ability of LLMs: An Adaptive Testing
Perspective [63.92197404447808]
大きな言語モデル(LLM)は、人間のような認知能力を示している。
LLM評価のための適応テストフレームワークを提案する。
このアプローチは、モデルの性能に基づいて、難易度などのテスト問題の特徴を動的に調整する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - PyTrial: Machine Learning Software and Benchmark for Clinical Trial
Applications [49.69824178329405]
PyTrialは、臨床試験の設計と運用のための一連の機械学習アルゴリズムのベンチマークとオープンソース実装を提供する。
患者結果予測,臨床試験サイト選択,トライアル結果予測,患者と臨床のマッチング,トライアル類似性検索,合成データ生成など,6つのタスクにわたる臨床試験のための34のMLアルゴリズムを網羅的に検討した。
PyTrialは、データローディング、モデル仕様、モデルトレーニング、モデル評価という、単純な4段階のプロセスで各タスクを定義します。
論文 参考訳(メタデータ) (2023-06-06T21:19:03Z) - Machine Learning for Software Engineering: A Tertiary Study [13.832268599253412]
機械学習(ML)技術は、ソフトウェアエンジニアリング(SE)ライフサイクルアクティビティの有効性を高める。
2009~2022年に発行されたML for SEで, 体系的, 品質評価, 要約, 分類を行い, 初等研究6,117件について検討した。
MLに最も取り組まれているSE領域は、ソフトウェアの品質とテストである。
論文 参考訳(メタデータ) (2022-11-17T09:19:53Z) - The Integration of Machine Learning into Automated Test Generation: A
Systematic Mapping Study [15.016047591601094]
我々は、新しい研究、テストプラクティス、研究者の目標、適用されたML技術、評価、課題を特徴づける。
MLはシステム、GUI、ユニット、パフォーマンス、テストのための入力を生成したり、既存の生成メソッドのパフォーマンスを改善したりする。
論文 参考訳(メタデータ) (2022-06-21T09:26:25Z) - Practical Machine Learning Safety: A Survey and Primer [81.73857913779534]
自動運転車のような安全クリティカルなアプリケーションにおける機械学習アルゴリズムのオープンワールド展開は、さまざまなML脆弱性に対処する必要がある。
一般化エラーを低減し、ドメイン適応を実現し、外乱例や敵攻撃を検出するための新しいモデルと訓練技術。
我々の組織は、MLアルゴリズムの信頼性を異なる側面から向上するために、最先端のML技術を安全戦略にマッピングする。
論文 参考訳(メタデータ) (2021-06-09T05:56:42Z) - White Paper Machine Learning in Certified Systems [70.24215483154184]
DEEL Project set-up the ML Certification 3 Workgroup (WG) set-up by the Institut de Recherche Technologique Saint Exup'ery de Toulouse (IRT)
論文 参考訳(メタデータ) (2021-03-18T21:14:30Z) - Mutation Testing framework for Machine Learning [0.0]
機械学習モデルの失敗は、生命や財産の喪失という観点から、深刻な結果をもたらす可能性がある。
世界中の開発者、科学者、そしてMLコミュニティは、重要なMLアプリケーションのための信頼性の高いテストアーキテクチャを構築しなければなりません。
この記事では、機械学習システム(MLS)テスト、その進化、現在のパラダイム、将来の作業に関する洞察的な旅を提供します。
論文 参考訳(メタデータ) (2021-02-19T18:02:31Z) - Technology Readiness Levels for Machine Learning Systems [107.56979560568232]
機械学習システムの開発とデプロイは、現代のツールで簡単に実行できますが、プロセスは一般的に急ぎ、エンドツーエンドです。
私たちは、機械学習の開発と展開のための実証済みのシステムエンジニアリングアプローチを開発しました。
当社の「機械学習技術準備レベル」フレームワークは、堅牢で信頼性が高く、責任あるシステムを確保するための原則的なプロセスを定義します。
論文 参考訳(メタデータ) (2021-01-11T15:54:48Z) - A Software Engineering Perspective on Engineering Machine Learning
Systems: State of the Art and Challenges [0.0]
機械学習(ML)の進歩は、アルゴリズムが人間によってハードコードされる従来のソフトウェア開発の視点から、データから学習することで実現されたMLシステムへとシフトする。
ソフトウェアシステムの開発方法を再考し、これらの新しいタイプのシステムに必要な特質を考慮する必要があります。
論文 参考訳(メタデータ) (2020-12-14T20:06:31Z) - Technology Readiness Levels for AI & ML [79.22051549519989]
機械学習システムの開発は、現代的なツールで容易に実行できるが、プロセスは通常急いで、エンドツーエンドで実行される。
エンジニアリングシステムは、高品質で信頼性の高い結果の開発を効率化するために、明確に定義されたプロセスとテスト標準に従います。
我々は、機械学習の開発と展開のための実証されたシステムエンジニアリングアプローチを提案する。
論文 参考訳(メタデータ) (2020-06-21T17:14:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。