論文の概要: Studying the Practices of Testing Machine Learning Software in the Wild
- arxiv url: http://arxiv.org/abs/2312.12604v1
- Date: Tue, 19 Dec 2023 21:18:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 17:50:34.287819
- Title: Studying the Practices of Testing Machine Learning Software in the Wild
- Title(参考訳): 野生における機械学習ソフトウェアテストの実践について
- Authors: Moses Openja, Foutse Khomh, Armstrong Foundjem, Zhen Ming (Jack)
Jiang, Mouna Abidi, Ahmed E. Hassan
- Abstract要約: 私たちは、多くのソフトウェアシステムで機械学習(ML)アルゴリズムの採用が増えているのを目撃しています。
これらのシステムのソフトウェア品質を保証することは、研究コミュニティにとって依然としてオープンな課題である。
- 参考スコア(独自算出の注目度): 19.804344437508213
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Background: We are witnessing an increasing adoption of machine learning
(ML), especially deep learning (DL) algorithms in many software systems,
including safety-critical systems such as health care systems or autonomous
driving vehicles. Ensuring the software quality of these systems is yet an open
challenge for the research community, mainly due to the inductive nature of ML
software systems. Traditionally, software systems were constructed deductively,
by writing down the rules that govern the behavior of the system as program
code. However, for ML software, these rules are inferred from training data.
Few recent research advances in the quality assurance of ML systems have
adapted different concepts from traditional software testing, such as mutation
testing, to help improve the reliability of ML software systems. However, it is
unclear if any of these proposed testing techniques from research are adopted
in practice. There is little empirical evidence about the testing strategies of
ML engineers. Aims: To fill this gap, we perform the first fine-grained
empirical study on ML testing practices in the wild, to identify the ML
properties being tested, the followed testing strategies, and their
implementation throughout the ML workflow. Method: First, we systematically
summarized the different testing strategies (e.g., Oracle Approximation), the
tested ML properties (e.g., Correctness, Bias, and Fairness), and the testing
methods (e.g., Unit test) from the literature. Then, we conducted a study to
understand the practices of testing ML software. Results: In our findings: 1)
we identified four (4) major categories of testing strategy including Grey-box,
White-box, Black-box, and Heuristic-based techniques that are used by the ML
engineers to find software bugs. 2) We identified 16 ML properties that are
tested in the ML workflow.
- Abstract(参考訳): 背景: マシンラーニング(ml)、特に、医療システムや自動運転車といった安全クリティカルなシステムを含む、多くのソフトウェアシステムにおけるディープラーニング(dl)アルゴリズムの採用が増加しているのを目撃しています。
これらのシステムのソフトウェア品質を保証することは、主にMLソフトウェアシステムの帰納的な性質のため、研究コミュニティにとって依然としてオープンな課題である。
伝統的に、ソフトウェアシステムはプログラムコードとしてシステムの振舞いを規定するルールを記述することによって演能的に構築された。
しかし、MLソフトウェアの場合、これらのルールはトレーニングデータから推測される。
MLシステムの品質保証に関する最近の研究は、突然変異テストのような従来のソフトウェアテストとは異なる概念を適用し、MLソフトウェアシステムの信頼性向上に寄与している。
しかし、これらの研究から提案された試験手法が実際に採用されているかは定かではない。
MLエンジニアのテスト戦略に関する実証的な証拠はほとんどない。
Aims: このギャップを埋めるために、テスト対象のMLプロパティ、それに続くテスト戦略、そしてMLワークフロー全体におけるそれらの実装を特定するために、MLテストプラクティスに関する初の詳細な実証的研究を行います。
メソッド: まず、さまざまなテスト戦略(Oracle Approximationなど)、テストされたMLプロパティ(例えば、正確性、バイアス、公正性)、そしてテストメソッド(例えば、ユニットテスト)を文献から体系的に要約しました。
そこで我々は,MLソフトウェアテストの実践を理解するために調査を行った。
結果: 1) ソフトウェアバグ発見にmlエンジニアが使用するgrey-box, white-box, black-box, and heuristic-based techniqueの4つの主要なテスト戦略のカテゴリを特定した。
2) MLワークフローでテストされる16のMLプロパティを特定した。
関連論文リスト
- Automated Robustness Testing for LLM-based NLP Software [6.986328098563149]
LLMベースのNLPソフトウェア用に特別に設計された、自動化された堅牢性テスト手法は知られていない。
既存のテスト手法は AORTA による LLM ベースのソフトウェアに適用できるが,有効性は限られている。
本稿では,アダプティブビームサーチ (Adaptive Beam Search) と呼ばれる AORTA 内における LLM ベースのソフトウェアの新しいテスト手法を提案する。
論文 参考訳(メタデータ) (2024-12-30T15:33:34Z) - Large-scale, Independent and Comprehensive study of the power of LLMs for test case generation [11.056044348209483]
クラスやメソッドなどのコードモジュールのバグを特定するのに不可欠なユニットテストは、時間的制約のため、開発者によって無視されることが多い。
GPTやMistralのようなLarge Language Models (LLM)は、テスト生成を含むソフトウェア工学における約束を示す。
論文 参考訳(メタデータ) (2024-06-28T20:38:41Z) - Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化は機械学習アプリケーションにおいて重要な要素である。
最新のUQベースラインの集合を実装した新しいベンチマークを導入する。
我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
論文 参考訳(メタデータ) (2024-06-21T20:06:31Z) - Active Test-Time Adaptation: Theoretical Analyses and An Algorithm [51.84691955495693]
テスト時間適応(TTA)は、教師なし設定でストリーミングテストデータの分散シフトに対処する。
完全TTA設定内に能動学習を統合する能動テスト時間適応(ATTA)の新たな問題設定を提案する。
論文 参考訳(メタデータ) (2024-04-07T22:31:34Z) - Reinforcement Learning from Automatic Feedback for High-Quality Unit Test Generation [12.503002900186997]
大規模言語モデル(LLM)は、テストケースの自動生成を含むコード生成で人気を集めている。
LLMは、多くの場合、大量の公開コードでトレーニングされ、ベストプラクティスに従わないテストケースを含む。
RLSQM(Reinforcement Learning from Static Quality Metrics)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-10-03T18:48:31Z) - Effective Test Generation Using Pre-trained Large Language Models and
Mutation Testing [13.743062498008555]
大規模言語モデル(LLM)が生成するテストケースの有効性を,バグの発見の観点から改善するための MuTAP を導入する。
MuTAPは、プログラム・アンダー・テスト(PUT)の自然言語記述がない場合に有効なテストケースを生成することができる
提案手法は, 最大28%の人書きコードスニペットを検出できることを示す。
論文 参考訳(メタデータ) (2023-08-31T08:48:31Z) - PyTrial: Machine Learning Software and Benchmark for Clinical Trial
Applications [49.69824178329405]
PyTrialは、臨床試験の設計と運用のための一連の機械学習アルゴリズムのベンチマークとオープンソース実装を提供する。
患者結果予測,臨床試験サイト選択,トライアル結果予測,患者と臨床のマッチング,トライアル類似性検索,合成データ生成など,6つのタスクにわたる臨床試験のための34のMLアルゴリズムを網羅的に検討した。
PyTrialは、データローディング、モデル仕様、モデルトレーニング、モデル評価という、単純な4段階のプロセスで各タスクを定義します。
論文 参考訳(メタデータ) (2023-06-06T21:19:03Z) - The Integration of Machine Learning into Automated Test Generation: A
Systematic Mapping Study [15.016047591601094]
我々は、新しい研究、テストプラクティス、研究者の目標、適用されたML技術、評価、課題を特徴づける。
MLはシステム、GUI、ユニット、パフォーマンス、テストのための入力を生成したり、既存の生成メソッドのパフォーマンスを改善したりする。
論文 参考訳(メタデータ) (2022-06-21T09:26:25Z) - Practical Machine Learning Safety: A Survey and Primer [81.73857913779534]
自動運転車のような安全クリティカルなアプリケーションにおける機械学習アルゴリズムのオープンワールド展開は、さまざまなML脆弱性に対処する必要がある。
一般化エラーを低減し、ドメイン適応を実現し、外乱例や敵攻撃を検出するための新しいモデルと訓練技術。
我々の組織は、MLアルゴリズムの信頼性を異なる側面から向上するために、最先端のML技術を安全戦略にマッピングする。
論文 参考訳(メタデータ) (2021-06-09T05:56:42Z) - Dynamic Causal Effects Evaluation in A/B Testing with a Reinforcement
Learning Framework [68.96770035057716]
A/Bテスト(A/B Testing)は、新しい製品を製薬、技術、伝統産業の古い製品と比較するビジネス戦略である。
本稿では,オンライン実験においてA/Bテストを実施するための強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-05T10:25:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。