論文の概要: An empirical study of testing machine learning in the wild
- arxiv url: http://arxiv.org/abs/2312.12604v2
- Date: Sat, 13 Jul 2024 16:22:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 02:24:41.180375
- Title: An empirical study of testing machine learning in the wild
- Title(参考訳): 野生における機械学習のテストに関する実証的研究
- Authors: Moses Openja, Foutse Khomh, Armstrong Foundjem, Zhen Ming, Jiang, Mouna Abidi, Ahmed E. Hassan,
- Abstract要約: 機械学習(ML/DL)アルゴリズムは多くのソフトウェアシステムで採用されている。
インダクティブな性質のため、これらのシステムの品質を保証することは、研究コミュニティにとって重要な課題である。
ML/DLの品質保証に関する最近の研究は、信頼性を向上させるために、突然変異テストのような従来のソフトウェアテストの概念を適用している。
- 参考スコア(独自算出の注目度): 35.13282520395855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, machine and deep learning (ML/DL) algorithms have been increasingly adopted in many software systems. Due to their inductive nature, ensuring the quality of these systems remains a significant challenge for the research community. Unlike traditional software built deductively by writing explicit rules, ML/DL systems infer rules from training data. Recent research in ML/DL quality assurance has adapted concepts from traditional software testing, such as mutation testing, to improve reliability. However, it is unclear if these proposed testing techniques are adopted in practice, or if new testing strategies have emerged from real-world ML deployments. There is little empirical evidence about the testing strategies. To fill this gap, we perform the first fine-grained empirical study on ML testing in the wild to identify the ML properties being tested, the testing strategies, and their implementation throughout the ML workflow. We conducted a mixed-methods study to understand ML software testing practices. We analyzed test files and cases from 11 open-source ML/DL projects on GitHub. Using open coding, we manually examined the testing strategies, tested ML properties, and implemented testing methods to understand their practical application in building and releasing ML/DL software systems. Our findings reveal several key insights: 1.) The most common testing strategies, accounting for less than 40%, are Grey-box and White-box methods, such as Negative Testing, Oracle Approximation and Statistical Testing. 2.) A wide range of 17 ML properties are tested, out of which only 20% to 30% are frequently tested, including Consistency, Correctness}, and Efficiency. 3.) Bias and Fairness is more tested in Recommendation, while Security & Privacy is tested in Computer Vision (CV) systems, Application Platforms, and Natural Language Processing (NLP) systems.
- Abstract(参考訳): 近年,機械学習とディープラーニング(ML/DL)アルゴリズムが多くのソフトウェアシステムで採用されている。
インダクティブな性質のため、これらのシステムの品質を保証することは、研究コミュニティにとって重要な課題である。
明示的なルールを書くことによって演能的に作られた従来のソフトウェアとは異なり、ML/DLシステムはトレーニングデータからルールを推論する。
ML/DLの品質保証に関する最近の研究は、信頼性を向上させるために、突然変異テストのような従来のソフトウェアテストの概念を適用している。
しかし、これらの提案されたテスト技術が実際に採用されているのか、あるいは、現実のMLデプロイメントから新しいテスト戦略が現れたのかは不明だ。
テスト戦略に関する実証的な証拠はほとんどありません。
このギャップを埋めるために、私たちは、テスト中のMLプロパティ、テスト戦略、およびMLワークフロー全体を通しての実装を特定するために、世界で初めて、MLテストに関する詳細な実証的研究を行います。
我々はMLソフトウェアテストの実践を理解するために混合方法論の研究を行った。
GitHub上の11のオープンソースML/DLプロジェクトのテストファイルとケースを分析した。
オープンコーディングを用いて,テスト戦略を手作業で検証し,ML/DLソフトウェアシステムの構築・リリースにおける実践的応用を理解するためのテスト手法を実装した。
私たちの発見は、いくつかの重要な洞察を浮き彫りにした。
1.) 最も一般的なテスト戦略はGrey-boxメソッドとWhite-boxメソッドです。
2) 幅広い17のMLプロパティがテストされ、そのうち20%から30%しか頻繁にテストされない。
3. バイアスと公正性は勧告においてよりテストされ、セキュリティとプライバシはコンピュータビジョン(CV)システム、アプリケーションプラットフォーム、自然言語処理(NLP)システムでテストされる。
関連論文リスト
- Large-scale, Independent and Comprehensive study of the power of LLMs for test case generation [11.056044348209483]
クラスやメソッドなどのコードモジュールのバグを特定するのに不可欠なユニットテストは、時間的制約のため、開発者によって無視されることが多い。
GPTやMistralのようなLarge Language Models (LLM)は、テスト生成を含むソフトウェア工学における約束を示す。
論文 参考訳(メタデータ) (2024-06-28T20:38:41Z) - Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [85.51252685938564]
不確実性定量化(UQ)は、機械学習(ML)に依存するアプリケーションの重要なコンポーネントとして、ますます認識されつつある。
他のMLモデルと同様に、大きな言語モデル(LLM)は、クレームを作成することによって誤った予測をする傾向があり、あるいは与えられた入力に対して単に低品質の出力を生成する。
本稿では,最先端のUQベースラインの集合を実装した新しいベンチマークを提案し,新しいテクニックを制御可能かつ一貫した評価を行う環境を提供する。
論文 参考訳(メタデータ) (2024-06-21T20:06:31Z) - Fuzzy Inference System for Test Case Prioritization in Software Testing [0.0]
テストケース優先順位付け(TCP)は、テスト効率を高めるための重要な戦略である。
本稿では,新しいファジィ論理に基づくTCP自動化手法を提案する。
論文 参考訳(メタデータ) (2024-04-25T08:08:54Z) - Reinforcement Learning from Automatic Feedback for High-Quality Unit
Test Generation [13.658632458850144]
大規模言語モデル(LLM)は、テストケースの自動生成を含むコード生成で人気を集めている。
LLMは、多くの場合、大量の公開コードでトレーニングされ、ベストプラクティスに従わないテストケースを含む。
RLSQM(Reinforcement Learning from Static Quality Metrics)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-10-03T18:48:31Z) - Effective Test Generation Using Pre-trained Large Language Models and
Mutation Testing [13.743062498008555]
大規模言語モデル(LLM)が生成するテストケースの有効性を,バグの発見の観点から改善するための MuTAP を導入する。
MuTAPは、プログラム・アンダー・テスト(PUT)の自然言語記述がない場合に有効なテストケースを生成することができる
提案手法は, 最大28%の人書きコードスニペットを検出できることを示す。
論文 参考訳(メタデータ) (2023-08-31T08:48:31Z) - Efficiently Measuring the Cognitive Ability of LLMs: An Adaptive Testing
Perspective [63.92197404447808]
大きな言語モデル(LLM)は、人間のような認知能力を示している。
LLM評価のための適応テストフレームワークを提案する。
このアプローチは、モデルの性能に基づいて、難易度などのテスト問題の特徴を動的に調整する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - PyTrial: Machine Learning Software and Benchmark for Clinical Trial
Applications [49.69824178329405]
PyTrialは、臨床試験の設計と運用のための一連の機械学習アルゴリズムのベンチマークとオープンソース実装を提供する。
患者結果予測,臨床試験サイト選択,トライアル結果予測,患者と臨床のマッチング,トライアル類似性検索,合成データ生成など,6つのタスクにわたる臨床試験のための34のMLアルゴリズムを網羅的に検討した。
PyTrialは、データローディング、モデル仕様、モデルトレーニング、モデル評価という、単純な4段階のプロセスで各タスクを定義します。
論文 参考訳(メタデータ) (2023-06-06T21:19:03Z) - The Integration of Machine Learning into Automated Test Generation: A
Systematic Mapping Study [15.016047591601094]
我々は、新しい研究、テストプラクティス、研究者の目標、適用されたML技術、評価、課題を特徴づける。
MLはシステム、GUI、ユニット、パフォーマンス、テストのための入力を生成したり、既存の生成メソッドのパフォーマンスを改善したりする。
論文 参考訳(メタデータ) (2022-06-21T09:26:25Z) - Practical Machine Learning Safety: A Survey and Primer [81.73857913779534]
自動運転車のような安全クリティカルなアプリケーションにおける機械学習アルゴリズムのオープンワールド展開は、さまざまなML脆弱性に対処する必要がある。
一般化エラーを低減し、ドメイン適応を実現し、外乱例や敵攻撃を検出するための新しいモデルと訓練技術。
我々の組織は、MLアルゴリズムの信頼性を異なる側面から向上するために、最先端のML技術を安全戦略にマッピングする。
論文 参考訳(メタデータ) (2021-06-09T05:56:42Z) - Dynamic Causal Effects Evaluation in A/B Testing with a Reinforcement
Learning Framework [68.96770035057716]
A/Bテスト(A/B Testing)は、新しい製品を製薬、技術、伝統産業の古い製品と比較するビジネス戦略である。
本稿では,オンライン実験においてA/Bテストを実施するための強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-05T10:25:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。