Fugu-MT 論文翻訳(概要): Studying the Practices of Testing Machine Learning Software in the Wild

論文の概要: Studying the Practices of Testing Machine Learning Software in the Wild

arxiv url: http://arxiv.org/abs/2312.12604v1
Date: Tue, 19 Dec 2023 21:18:14 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-21 17:50:34.287819
Title: Studying the Practices of Testing Machine Learning Software in the Wild
Title（参考訳）: 野生における機械学習ソフトウェアテストの実践について
Authors: Moses Openja, Foutse Khomh, Armstrong Foundjem, Zhen Ming (Jack) Jiang, Mouna Abidi, Ahmed E. Hassan
Abstract要約: 私たちは、多くのソフトウェアシステムで機械学習(ML)アルゴリズムの採用が増えているのを目撃しています。これらのシステムのソフトウェア品質を保証することは、研究コミュニティにとって依然としてオープンな課題である。
参考スコア（独自算出の注目度）: 19.804344437508213
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Background: We are witnessing an increasing adoption of machine learning (ML), especially deep learning (DL) algorithms in many software systems, including safety-critical systems such as health care systems or autonomous driving vehicles. Ensuring the software quality of these systems is yet an open challenge for the research community, mainly due to the inductive nature of ML software systems. Traditionally, software systems were constructed deductively, by writing down the rules that govern the behavior of the system as program code. However, for ML software, these rules are inferred from training data. Few recent research advances in the quality assurance of ML systems have adapted different concepts from traditional software testing, such as mutation testing, to help improve the reliability of ML software systems. However, it is unclear if any of these proposed testing techniques from research are adopted in practice. There is little empirical evidence about the testing strategies of ML engineers. Aims: To fill this gap, we perform the first fine-grained empirical study on ML testing practices in the wild, to identify the ML properties being tested, the followed testing strategies, and their implementation throughout the ML workflow. Method: First, we systematically summarized the different testing strategies (e.g., Oracle Approximation), the tested ML properties (e.g., Correctness, Bias, and Fairness), and the testing methods (e.g., Unit test) from the literature. Then, we conducted a study to understand the practices of testing ML software. Results: In our findings: 1) we identified four (4) major categories of testing strategy including Grey-box, White-box, Black-box, and Heuristic-based techniques that are used by the ML engineers to find software bugs. 2) We identified 16 ML properties that are tested in the ML workflow.
Abstract（参考訳）: 背景: マシンラーニング(ml)、特に、医療システムや自動運転車といった安全クリティカルなシステムを含む、多くのソフトウェアシステムにおけるディープラーニング(dl)アルゴリズムの採用が増加しているのを目撃しています。これらのシステムのソフトウェア品質を保証することは、主にMLソフトウェアシステムの帰納的な性質のため、研究コミュニティにとって依然としてオープンな課題である。伝統的に、ソフトウェアシステムはプログラムコードとしてシステムの振舞いを規定するルールを記述することによって演能的に構築された。しかし、MLソフトウェアの場合、これらのルールはトレーニングデータから推測される。 MLシステムの品質保証に関する最近の研究は、突然変異テストのような従来のソフトウェアテストとは異なる概念を適用し、MLソフトウェアシステムの信頼性向上に寄与している。しかし、これらの研究から提案された試験手法が実際に採用されているかは定かではない。 MLエンジニアのテスト戦略に関する実証的な証拠はほとんどない。 Aims: このギャップを埋めるために、テスト対象のMLプロパティ、それに続くテスト戦略、そしてMLワークフロー全体におけるそれらの実装を特定するために、MLテストプラクティスに関する初の詳細な実証的研究を行います。メソッド: まず、さまざまなテスト戦略(Oracle Approximationなど)、テストされたMLプロパティ(例えば、正確性、バイアス、公正性)、そしてテストメソッド(例えば、ユニットテスト)を文献から体系的に要約しました。そこで我々は,MLソフトウェアテストの実践を理解するために調査を行った。結果: 1) ソフトウェアバグ発見にmlエンジニアが使用するgrey-box, white-box, black-box, and heuristic-based techniqueの4つの主要なテスト戦略のカテゴリを特定した。 2) MLワークフローでテストされる16のMLプロパティを特定した。

関連論文リスト

Testing the Untestable? An Empirical Study on the Testing Process of LLM-Powered Software Systems [0.0]
本研究では,実世界のアプリケーション開発において,大規模言語モデルがどのようにテストされるかを検討する。ケーススタディは、LLMを利用したアプリケーションを大学コースの一部として構築・展開した学生によって書かれた99の個人レポートを用いて実施された。結果: LLMを利用したシステムをテストするには, 従来の検証手法に適応し, ソースレベルの推論と行動認識評価をブレンドする必要がある。
論文参考訳（メタデータ） (2025-07-31T22:39:24Z)
OpenUnlearning: Accelerating LLM Unlearning via Unified Benchmarking of Methods and Metrics [101.78963920333342]
我々は,大規模言語モデル(LLM)のアンラーニング手法とメトリクスをベンチマークするための標準フレームワークであるOpenUnlearningを紹介する。 OpenUnlearningは、9つのアンラーニングアルゴリズムと16のさまざまな評価を3つの主要なベンチマークで統合する。また、多様なアンラーニング手法をベンチマークし、広範囲な評価スイートとの比較分析を行う。
論文参考訳（メタデータ） (2025-06-14T20:16:37Z)
MLRC-Bench: Can Language Agents Solve Machine Learning Research Challenges? [64.62421656031128]
MLRC-Benchは、機械学習(ML)リサーチコンペティションの挑戦において、言語エージェントがいかに効果的に対処できるかを定量化するために設計されたベンチマークである。 MLRC-Benchは以前の研究とは異なり、新しい研究手法を提案し、実装する上で重要なステップを計測する。最も優れた試験薬でさえ、ベースラインとトップヒューマンのスコアの差の9.3%しか閉じていない。
論文参考訳（メタデータ） (2025-04-13T19:35:43Z)
ABFS: Natural Robustness Testing for LLM-based NLP Software [8.833542944724465]
自然言語処理(NLP)ソフトウェアにおけるLLM(Large Language Models)は、様々な領域で急速に普及している。これらの応用は、入力中のわずかな摂動が誤った出力につながるような堅牢性欠陥をしばしば示している。現在のロバストネス試験法は,(1) 試験効率の低下,(2) 試験ケースの自然性不足の2つの主な限界に直面している。
論文参考訳（メタデータ） (2025-03-03T09:02:06Z)
Assessing the Robustness of LLM-based NLP Software via Automated Testing [6.986328098563149]
本稿では,AutOmated Robustness Testing frAmework, AORTAを紹介する。本稿では,アダプティブビームサーチ (Adaptive Beam Search) と呼ばれる AORTA 内における LLM ベースのソフトウェアの新しいテスト手法を提案する。 ABSはLLMの広範な特徴空間に合わせて調整されており、適応ビーム幅とバックトラック機能により試験効率を向上させる。
論文参考訳（メタデータ） (2024-12-30T15:33:34Z)
Large-scale, Independent and Comprehensive study of the power of LLMs for test case generation [11.056044348209483]
クラスやメソッドなどのコードモジュールのバグを特定するのに不可欠なユニットテストは、時間的制約のため、開発者によって無視されることが多い。 GPTやMistralのようなLarge Language Models (LLM)は、テスト生成を含むソフトウェア工学における約束を示す。
論文参考訳（メタデータ） (2024-06-28T20:38:41Z)
Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化(英: Uncertainty Quantification、UQ)は、機械学習(ML)アプリケーションにおいて重要なコンポーネントである。最新のUQベースラインの集合を実装した新しいベンチマークを導入する。我々は、9つのタスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も有望なアプローチを特定した。
論文参考訳（メタデータ） (2024-06-21T20:06:31Z)
Fuzzy Inference System for Test Case Prioritization in Software Testing [0.0]
テストケース優先順位付け(TCP)は、テスト効率を高めるための重要な戦略である。本稿では,新しいファジィ論理に基づくTCP自動化手法を提案する。
論文参考訳（メタデータ） (2024-04-25T08:08:54Z)
Active Test-Time Adaptation: Theoretical Analyses and An Algorithm [51.84691955495693]
テスト時間適応(TTA)は、教師なし設定でストリーミングテストデータの分散シフトに対処する。完全TTA設定内に能動学習を統合する能動テスト時間適応(ATTA)の新たな問題設定を提案する。
論文参考訳（メタデータ） (2024-04-07T22:31:34Z)
Reinforcement Learning from Automatic Feedback for High-Quality Unit Test Generation [13.658632458850144]
大規模言語モデル(LLM)は、テストケースの自動生成を含むコード生成で人気を集めている。 LLMは、多くの場合、大量の公開コードでトレーニングされ、ベストプラクティスに従わないテストケースを含む。 RLSQM(Reinforcement Learning from Static Quality Metrics)と呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2023-10-03T18:48:31Z)
Effective Test Generation Using Pre-trained Large Language Models and Mutation Testing [13.743062498008555]
大規模言語モデル(LLM)が生成するテストケースの有効性を,バグの発見の観点から改善するための MuTAP を導入する。 MuTAPは、プログラム・アンダー・テスト(PUT)の自然言語記述がない場合に有効なテストケースを生成することができる提案手法は, 最大28%の人書きコードスニペットを検出できることを示す。
論文参考訳（メタデータ） (2023-08-31T08:48:31Z)
PyTrial: Machine Learning Software and Benchmark for Clinical Trial Applications [49.69824178329405]
PyTrialは、臨床試験の設計と運用のための一連の機械学習アルゴリズムのベンチマークとオープンソース実装を提供する。患者結果予測,臨床試験サイト選択,トライアル結果予測,患者と臨床のマッチング,トライアル類似性検索,合成データ生成など,6つのタスクにわたる臨床試験のための34のMLアルゴリズムを網羅的に検討した。 PyTrialは、データローディング、モデル仕様、モデルトレーニング、モデル評価という、単純な4段階のプロセスで各タスクを定義します。
論文参考訳（メタデータ） (2023-06-06T21:19:03Z)
The Integration of Machine Learning into Automated Test Generation: A Systematic Mapping Study [15.016047591601094]
我々は、新しい研究、テストプラクティス、研究者の目標、適用されたML技術、評価、課題を特徴づける。 MLはシステム、GUI、ユニット、パフォーマンス、テストのための入力を生成したり、既存の生成メソッドのパフォーマンスを改善したりする。
論文参考訳（メタデータ） (2022-06-21T09:26:25Z)
Practical Machine Learning Safety: A Survey and Primer [81.73857913779534]
自動運転車のような安全クリティカルなアプリケーションにおける機械学習アルゴリズムのオープンワールド展開は、さまざまなML脆弱性に対処する必要がある。一般化エラーを低減し、ドメイン適応を実現し、外乱例や敵攻撃を検出するための新しいモデルと訓練技術。我々の組織は、MLアルゴリズムの信頼性を異なる側面から向上するために、最先端のML技術を安全戦略にマッピングする。
論文参考訳（メタデータ） (2021-06-09T05:56:42Z)
Dynamic Causal Effects Evaluation in A/B Testing with a Reinforcement Learning Framework [68.96770035057716]
A/Bテスト(A/B Testing)は、新しい製品を製薬、技術、伝統産業の古い製品と比較するビジネス戦略である。本稿では,オンライン実験においてA/Bテストを実施するための強化学習フレームワークを提案する。
論文参考訳（メタデータ） (2020-02-05T10:25:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。