Fugu-MT 論文翻訳(概要): Using Quality Attribute Scenarios for ML Model Test Case Generation

論文の概要: Using Quality Attribute Scenarios for ML Model Test Case Generation

arxiv url: http://arxiv.org/abs/2406.08575v1
Date: Wed, 12 Jun 2024 18:26:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-14 22:27:16.676326
Title: Using Quality Attribute Scenarios for ML Model Test Case Generation
Title（参考訳）: MLモデルテストケース生成における品質属性シナリオの利用
Authors: Rachel Brower-Sinning, Grace A. Lewis, Sebastían Echeverría, Ipek Ozkaya,
Abstract要約: 機械学習(ML)モデルテストの現在のプラクティスは、モデルパフォーマンスのテストの優先順位付けである。本稿では,品質属性(QA)のシナリオに基づいて,システムおよびモデル関連テストケースを抽出,定義する手法を提案する。 QAベースのアプローチはMLモデルテストと評価をサポートするプロセスとツールであるMLTEに統合されている。
参考スコア（独自算出の注目度）: 3.9111051646728527
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Testing of machine learning (ML) models is a known challenge identified by researchers and practitioners alike. Unfortunately, current practice for ML model testing prioritizes testing for model performance, while often neglecting the requirements and constraints of the ML-enabled system that integrates the model. This limited view of testing leads to failures during integration, deployment, and operations, contributing to the difficulties of moving models from development to production. This paper presents an approach based on quality attribute (QA) scenarios to elicit and define system- and model-relevant test cases for ML models. The QA-based approach described in this paper has been integrated into MLTE, a process and tool to support ML model test and evaluation. Feedback from users of MLTE highlights its effectiveness in testing beyond model performance and identifying failures early in the development process.
Abstract（参考訳）: 機械学習モデル(ML)のテストは、研究者や実践家によって特定される既知の課題である。残念なことに、MLモデルテストの現在のプラクティスは、モデルのパフォーマンスを優先する一方で、モデルを統合するML対応システムの要件と制約を無視することが多い。この限定的なテストの見方は、統合やデプロイメント、運用の失敗につながります。本稿では、MLモデルのシステムおよびモデル関連テストケースを抽出し、定義するための品質属性(QA)シナリオに基づくアプローチを提案する。本稿では,MLモデルテストと評価を支援するプロセスとツールであるMLTEにQAベースのアプローチを組み込んだ。 MLTEのユーザからのフィードバックは、モデルパフォーマンスを超えたテストの有効性を強調し、開発プロセスの初期段階で障害を特定する。

関連論文リスト

FACT-AUDIT: An Adaptive Multi-Agent Framework for Dynamic Fact-Checking Evaluation of Large Language Models [79.41859481668618]
大規模言語モデル(LLM)はファクトチェック研究を大幅に進歩させた。既存のファクトチェック評価手法は静的データセットと分類基準に依存している。本稿では, LLMのファクトチェック機能を適応的かつ動的に評価するエージェント駆動型フレームワークであるFACT-AUDITを紹介する。
論文参考訳（メタデータ） (2025-02-25T07:44:22Z)
Context-Aware Testing: A New Paradigm for Model Testing with Large Language Models [49.06068319380296]
我々は,コンテキストを帰納バイアスとして用いて意味のあるモデル障害を探索するコンテキスト認識テスト(CAT)を導入する。最初のCATシステムSMART Testingをインスタンス化し、大きな言語モデルを用いて、関連性があり、起こりうる失敗を仮説化します。
論文参考訳（メタデータ） (2024-10-31T15:06:16Z)
SYNTHEVAL: Hybrid Behavioral Testing of NLP Models with Synthetic CheckLists [59.08999823652293]
我々は,NLPモデルの包括的評価のために,SyntheVALを提案する。最後の段階では、人間の専門家が困難な例を調査し、手動でテンプレートを設計し、タスク固有のモデルが一貫して示す障害の種類を特定します。我々は、感情分析と有害言語検出という2つの分類課題にSynTHEVALを適用し、これらの課題における強力なモデルの弱点を特定するのに、我々のフレームワークが有効であることを示す。
論文参考訳（メタデータ） (2024-08-30T17:41:30Z)
Outline of an Independent Systematic Blackbox Test for ML-based Systems [0.0]
本稿では、実際のトレーニングプロセスとは無関係に、MLモデルとMLベースのシステムをテストするために使用できるテスト手順を提案する。このようにして、これらのモデルやシステムの精度や精度といった典型的な品質ステートメントを独立して検証することができる。
論文参考訳（メタデータ） (2024-01-30T14:41:28Z)
Test Generation Strategies for Building Failure Models and Explaining Spurious Failures [4.995172162560306]
テスト入力は、テスト対象のシステムが故障している場合だけでなく、入力が無効または非現実的である場合も失敗する。テストインプットに対して解釈可能なルールを推論し,重大な障害を引き起こす障害モデルを構築することを提案する。提案手法は, 平均精度83%の故障モデルを生成する。
論文参考訳（メタデータ） (2023-12-09T18:36:15Z)
Continuous Management of Machine Learning-Based Application Behavior [3.316045828362788]
機械学習モデルの非機能特性は、監視、検証、維持されなければならない。 MLベースのアプリケーションの安定な非機能動作を保証することを目的としたマルチモデルアプローチを提案する。非機能的プロパティフェアネスに着目した実世界のシナリオで,我々のソリューションを実験的に評価した。
論文参考訳（メタデータ） (2023-11-21T15:47:06Z)
QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。 QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文参考訳（メタデータ） (2023-11-06T00:21:44Z)
Learning continuous models for continuous physics [94.42705784823997]
本研究では,科学技術応用のための機械学習モデルを検証する数値解析理論に基づくテストを開発する。本研究は,従来のMLトレーニング/テスト手法と一体化して,科学・工学分野におけるモデルの検証を行う方法である。
論文参考訳（メタデータ） (2022-02-17T07:56:46Z)
Active Surrogate Estimators: An Active Learning Approach to Label-Efficient Model Evaluation [59.7305309038676]
モデル評価のためのアクティブサロゲート推定器(ASE)を提案する。 ASEは現在の最先端技術よりもラベル効率が高いことが分かりました。
論文参考訳（メタデータ） (2022-02-14T17:15:18Z)
Mutation Testing framework for Machine Learning [0.0]
機械学習モデルの失敗は、生命や財産の喪失という観点から、深刻な結果をもたらす可能性がある。世界中の開発者、科学者、そしてMLコミュニティは、重要なMLアプリケーションのための信頼性の高いテストアーキテクチャを構築しなければなりません。この記事では、機械学習システム(MLS)テスト、その進化、現在のパラダイム、将来の作業に関する洞察的な旅を提供します。
論文参考訳（メタデータ） (2021-02-19T18:02:31Z)
DirectDebug: Automated Testing and Debugging of Feature Models [55.41644538483948]
変数モデル(例えば、特徴モデル)は、ソフトウェアアーティファクトの変数と共通性を表現する一般的な方法である。複雑でしばしば大規模な機能モデルは欠陥になりうる、すなわち、ソフトウェアアーチファクトの期待される変動特性を表現しない。
論文参考訳（メタデータ） (2021-02-11T11:22:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。