論文の概要: Test & Evaluation Best Practices for Machine Learning-Enabled Systems
- arxiv url: http://arxiv.org/abs/2310.06800v1
- Date: Tue, 10 Oct 2023 17:11:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 01:25:13.306917
- Title: Test & Evaluation Best Practices for Machine Learning-Enabled Systems
- Title(参考訳): 機械学習対応システムのテストと評価ベストプラクティス
- Authors: Jaganmohan Chandrasekaran, Tyler Cody, Nicola McCarthy, Erin Lanus,
Laura Freeman
- Abstract要約: 機械学習(ML)ベースのソフトウェアシステムは、さまざまな領域で急速に普及している。
本報告では,ML対応ソフトウェアシステムのライフサイクル全体にわたるテスト・評価(T&E)のベストプラクティスについて述べる。
- 参考スコア(独自算出の注目度): 7.148282824413932
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning (ML) - based software systems are rapidly gaining adoption
across various domains, making it increasingly essential to ensure they perform
as intended. This report presents best practices for the Test and Evaluation
(T&E) of ML-enabled software systems across its lifecycle. We categorize the
lifecycle of ML-enabled software systems into three stages: component,
integration and deployment, and post-deployment. At the component level, the
primary objective is to test and evaluate the ML model as a standalone
component. Next, in the integration and deployment stage, the goal is to
evaluate an integrated ML-enabled system consisting of both ML and non-ML
components. Finally, once the ML-enabled software system is deployed and
operationalized, the T&E objective is to ensure the system performs as
intended. Maintenance activities for ML-enabled software systems span the
lifecycle and involve maintaining various assets of ML-enabled software
systems.
Given its unique characteristics, the T&E of ML-enabled software systems is
challenging. While significant research has been reported on T&E at the
component level, limited work is reported on T&E in the remaining two stages.
Furthermore, in many cases, there is a lack of systematic T&E strategies
throughout the ML-enabled system's lifecycle. This leads practitioners to
resort to ad-hoc T&E practices, which can undermine user confidence in the
reliability of ML-enabled software systems. New systematic testing approaches,
adequacy measurements, and metrics are required to address the T&E challenges
across all stages of the ML-enabled system lifecycle.
- Abstract(参考訳): 機械学習(ML)ベースのソフトウェアシステムは、さまざまなドメインにまたがって急速に採用されつつある。
本報告では,ML対応ソフトウェアシステムのライフサイクルにおけるテスト・評価(T&E)のベストプラクティスについて述べる。
ML対応ソフトウェアシステムのライフサイクルを,コンポーネント,統合とデプロイメント,デプロイ後の3段階に分類する。
コンポーネントレベルでの主な目的は、mlモデルをスタンドアロンコンポーネントとしてテストし、評価することである。
次に、インテグレーションとデプロイメントの段階では、MLコンポーネントと非MLコンポーネントの両方で構成される統合ML対応システムを評価することが目標である。
最後に、ML対応のソフトウェアシステムがデプロイおよび運用されると、T&Eの目的はシステムが意図した通りに動作することを保証することである。
ML対応ソフトウェアシステムの保守活動はライフサイクルにまたがり、ML対応ソフトウェアシステムの様々な資産の維持に関わる。
その特徴から、ML対応ソフトウェアシステムのT&Eは困難である。
コンポーネントレベルでのT&Eに関する重要な研究が報告されているが、残りの2段階のT&Eについては限定的な研究が報告されている。
さらに、多くの場合、ML対応システムのライフサイクル全体を通して、体系的なT&E戦略が欠如している。
これにより、実践者は、ML対応ソフトウェアシステムの信頼性に対するユーザの信頼を損なう、アドホックなT&Eプラクティスに頼ることができる。
ML対応システムライフサイクルの全段階にわたるT&E課題に対処するために、新しい体系的テストアプローチ、妥当性測定、メトリクスが必要である。
関連論文リスト
- A Large-Scale Study of Model Integration in ML-Enabled Software Systems [4.776073133338119]
機械学習(ML)とそのシステムへの組み込みは、ソフトウェア集約システムのエンジニアリングを大きく変えた。
伝統的に、ソフトウェアエンジニアリングは、ソースコードやそれらを作成するプロセスなど、手作業で作成したアーティファクトに焦点を当てている。
我々は、GitHub上で2,928以上のオープンソースシステムをカバーする、実際のML対応ソフトウェアシステムに関する最初の大規模な研究を提示する。
論文 参考訳(メタデータ) (2024-08-12T15:28:40Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - ChEF: A Comprehensive Evaluation Framework for Standardized Assessment
of Multimodal Large Language Models [49.48109472893714]
MLLM(Multimodal Large Language Models)は、視覚コンテンツと無数の下流タスクとを相互作用する優れた能力を示す。
本稿では,各MLLMを全体プロファイルし,異なるMLLMを比較した最初の総合評価フレームワーク(ChEF)を提案する。
詳細な実装をすべて公開して、さらなる分析と、新しいレシピやモデルを統合するための使い易いモジュラーツールキットを提供します。
論文 参考訳(メタデータ) (2023-11-05T16:01:40Z) - Vulnerability of Machine Learning Approaches Applied in IoT-based Smart Grid: A Review [51.31851488650698]
機械学習(ML)は、IoT(Internet-of-Things)ベースのスマートグリッドでの使用頻度が高まっている。
電力信号に注入された逆方向の歪みは システムの正常な制御と操作に大きな影響を及ぼす
安全クリティカルパワーシステムに適用されたMLsgAPPの脆弱性評価を行うことが不可欠である。
論文 参考訳(メタデータ) (2023-08-30T03:29:26Z) - Understanding the Complexity and Its Impact on Testing in ML-Enabled
Systems [8.630445165405606]
世界中の企業で広く採用されている産業対話システムであるRasa 3.0について検討する。
私たちのゴールは、このような大規模なML対応システムの複雑さを特徴づけ、テストにおける複雑さの影響を理解することです。
本研究は,ML対応システムにおけるソフトウェア工学の実践的意義を明らかにする。
論文 参考訳(メタデータ) (2023-01-10T08:13:24Z) - SoK: Machine Learning Governance [16.36671448193025]
このような利益とリスクのバランスをとるため、MLガバナンスの概念を開発します。
私たちは、MLシステムの障害の原因となるプリンシパルを保持するためにアイデンティティを使用します。
私たちは、モデルオーナーがシステムのライフサイクルを管理することができる技術の必要性を強調します。
論文 参考訳(メタデータ) (2021-09-20T17:56:22Z) - Declarative Machine Learning Systems [7.5717114708721045]
機械学習(ML)は、学術的な取り組みから、コンピューティングのほぼすべての側面で採用されている普及した技術へと移行してきた。
近年の自然科学におけるMLの適用の成功により、MLは人類が直面する最も困難な現実世界問題に対処するために利用できることが明らかとなった。
MLシステムの次の波は、おそらくコーディングスキルなしで、より多くの人が同じタスクを実行できると信じています。
論文 参考訳(メタデータ) (2021-07-16T23:57:57Z) - Characterizing and Detecting Mismatch in Machine-Learning-Enabled
Systems [1.4695979686066065]
機械学習システムの開発と展開は依然として課題だ。
本論文では,エンドツーエンドのML対応システム開発における知見とその意義について報告する。
論文 参考訳(メタデータ) (2021-03-25T19:40:29Z) - White Paper Machine Learning in Certified Systems [70.24215483154184]
DEEL Project set-up the ML Certification 3 Workgroup (WG) set-up by the Institut de Recherche Technologique Saint Exup'ery de Toulouse (IRT)
論文 参考訳(メタデータ) (2021-03-18T21:14:30Z) - Technology Readiness Levels for Machine Learning Systems [107.56979560568232]
機械学習システムの開発とデプロイは、現代のツールで簡単に実行できますが、プロセスは一般的に急ぎ、エンドツーエンドです。
私たちは、機械学習の開発と展開のための実証済みのシステムエンジニアリングアプローチを開発しました。
当社の「機械学習技術準備レベル」フレームワークは、堅牢で信頼性が高く、責任あるシステムを確保するための原則的なプロセスを定義します。
論文 参考訳(メタデータ) (2021-01-11T15:54:48Z) - Technology Readiness Levels for AI & ML [79.22051549519989]
機械学習システムの開発は、現代的なツールで容易に実行できるが、プロセスは通常急いで、エンドツーエンドで実行される。
エンジニアリングシステムは、高品質で信頼性の高い結果の開発を効率化するために、明確に定義されたプロセスとテスト標準に従います。
我々は、機械学習の開発と展開のための実証されたシステムエンジニアリングアプローチを提案する。
論文 参考訳(メタデータ) (2020-06-21T17:14:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。