論文の概要: Quality Issues in Machine Learning Software Systems
- arxiv url: http://arxiv.org/abs/2306.15007v1
- Date: Mon, 26 Jun 2023 18:46:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-28 15:37:38.853745
- Title: Quality Issues in Machine Learning Software Systems
- Title(参考訳): 機械学習ソフトウェアシステムにおける品質問題
- Authors: Pierre-Olivier C\^ot\'e, Amin Nikanjam, Rached Bouchoucha, Ilan Basta,
Mouna Abidi, Foutse Khomh
- Abstract要約: 機械学習ソフトウェアシステムの品質を保証するためには、強いニーズがある。
本稿では,実践者の視点から,MLSSにおける実際の品質問題の特徴について考察する。
18の繰り返し発生する品質問題と、それを緩和するための24の戦略を特定します。
- 参考スコア(独自算出の注目度): 10.797981721308226
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Context: An increasing demand is observed in various domains to employ
Machine Learning (ML) for solving complex problems. ML models are implemented
as software components and deployed in Machine Learning Software Systems
(MLSSs). Problem: There is a strong need for ensuring the serving quality of
MLSSs. False or poor decisions of such systems can lead to malfunction of other
systems, significant financial losses, or even threats to human life. The
quality assurance of MLSSs is considered a challenging task and currently is a
hot research topic. Objective: This paper aims to investigate the
characteristics of real quality issues in MLSSs from the viewpoint of
practitioners. This empirical study aims to identify a catalog of quality
issues in MLSSs. Method: We conduct a set of interviews with
practitioners/experts, to gather insights about their experience and practices
when dealing with quality issues. We validate the identified quality issues via
a survey with ML practitioners. Results: Based on the content of 37 interviews,
we identified 18 recurring quality issues and 24 strategies to mitigate them.
For each identified issue, we describe the causes and consequences according to
the practitioners' experience. Conclusion: We believe the catalog of issues
developed in this study will allow the community to develop efficient quality
assurance tools for ML models and MLSSs. A replication package of our study is
available on our public GitHub repository.
- Abstract(参考訳): コンテキスト: 複雑な問題を解決するために機械学習(ML)を採用するために、さまざまな領域で需要が高まっている。
MLモデルはソフトウェアコンポーネントとして実装され、機械学習ソフトウェアシステム(MLSS)にデプロイされる。
問題:MLSSのサービス品質を保証するためには,強いニーズがある。
このようなシステムの不正または劣悪な決定は、他のシステムの誤動作、重大な財政的損失、さらには人間の生命への脅威につながる可能性がある。
MLSSの品質保証は難しい課題と考えられており、現在ホットな研究トピックとなっている。
目的:本稿は実践者の視点から,MLSSにおける実際の品質問題の特徴を考察することを目的とする。
本研究の目的は,MLSSにおける品質問題カタログの同定である。
方法: 品質問題に対処する際の経験や実践に関する洞察を得るために,実践者や専門家との一連のインタビューを実施します。
ml実践者による調査を通じて、特定した品質問題を検証する。
結果: インタビュー37件の内容から, 繰り返し発生する品質問題18件と対策24件を特定した。
それぞれの課題について,実践者の経験に基づいて原因と結果を説明する。
結論:本研究で開発された課題のカタログは,コミュニティがMLモデルやMLSSの効率的な品質保証ツールを開発できると考えている。
私たちの研究のレプリケーションパッケージは、githubリポジトリから入手できます。
関連論文リスト
- AGENT-CQ: Automatic Generation and Evaluation of Clarifying Questions for Conversational Search with LLMs [53.6200736559742]
エージェント-CQは、世代ステージと評価ステージの2つのステージから構成される。
CrowdLLMは、人間のクラウドソーシング判断をシミュレートして、生成された質問や回答を評価する。
ClariQデータセットの実験では、質問と回答の品質を評価するCrowdLLMの有効性が示されている。
論文 参考訳(メタデータ) (2024-10-25T17:06:27Z) - Demystifying Issues, Causes and Solutions in LLM Open-Source Projects [15.881912703104376]
LLMオープンソースソフトウェアの開発と利用において,実践者が直面する問題を理解するための実証的研究を行った。
LLMの15のオープンソースプロジェクトから、クローズドな問題をすべて収集し、要件を満たす問題をラベル付けしました。
本研究の結果から,モデル課題は実践者が直面する最も一般的な問題であることが示唆された。
論文 参考訳(メタデータ) (2024-09-25T02:16:45Z) - SUPER: Evaluating Agents on Setting Up and Executing Tasks from Research Repositories [55.161075901665946]
Superは、機械学習(ML)と自然言語処理(NLP)の研究リポジトリを扱う研究者が直面する現実的な課題を捉えることを目的としている。
本ベンチマークでは,注釈付きエキスパートソリューションを用いたエンドツーエンド問題45,特定の課題に焦点をあてたエキスパートソリューションから導いた152,大規模開発のための602の問題を自動生成する。
我々は、最先端のアプローチが、最良のモデル(GPT-4o)でこれらの問題を解決するのに苦労していることを示し、エンド・ツー・エンドの16.3%と46.1%のシナリオを解決した。
論文 参考訳(メタデータ) (2024-09-11T17:37:48Z) - Maintainability Challenges in ML: A Systematic Literature Review [5.669063174637433]
本研究の目的は,機械学習ワークフローのさまざまな段階における保守性課題を特定し,合成することである。
13,000件以上の論文を審査し、56件を質的に分析した。
論文 参考訳(メタデータ) (2024-08-17T13:24:15Z) - Competition-Level Problems are Effective LLM Evaluators [121.15880285283116]
本稿では,Codeforcesにおける最近のプログラミング問題の解決において,大規模言語モデル(LLM)の推論能力を評価することを目的とする。
まず,問題の発生時間,難易度,遭遇したエラーの種類など,様々な側面を考慮して,GPT-4の望ましくないゼロショット性能を総合的に評価する。
驚くべきことに、GPT-4のTheThoughtivedのパフォーマンスは、2021年9月以降、あらゆる困難と種類の問題に対して一貫して問題が減少するような崖を経験している。
論文 参考訳(メタデータ) (2023-12-04T18:58:57Z) - Status Quo and Problems of Requirements Engineering for Machine
Learning: Results from an International Survey [7.164324501049983]
要求工学(RE)は、機械学習対応システムにおいて多くの問題を解決するのに役立つ。
我々は,ML対応システムにおけるREの現状と問題点について,実践者の知見を収集する調査を行った。
MLプロジェクトでは,REプラクティスに有意な違いが認められた。
論文 参考訳(メタデータ) (2023-10-10T15:53:50Z) - SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models [70.5763210869525]
拡張ベンチマークスイートSciBench for Large Language Model (LLM)を導入する。
SciBenchには、数学、化学、物理学の分野から、さまざまな大学レベルの科学的問題を含むデータセットが含まれている。
その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは43.22%に過ぎなかった。
論文 参考訳(メタデータ) (2023-07-20T07:01:57Z) - A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。
本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2023-07-06T16:28:35Z) - Quality issues in Machine Learning Software Systems [12.655311590103238]
本稿では,実践者の視点から,MLSSにおける実際の品質問題の特徴について考察する。
このステップで開発された問題のカタログは、後にMLSSの品質問題に対する重症度、根本原因、および治療の可能性を特定するのにも役立ちそうです。
論文 参考訳(メタデータ) (2022-08-18T17:55:18Z) - Quality Assurance Challenges for Machine Learning Software Applications
During Software Development Life Cycle Phases [1.4213973379473654]
本稿では機械学習(ML)モデルの品質保証に関する文献の詳細なレビューを行う。
ソフトウェア開発ライフサイクル(SDLC)の異なる段階にまたがる様々なML導入課題をマッピングすることで、MLSA品質保証問題の分類法を開発する。
このマッピングは、MLモデルの採用が重要であると考えられるMLSAの品質保証の取り組みを優先するのに役立ちます。
論文 参考訳(メタデータ) (2021-05-03T22:29:23Z) - Understanding the Usability Challenges of Machine Learning In
High-Stakes Decision Making [67.72855777115772]
機械学習(ML)は、多種多様な成長を続ける一連のドメインに適用されている。
多くの場合、MLやデータサイエンスの専門知識を持たないドメインの専門家は、ML予測を使用してハイステークな意思決定を行うように求められます。
児童福祉スクリーニングにおけるMLユーザビリティの課題について,児童福祉スクリーニング者との一連のコラボレーションを通じて検討する。
論文 参考訳(メタデータ) (2021-03-02T22:50:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。