Fugu-MT 論文翻訳(概要): Quality issues in Machine Learning Software Systems

論文の概要: Quality issues in Machine Learning Software Systems

arxiv url: http://arxiv.org/abs/2208.08982v2
Date: Mon, 22 Aug 2022 17:43:10 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-23 10:33:34.785703
Title: Quality issues in Machine Learning Software Systems
Title（参考訳）: 機械学習ソフトウェアシステムにおける品質問題
Authors: Pierre-Olivier C\^ot\'e, Amin Nikanjam, Rached Bouchoucha, Foutse Khomh
Abstract要約: 本稿では,実践者の視点から,MLSSにおける実際の品質問題の特徴について考察する。このステップで開発された問題のカタログは、後にMLSSの品質問題に対する重症度、根本原因、および治療の可能性を特定するのにも役立ちそうです。
参考スコア（独自算出の注目度）: 12.655311590103238
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Context: An increasing demand is observed in various domains to employ Machine Learning (ML) for solving complex problems. ML models are implemented as software components and deployed in Machine Learning Software Systems (MLSSs). Problem: There is a strong need for ensuring the serving quality of MLSSs. False or poor decisions of such systems can lead to malfunction of other systems, significant financial losses, or even threat to human life. The quality assurance of MLSSs is considered as a challenging task and currently is a hot research topic. Moreover, it is important to cover all various aspects of the quality in MLSSs. Objective: This paper aims to investigate the characteristics of real quality issues in MLSSs from the viewpoint of practitioners. This empirical study aims to identify a catalog of bad-practices related to poor quality in MLSSs. Method: We plan to conduct a set of interviews with practitioners/experts, believing that interviews are the best method to retrieve their experience and practices when dealing with quality issues. We expect that the catalog of issues developed at this step will also help us later to identify the severity, root causes, and possible remedy for quality issues of MLSSs, allowing us to develop efficient quality assurance tools for ML models and MLSSs.
Abstract（参考訳）: コンテキスト: 複雑な問題を解決するために機械学習(ML)を採用するために、さまざまな領域で需要が高まっている。 MLモデルはソフトウェアコンポーネントとして実装され、機械学習ソフトウェアシステム(MLSS)にデプロイされる。問題:MLSSのサービス品質を保証するためには,強いニーズがある。このようなシステムの不正または劣悪な決定は、他のシステムの誤動作、重大な財政的損失、さらには人間の生命への脅威につながる可能性がある。 MLSSの品質保証は難しい課題と考えられており、現在ホットな研究トピックとなっている。さらに,MLSSにおける品質の諸側面を網羅することが重要である。目的:本稿は実践者の視点から,MLSSにおける実際の品質問題の特徴を考察することを目的とする。この実証研究は、MLSSの質の低下に関連する悪い実践のカタログを特定することを目的としている。方法: 実践者や専門家との一連のインタビューを実施し,品質問題に対処する上で,彼らの経験やプラクティスを取得するのにインタビューが最善の方法であると信じます。このステップで開発された問題のカタログは、MLSSの品質問題に対する重大度、根本原因、および可能な対策の特定にも役立ち、MLモデルやMLSSの効率的な品質保証ツールの開発を可能にします。

関連論文リスト

A Comprehensive Survey on Benchmarks and Solutions in Software Engineering of LLM-Empowered Agentic System [56.40989626804489]
この調査は、Large Language Modelsを使ったソフトウェアエンジニアリングに関する、最初の総合的な分析を提供する。本稿では,150以上の最近の論文をレビューし,(1)素早い,微調整,エージェントベースのパラダイムに分類した解法,(2)コード生成,翻訳,修復などのタスクを含むベンチマークという2つの重要な側面に沿った分類法を提案する。
論文参考訳（メタデータ） (2025-10-10T06:56:50Z)
Empowering Multimodal LLMs with External Tools: A Comprehensive Survey [61.66069828956139]
MLLM(Multimodal Large Language Models)は、人工知能への有望な経路を指して、様々なマルチモーダルタスクにおいて大きな成功を収めた。マルチモーダルデータの欠如、複雑な下流タスクの性能の低下、不適切な評価プロトコルがMLLMの信頼性とより広範な適用性を妨げている。推論と問題解決の強化に外部ツールを活用する人間の能力にインスパイアされたMLLMを外部ツールで強化することは、これらの課題を克服するための有望な戦略を提供する。
論文参考訳（メタデータ） (2025-08-14T07:25:45Z)
SPARQL Query Generation with LLMs: Measuring the Impact of Training Data Memorization and Knowledge Injection [81.78173888579941]
大規模言語モデル(LLM)は、質問応答機能の品質を高めるのに適した方法と考えられている。 LLMはWebデータに基づいてトレーニングされており、ベンチマークや知識グラフがトレーニングデータに含まれているかどうかを研究者は制御できない。本稿では,自然言語質問からSPARQLクエリを生成し,LLMの品質を評価する手法を提案する。
論文参考訳（メタデータ） (2025-07-18T12:28:08Z)
ReliableMath: Benchmark of Reliable Mathematical Reasoning on Large Language Models [70.33764118171463]
大きな言語モデル(LLM)は、解決不可能な問題やその能力を超える問題に直面した時に、信頼できない応答を作る傾向があります。我々はオープンソースの解決可能問題と高品質の未解決問題を含むReliableMathデータセットを開発した。 LLMは解決不可能な問題を直接特定できず、常に生成された応答を生成する。
論文参考訳（メタデータ） (2025-07-03T19:19:44Z)
An Empirical Exploration of ChatGPT's Ability to Support Problem Formulation Tasks for Mission Engineering and a Documentation of its Performance Variability [0.0]
本稿では,大規模言語モデル(LLM)の品質と整合性について考察する。我々は、関連する参照問題、NASAの宇宙ミッション設計課題を特定し、ChatGPT-3.5のステークホルダ識別タスクの実行能力を文書化する。 LLMは人間の利害関係者の識別には有効であるが, 外部システムや環境要因の認識には不十分であることがわかった。
論文参考訳（メタデータ） (2025-02-05T17:58:23Z)
Leveraging Online Olympiad-Level Math Problems for LLMs Training and Contamination-Resistant Evaluation [55.21013307734612]
AoPS-Instructは60,000以上の高品質QAペアのデータセットである。 LiveAoPSBenchは、最新のフォーラムデータから派生したタイムスタンプによる進化的評価セットである。我々の研究は、高度な数学推論のための大規模で高品質なデータセットの作成と維持にスケーラブルなアプローチを提示している。
論文参考訳（メタデータ） (2025-01-24T06:39:38Z)
A Real-World Benchmark for Evaluating Fine-Grained Issue Solving Capabilities of Large Language Models [11.087034068992653]
FAUN-Eval は LLM の Fine-grAined issUe solviNg 機能を評価するために特別に設計されたベンチマークである。 30の有名なGitHubリポジトリからキュレートされたデータセットを使って構築されている。 FAUN-Evalでは,4つのクローズドソースモデルと6つのオープンソースモデルを含む10個のLLMを評価した。
論文参考訳（メタデータ） (2024-11-27T03:25:44Z)
AGENT-CQ: Automatic Generation and Evaluation of Clarifying Questions for Conversational Search with LLMs [53.6200736559742]
エージェント-CQは、世代ステージと評価ステージの2つのステージから構成される。 CrowdLLMは、人間のクラウドソーシング判断をシミュレートして、生成された質問や回答を評価する。 ClariQデータセットの実験では、質問と回答の品質を評価するCrowdLLMの有効性が示されている。
論文参考訳（メタデータ） (2024-10-25T17:06:27Z)
ELOQ: Resources for Enhancing LLM Detection of Out-of-Scope Questions [52.33835101586687]
本研究では,検索した文書が意味的に類似しているように見えるスコープ外質問について検討するが,答えるために必要な情報がない。本稿では,閉経後の文書から多様なスコープ外質問を自動的に生成するための,幻覚に基づくELOQを提案する。
論文参考訳（メタデータ） (2024-10-18T16:11:29Z)
Understanding the Role of LLMs in Multimodal Evaluation Benchmarks [77.59035801244278]
本稿では,MLLM評価におけるLarge Language Model (LLM)バックボーンの役割について検討する。本研究は4つのMLLMベンチマークと8つの最先端MLLMベンチマークを含む。鍵となる発見は、いくつかのベンチマークでは視覚的な入力がなくても高いパフォーマンスを実現しており、最大50%のエラーレートは、LLMバックボーンにおける不十分な世界的知識に起因していることを示している。
論文参考訳（メタデータ） (2024-10-16T07:49:13Z)
Maintainability Challenges in ML: A Systematic Literature Review [5.669063174637433]
本研究の目的は,機械学習ワークフローのさまざまな段階における保守性課題を特定し,合成することである。 13,000件以上の論文を審査し、56件を質的に分析した。
論文参考訳（メタデータ） (2024-08-17T13:24:15Z)
MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains [54.117238759317004]
大規模マルチタスクエージェント理解(MMAU)ベンチマークは、複雑な環境設定を必要としない包括的なオフラインタスクを特徴としている。ツールユース、DAG(Directed Acyclic Graph)QA、データサイエンスと機械学習コーディング、コンテストレベルのプログラミング、数学の5分野にわたるモデルを評価する。 3K以上の異なるプロンプトを含む20の精巧に設計されたタスクにより、MMAUはLLMエージェントの強度と限界を評価するための包括的なフレームワークを提供する。
論文参考訳（メタデータ） (2024-07-18T00:58:41Z)
Competition-Level Problems are Effective LLM Evaluators [121.15880285283116]
本稿では,Codeforcesにおける最近のプログラミング問題の解決において,大規模言語モデル(LLM)の推論能力を評価することを目的とする。まず,問題の発生時間,難易度,遭遇したエラーの種類など,様々な側面を考慮して,GPT-4の望ましくないゼロショット性能を総合的に評価する。驚くべきことに、GPT-4のTheThoughtivedのパフォーマンスは、2021年9月以降、あらゆる困難と種類の問題に対して一貫して問題が減少するような崖を経験している。
論文参考訳（メタデータ） (2023-12-04T18:58:57Z)
Towards Self-Adaptive Machine Learning-Enabled Systems Through QoS-Aware Model Switching [1.2277343096128712]
本稿では,機械学習モデルバランサの概念を提案し,複数のモデルを用いてMLモデルに関連する不確実性を管理する。 AdaMLSは、この概念を活用し、従来のMAPE-Kループを拡張した新しい自己適応手法である。予備的な結果は、AdaMLSが保証において、単純で単一の最先端モデルを上回ることを示唆している。
論文参考訳（メタデータ） (2023-08-19T09:33:51Z)
A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文参考訳（メタデータ） (2023-07-06T16:28:35Z)
Quality Issues in Machine Learning Software Systems [10.103134260637402]
機械学習ソフトウェアシステムの品質を保証するためには、強いニーズがある。本稿では,実践者の視点から,MLSSにおける実際の品質問題の特徴について考察する。我々は18の反復的な品質問題と21の戦略を特定し、それらを緩和する。
論文参考訳（メタデータ） (2023-06-26T18:46:46Z)
How Can Recommender Systems Benefit from Large Language Models: A Survey [82.06729592294322]
大きな言語モデル(LLM)は、印象的な汎用知性と人間のような能力を示している。我々は,実世界のレコメンデータシステムにおけるパイプライン全体の観点から,この研究の方向性を包括的に調査する。
論文参考訳（メタデータ） (2023-06-09T11:31:50Z)
Quality Assurance Challenges for Machine Learning Software Applications During Software Development Life Cycle Phases [1.4213973379473654]
本稿では機械学習(ML)モデルの品質保証に関する文献の詳細なレビューを行う。ソフトウェア開発ライフサイクル(SDLC)の異なる段階にまたがる様々なML導入課題をマッピングすることで、MLSA品質保証問題の分類法を開発する。このマッピングは、MLモデルの採用が重要であると考えられるMLSAの品質保証の取り組みを優先するのに役立ちます。
論文参考訳（メタデータ） (2021-05-03T22:29:23Z)
Towards Guidelines for Assessing Qualities of Machine Learning Systems [1.715032913622871]
本稿では,産業利用事例に基づくMLシステムの品質モデルの構築について述べる。将来的には、MLシステムの種類によって、品質という用語がどう違うかを学びたいと考えています。
論文参考訳（メタデータ） (2020-08-25T13:45:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。