論文の概要: Quality Model for Machine Learning Components
- arxiv url: http://arxiv.org/abs/2602.05043v1
- Date: Wed, 04 Feb 2026 20:50:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.613982
- Title: Quality Model for Machine Learning Components
- Title(参考訳): 機械学習コンポーネントの品質モデル
- Authors: Grace A. Lewis, Rachel Brower-Sinning, Robert Edman, Ipek Ozkaya, Sebastián Echeverría, Alex Derr, Collin Beaudoin, Katherine R. Maffey,
- Abstract要約: テストは、システムから派生した要件を考慮せずに、モデルパフォーマンスなどのモデルプロパティのテストに限られています。
新しい標準ISO 25059は、AIシステムのより具体的な品質モデルを定義する。
本稿では,MLコンポーネントの品質モデルを提案する。
- 参考スコア(独自算出の注目度): 3.654750616721868
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite increased adoption and advances in machine learning (ML), there are studies showing that many ML prototypes do not reach the production stage and that testing is still largely limited to testing model properties, such as model performance, without considering requirements derived from the system it will be a part of, such as throughput, resource consumption, or robustness. This limited view of testing leads to failures in model integration, deployment, and operations. In traditional software development, quality models such as ISO 25010 provide a widely used structured framework to assess software quality, define quality requirements, and provide a common language for communication with stakeholders. A newer standard, ISO 25059, defines a more specific quality model for AI systems. However, a problem with this standard is that it combines system attributes with ML component attributes, which is not helpful for a model developer, as many system attributes cannot be assessed at the component level. In this paper, we present a quality model for ML components that serves as a guide for requirements elicitation and negotiation and provides a common vocabulary for ML component developers and system stakeholders to agree on and define system-derived requirements and focus their testing efforts accordingly. The quality model was validated through a survey in which the participants agreed with its relevance and value. The quality model has been successfully integrated into an open-source tool for ML component testing and evaluation demonstrating its practical application.
- Abstract(参考訳): 機械学習(ML)の普及と進歩にもかかわらず、多くのMLプロトタイプが生産段階に達しておらず、テストは、システムから派生した要件を考慮せずに、モデルパフォーマンスなどのモデル特性のテストに限られている、という研究がある。
この限定的なテストのビューは、モデル統合、デプロイメント、オペレーションの失敗につながります。
従来のソフトウェア開発では、ISO 25010のような品質モデルは、ソフトウェアの品質を評価し、品質要件を定義し、ステークホルダーとコミュニケーションするための共通の言語を提供するために広く使用される構造化されたフレームワークを提供する。
新しい標準ISO 25059は、AIシステムのより具体的な品質モデルを定義する。
しかし、この標準の問題は、システム属性とMLコンポーネント属性を組み合わせることで、多くのシステム属性をコンポーネントレベルで評価できないため、モデル開発者にとっては役に立たない。
本稿では,MLコンポーネントの品質モデルについて,要件の付与と交渉のガイドとして機能し,MLコンポーネント開発者とシステムステークホルダーがシステム固有の要件に同意して定義し,それに従ってテスト作業に集中するための共通語彙を提供する。
品質モデルは、参加者がその妥当性と価値に同意した調査を通じて検証された。
品質モデルは、MLコンポーネントのテストと評価のためのオープンソースのツールにうまく統合され、その実用的な応用を実証しています。
関連論文リスト
- OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging [124.91183814854126]
モデルマージは、複数のエキスパートモデルをひとつのモデルに組み合わせようとしている。
本稿ではMLLMのトレーニングと評価のタスクを明確に分割したモデルマージ研究のベンチマークを紹介する。
モデルマージは、トレーニングデータを必要とせずに改善されたMLLMを構築するための有望な方法であることがわかった。
論文 参考訳(メタデータ) (2025-05-26T12:23:14Z) - VideoGen-Eval: Agent-based System for Video Generation Evaluation [54.662739174367836]
ビデオ生成は、最先端のモデルを評価するのに、既存の評価システムを不十分にしている。
本稿では,コンテンツ構造化,MLLMに基づくコンテンツ判断,時空間次元のパッチツールを統合したエージェント評価システムであるVideoGen-Evalを提案する。
我々は,既存の最先端モデルを評価するためのビデオ生成ベンチマークを導入し,評価システムの有効性を検証する。
論文 参考訳(メタデータ) (2025-03-30T14:12:21Z) - Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark [62.58869921806019]
GPT-4oに基づくタスク分解評価フレームワークを提案し、新しいトレーニングデータセットを自動構築する。
我々は、GPT-4oの評価能力を7BオープンソースMLLM、MiniCPM-V-2.6に効果的に蒸留するための革新的なトレーニング戦略を設計する。
実験結果から,我々の蒸留したオープンソースMLLMは,現在のGPT-4oベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2024-11-23T08:06:06Z) - Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - Using Quality Attribute Scenarios for ML Model Test Case Generation [3.9111051646728527]
機械学習(ML)モデルテストの現在のプラクティスは、モデルパフォーマンスのテストの優先順位付けである。
本稿では,品質属性(QA)のシナリオに基づいて,システムおよびモデル関連テストケースを抽出,定義する手法を提案する。
QAベースのアプローチはMLモデルテストと評価をサポートするプロセスとツールであるMLTEに統合されている。
論文 参考訳(メタデータ) (2024-06-12T18:26:42Z) - MLTEing Models: Negotiating, Evaluating, and Documenting Model and
System Qualities [1.1352560842946413]
MLTEは機械学習モデルとシステムを評価するためのフレームワークと実装である。
最先端の評価テクニックを組織プロセスにコンパイルする。
MLTEツールは、モデル要件を表現するためにチームが使用できるドメイン固有の言語を提供することで、このプロセスをサポートする。
論文 参考訳(メタデータ) (2023-03-03T15:10:38Z) - Mutation Testing framework for Machine Learning [0.0]
機械学習モデルの失敗は、生命や財産の喪失という観点から、深刻な結果をもたらす可能性がある。
世界中の開発者、科学者、そしてMLコミュニティは、重要なMLアプリケーションのための信頼性の高いテストアーキテクチャを構築しなければなりません。
この記事では、機械学習システム(MLS)テスト、その進化、現在のパラダイム、将来の作業に関する洞察的な旅を提供します。
論文 参考訳(メタデータ) (2021-02-19T18:02:31Z) - Towards Guidelines for Assessing Qualities of Machine Learning Systems [1.715032913622871]
本稿では,産業利用事例に基づくMLシステムの品質モデルの構築について述べる。
将来的には、MLシステムの種類によって、品質という用語がどう違うかを学びたいと考えています。
論文 参考訳(メタデータ) (2020-08-25T13:45:54Z) - MLModelScope: A Distributed Platform for Model Evaluation and
Benchmarking at Scale [32.62513495487506]
機械学習(ML)とディープラーニング(DL)のイノベーションは急速に導入され、研究者はそれらを分析して研究することが難しくなっている。
ML/DL評価の標準化と提供方法の欠如とともに、イノベーションを評価するための複雑な手続きは、コミュニティにとって大きな「痛点」である。
本稿では,MLModelScopeを提案する。MLModelScopeは,フレームワークやハードウェアに依存しない,カスタマイズ可能な設計で,反復可能で公平でスケーラブルなモデル評価とベンチマークを可能にする。
論文 参考訳(メタデータ) (2020-02-19T17:13:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。