論文の概要: Operationalizing Assurance Cases for Data Scientists: A Showcase of
Concepts and Tooling in the Context of Test Data Quality for Machine Learning
- arxiv url: http://arxiv.org/abs/2312.04917v1
- Date: Fri, 8 Dec 2023 09:34:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-11 15:38:07.106887
- Title: Operationalizing Assurance Cases for Data Scientists: A Showcase of
Concepts and Tooling in the Context of Test Data Quality for Machine Learning
- Title(参考訳): データサイエンティストのための保証ケースの運用:機械学習のためのテストデータ品質の文脈における概念とツールの紹介
- Authors: Lisa J\"ockel, Michael Kl\"as, Janek Gro{\ss}, Pascal Gerber, Markus
Scholz, Jonathan Eberle, Marc Teschner, Daniel Seifert, Richard Hawkins, John
Molloy, Jens Ottnad
- Abstract要約: 保証事例( Assurance Cases, AC)は、安全工学において、品質主張を構造化された方法で議論するための確立されたアプローチである。
我々は,データサイエンティストが日々使用している技術であるPythonとJupyter Notebookに基づいて,機械学習(ML)コンポーネントのためのACの運用を支援するフレームワークを提案する。
ノートブックを通じて文書化されたフレームワークのアプリケーションの結果は、既存のACツールに統合できる。
- 参考スコア(独自算出の注目度): 1.6403311770639912
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Assurance Cases (ACs) are an established approach in safety engineering to
argue quality claims in a structured way. In the context of quality assurance
for Machine Learning (ML)-based software components, ACs are also being
discussed and appear promising. Tools for operationalizing ACs do exist, yet
mainly focus on supporting safety engineers on the system level. However,
assuring the quality of an ML component within the system is commonly the
responsibility of data scientists, who are usually less familiar with these
tools. To address this gap, we propose a framework to support the
operationalization of ACs for ML components based on technologies that data
scientists use on a daily basis: Python and Jupyter Notebook. Our aim is to
make the process of creating ML-related evidence in ACs more effective. Results
from the application of the framework, documented through notebooks, can be
integrated into existing AC tools. We illustrate the application of the
framework on an example excerpt concerned with the quality of the test data.
- Abstract(参考訳): 保証ケース(acs)は、構造化された方法で品質要求を主張する安全工学における確立されたアプローチである。
機械学習(ML)ベースのソフトウェアコンポーネントの品質保証の文脈では、ACも議論され、有望なように見える。
ACを運用するためのツールは存在するが、主にシステムレベルでの安全エンジニアのサポートに焦点を当てている。
しかしながら、システム内のMLコンポーネントの品質を保証することは、一般的にデータサイエンティストの責任であり、これらのツールにはあまり馴染みがない。
このギャップに対処するため,データサイエンティストが日々使用している技術であるPythonとJupyter Notebookに基づいて,MLコンポーネント用のACの運用を支援するフレームワークを提案する。
我々の目的は、ACにおいてML関連の証拠を作成するプロセスをより効果的にすることである。
ノートブックを通じて文書化されたフレームワークのアプリケーションの結果は、既存のACツールに統合できる。
テストデータの品質に関する抜粋を例に挙げて,フレームワークの適用例を示す。
関連論文リスト
- Learning to Ask: When LLM Agents Meet Unclear Instruction [55.65312637965779]
大きな言語モデル(LLM)は、言語スキルだけでは達成不可能なタスクに対処するための外部ツールを活用することができる。
我々は、不完全な命令下でのLLMツールの使用性能を評価し、エラーパターンを分析し、Noisy ToolBenchと呼ばれる挑戦的なツール使用ベンチマークを構築した。
Ask-when-Needed (AwN) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-31T23:06:12Z) - SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering [79.07755560048388]
SWEエージェント(SWE-agent)は、LMエージェントが自律的にコンピュータを使用してソフトウェア工学のタスクを解決するシステムである。
SWEエージェントのカスタムエージェントコンピュータインタフェース(ACI)は、エージェントがコードファイルを作成し編集し、リポジトリ全体をナビゲートし、テストやその他のプログラムを実行する能力を著しく向上させる。
我々はSWE-benchとHumanEvalFixのSWE-agentを評価し、それぞれ12.5%と87.7%のパス@1レートで最先端の性能を実現した。
論文 参考訳(メタデータ) (2024-05-06T17:41:33Z) - ChatSOS: LLM-based knowledge Q&A system for safety engineering [0.0]
本研究では,LLMに基づく安全工学のQ&Aシステムを導入し,モデルの理解と応答精度を向上させる。
我々は、外部知識データベースを組み込むために、即時エンジニアリングを採用し、LLMを最新かつ信頼性の高い情報で強化する。
以上の結果から,外部知識の統合は,奥行き問題解析や自律的なタスク割り当てにおいて,LLMの能力を大幅に向上させることが示唆された。
論文 参考訳(メタデータ) (2023-12-14T03:25:23Z) - ECS -- an Interactive Tool for Data Quality Assurance [63.379471124899915]
データ品質の保証のための新しいアプローチを提案する。
この目的のために、まず数学的基礎を議論し、そのアプローチを複数の例を用いて提示する。
これにより、安全クリティカルなシステムにおいて、潜在的に有害な特性を持つデータポイントが検出される。
論文 参考訳(メタデータ) (2023-07-10T06:49:18Z) - Quality Assurance in MLOps Setting: An Industrial Perspective [0.11470070927586014]
機械学習(ML)は、産業において、プロダクションシステムのコア機能を提供するために広く使われている。
生産需要と時間の制約のため、自動化されたソフトウェアエンジニアリングプラクティスは高い適用性を持つ。
本稿では,産業MLOpsにおけるQA課題について検討し,データ整合性とデータ品質を扱うためのモジュール戦略を概念化する。
論文 参考訳(メタデータ) (2022-11-23T05:02:24Z) - An Empirical Evaluation of Flow Based Programming in the Machine
Learning Deployment Context [11.028123436097616]
データ指向アーキテクチャ(DOA)は,課題に対処する上で,データサイエンティストやソフトウェア開発者を支援する,新たなアプローチである。
本稿では,フローベースプログラミング(FBP)をDOAアプリケーション作成のパラダイムとして考える。
我々は、典型的なデータサイエンスプロジェクトを表す4つのアプリケーション上で、MLデプロイメントの文脈において、FBPを実証的に評価する。
論文 参考訳(メタデータ) (2022-04-27T09:08:48Z) - What is Software Quality for AI Engineers? Towards a Thinning of the Fog [9.401273164668092]
本研究の目的は,AI/MLコンポーネントやコードの開発,統合,メンテナンスにおいて採用されるソフトウェア品質保証戦略を検討することである。
インタビューデータの質的分析により、AI/MLコンポーネントの開発における12の課題が明らかになった。
本研究の結果は,AI/MLコンポーネントのソフトウェア品質保証プロセスと技術に関する今後の研究を導くものである。
論文 参考訳(メタデータ) (2022-03-23T19:43:35Z) - Realistic simulation of users for IT systems in cyber ranges [63.20765930558542]
ユーザアクティビティを生成するために,外部エージェントを用いて各マシンを計測する。
このエージェントは、決定論的および深層学習に基づく手法を組み合わせて、異なる環境に適応する。
また,会話や文書の作成を容易にする条件付きテキスト生成モデルを提案する。
論文 参考訳(メタデータ) (2021-11-23T10:53:29Z) - Technology Readiness Levels for Machine Learning Systems [107.56979560568232]
機械学習システムの開発とデプロイは、現代のツールで簡単に実行できますが、プロセスは一般的に急ぎ、エンドツーエンドです。
私たちは、機械学習の開発と展開のための実証済みのシステムエンジニアリングアプローチを開発しました。
当社の「機械学習技術準備レベル」フレームワークは、堅牢で信頼性が高く、責任あるシステムを確保するための原則的なプロセスを定義します。
論文 参考訳(メタデータ) (2021-01-11T15:54:48Z) - Collective Knowledge: organizing research projects as a database of
reusable components and portable workflows with common APIs [0.2538209532048866]
この記事では、集合的知識フレームワーク(CKまたはcKnowledge)のモチベーションと概要について述べる。
CKの概念は、研究プロジェクトを研究成果物をカプセル化した再利用可能なコンポーネントに分解することである。
長期的な目標は、研究者と実践者を結びつけて、すべての知識を共有し再利用することで、イノベーションを加速させることである。
論文 参考訳(メタデータ) (2020-11-02T17:42:59Z) - Technology Readiness Levels for AI & ML [79.22051549519989]
機械学習システムの開発は、現代的なツールで容易に実行できるが、プロセスは通常急いで、エンドツーエンドで実行される。
エンジニアリングシステムは、高品質で信頼性の高い結果の開発を効率化するために、明確に定義されたプロセスとテスト標準に従います。
我々は、機械学習の開発と展開のための実証されたシステムエンジニアリングアプローチを提案する。
論文 参考訳(メタデータ) (2020-06-21T17:14:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。