Fugu-MT 論文翻訳(概要): Operationalizing Assurance Cases for Data Scientists: A Showcase of Concepts and Tooling in the Context of Test Data Quality for Machine Learning

論文の概要: Operationalizing Assurance Cases for Data Scientists: A Showcase of Concepts and Tooling in the Context of Test Data Quality for Machine Learning

arxiv url: http://arxiv.org/abs/2312.04917v1
Date: Fri, 8 Dec 2023 09:34:46 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-11 15:38:07.106887
Title: Operationalizing Assurance Cases for Data Scientists: A Showcase of Concepts and Tooling in the Context of Test Data Quality for Machine Learning
Title（参考訳）: データサイエンティストのための保証ケースの運用:機械学習のためのテストデータ品質の文脈における概念とツールの紹介
Authors: Lisa J\"ockel, Michael Kl\"as, Janek Gro{\ss}, Pascal Gerber, Markus Scholz, Jonathan Eberle, Marc Teschner, Daniel Seifert, Richard Hawkins, John Molloy, Jens Ottnad
Abstract要約: 保証事例( Assurance Cases, AC)は、安全工学において、品質主張を構造化された方法で議論するための確立されたアプローチである。我々は,データサイエンティストが日々使用している技術であるPythonとJupyter Notebookに基づいて,機械学習(ML)コンポーネントのためのACの運用を支援するフレームワークを提案する。ノートブックを通じて文書化されたフレームワークのアプリケーションの結果は、既存のACツールに統合できる。
参考スコア（独自算出の注目度）: 1.6403311770639912
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Assurance Cases (ACs) are an established approach in safety engineering to argue quality claims in a structured way. In the context of quality assurance for Machine Learning (ML)-based software components, ACs are also being discussed and appear promising. Tools for operationalizing ACs do exist, yet mainly focus on supporting safety engineers on the system level. However, assuring the quality of an ML component within the system is commonly the responsibility of data scientists, who are usually less familiar with these tools. To address this gap, we propose a framework to support the operationalization of ACs for ML components based on technologies that data scientists use on a daily basis: Python and Jupyter Notebook. Our aim is to make the process of creating ML-related evidence in ACs more effective. Results from the application of the framework, documented through notebooks, can be integrated into existing AC tools. We illustrate the application of the framework on an example excerpt concerned with the quality of the test data.
Abstract（参考訳）: 保証ケース(acs)は、構造化された方法で品質要求を主張する安全工学における確立されたアプローチである。機械学習(ML)ベースのソフトウェアコンポーネントの品質保証の文脈では、ACも議論され、有望なように見える。 ACを運用するためのツールは存在するが、主にシステムレベルでの安全エンジニアのサポートに焦点を当てている。しかしながら、システム内のMLコンポーネントの品質を保証することは、一般的にデータサイエンティストの責任であり、これらのツールにはあまり馴染みがない。このギャップに対処するため,データサイエンティストが日々使用している技術であるPythonとJupyter Notebookに基づいて,MLコンポーネント用のACの運用を支援するフレームワークを提案する。我々の目的は、ACにおいてML関連の証拠を作成するプロセスをより効果的にすることである。ノートブックを通じて文書化されたフレームワークのアプリケーションの結果は、既存のACツールに統合できる。テストデータの品質に関する抜粋を例に挙げて,フレームワークの適用例を示す。

関連論文リスト

OS Agents: A Survey on MLLM-based Agents for General Computing Devices Use [101.57043903478257]
アイアンマンの架空のJ.A.R.V.I.Sほど有能で多用途なAIアシスタントを作る夢は、長い間想像力に恵まれてきた。マルチモーダル(multi-modal)な大きな言語モデル((M)LLMs)の進化により、この夢は現実に近づいている。本調査は,OSエージェント研究の現状を整理し,学術調査と産業開発の両方の指針を提供する。
論文参考訳（メタデータ） (2025-08-06T14:33:45Z)
SPARQL Query Generation with LLMs: Measuring the Impact of Training Data Memorization and Knowledge Injection [81.78173888579941]
大規模言語モデル(LLM)は、質問応答機能の品質を高めるのに適した方法と考えられている。 LLMはWebデータに基づいてトレーニングされており、ベンチマークや知識グラフがトレーニングデータに含まれているかどうかを研究者は制御できない。本稿では,自然言語質問からSPARQLクエリを生成し,LLMの品質を評価する手法を提案する。
論文参考訳（メタデータ） (2025-07-18T12:28:08Z)
Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文参考訳（メタデータ） (2025-05-28T17:57:47Z)
OntoGSN: An Ontology for Dynamic Management of Assurance Cases [0.3999851878220878]
IntoGSN: Ontology and support OWL for management ACs in the Goalcturing Notation (GSN) standard。 OntoGSNは知識表現とクエリ可能なグラフを提供する。我々は,大規模言語モデルにおけるロバスト性の保証を含む事例において,コントリビューションの有用性を実証する。
論文参考訳（メタデータ） (2025-05-20T08:15:16Z)
Learning to Ask: When LLM Agents Meet Unclear Instruction [55.65312637965779]
大きな言語モデル(LLM)は、言語スキルだけでは達成不可能なタスクに対処するための外部ツールを活用することができる。我々は、不完全な命令下でのLLMツールの使用性能を評価し、エラーパターンを分析し、Noisy ToolBenchと呼ばれる挑戦的なツール使用ベンチマークを構築した。 Ask-when-Needed (AwN) という新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-08-31T23:06:12Z)
SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering [79.07755560048388]
SWEエージェント(SWE-agent)は、LMエージェントが自律的にコンピュータを使用してソフトウェア工学のタスクを解決するシステムである。 SWEエージェントのカスタムエージェントコンピュータインタフェース(ACI)は、エージェントがコードファイルを作成し編集し、リポジトリ全体をナビゲートし、テストやその他のプログラムを実行する能力を著しく向上させる。我々はSWE-benchとHumanEvalFixのSWE-agentを評価し、それぞれ12.5%と87.7%のパス@1レートで最先端の性能を実現した。
論文参考訳（メタデータ） (2024-05-06T17:41:33Z)
ChatSOS: LLM-based knowledge Q&A system for safety engineering [0.0]
本研究では,LLMに基づく安全工学のQ&Aシステムを導入し,モデルの理解と応答精度を向上させる。我々は、外部知識データベースを組み込むために、即時エンジニアリングを採用し、LLMを最新かつ信頼性の高い情報で強化する。以上の結果から,外部知識の統合は,奥行き問題解析や自律的なタスク割り当てにおいて,LLMの能力を大幅に向上させることが示唆された。
論文参考訳（メタデータ） (2023-12-14T03:25:23Z)
Machine Learning-Enabled Software and System Architecture Frameworks [48.87872564630711]
データサイエンスと機械学習に関連する関心事、例えばデータサイエンティストやデータエンジニアの利害関係者は、まだ既存のアーキテクチャフレームワークには含まれていない。 10か国25以上の組織から61名の被験者を対象に調査を行った。
論文参考訳（メタデータ） (2023-08-09T21:54:34Z)
ECS -- an Interactive Tool for Data Quality Assurance [63.379471124899915]
データ品質の保証のための新しいアプローチを提案する。この目的のために、まず数学的基礎を議論し、そのアプローチを複数の例を用いて提示する。これにより、安全クリティカルなシステムにおいて、潜在的に有害な特性を持つデータポイントが検出される。
論文参考訳（メタデータ） (2023-07-10T06:49:18Z)
Quality Assurance in MLOps Setting: An Industrial Perspective [0.11470070927586014]
機械学習(ML)は、産業において、プロダクションシステムのコア機能を提供するために広く使われている。生産需要と時間の制約のため、自動化されたソフトウェアエンジニアリングプラクティスは高い適用性を持つ。本稿では,産業MLOpsにおけるQA課題について検討し,データ整合性とデータ品質を扱うためのモジュール戦略を概念化する。
論文参考訳（メタデータ） (2022-11-23T05:02:24Z)
An Empirical Evaluation of Flow Based Programming in the Machine Learning Deployment Context [11.028123436097616]
データ指向アーキテクチャ(DOA)は,課題に対処する上で,データサイエンティストやソフトウェア開発者を支援する,新たなアプローチである。本稿では,フローベースプログラミング(FBP)をDOAアプリケーション作成のパラダイムとして考える。我々は、典型的なデータサイエンスプロジェクトを表す4つのアプリケーション上で、MLデプロイメントの文脈において、FBPを実証的に評価する。
論文参考訳（メタデータ） (2022-04-27T09:08:48Z)
What is Software Quality for AI Engineers? Towards a Thinning of the Fog [9.401273164668092]
本研究の目的は,AI/MLコンポーネントやコードの開発,統合,メンテナンスにおいて採用されるソフトウェア品質保証戦略を検討することである。インタビューデータの質的分析により、AI/MLコンポーネントの開発における12の課題が明らかになった。本研究の結果は,AI/MLコンポーネントのソフトウェア品質保証プロセスと技術に関する今後の研究を導くものである。
論文参考訳（メタデータ） (2022-03-23T19:43:35Z)
Realistic simulation of users for IT systems in cyber ranges [63.20765930558542]
ユーザアクティビティを生成するために,外部エージェントを用いて各マシンを計測する。このエージェントは、決定論的および深層学習に基づく手法を組み合わせて、異なる環境に適応する。また,会話や文書の作成を容易にする条件付きテキスト生成モデルを提案する。
論文参考訳（メタデータ） (2021-11-23T10:53:29Z)
Technology Readiness Levels for Machine Learning Systems [107.56979560568232]
機械学習システムの開発とデプロイは、現代のツールで簡単に実行できますが、プロセスは一般的に急ぎ、エンドツーエンドです。私たちは、機械学習の開発と展開のための実証済みのシステムエンジニアリングアプローチを開発しました。当社の「機械学習技術準備レベル」フレームワークは、堅牢で信頼性が高く、責任あるシステムを確保するための原則的なプロセスを定義します。
論文参考訳（メタデータ） (2021-01-11T15:54:48Z)
Collective Knowledge: organizing research projects as a database of reusable components and portable workflows with common APIs [0.2538209532048866]
この記事では、集合的知識フレームワーク(CKまたはcKnowledge)のモチベーションと概要について述べる。 CKの概念は、研究プロジェクトを研究成果物をカプセル化した再利用可能なコンポーネントに分解することである。長期的な目標は、研究者と実践者を結びつけて、すべての知識を共有し再利用することで、イノベーションを加速させることである。
論文参考訳（メタデータ） (2020-11-02T17:42:59Z)
Technology Readiness Levels for AI & ML [79.22051549519989]
機械学習システムの開発は、現代的なツールで容易に実行できるが、プロセスは通常急いで、エンドツーエンドで実行される。エンジニアリングシステムは、高品質で信頼性の高い結果の開発を効率化するために、明確に定義されたプロセスとテスト標準に従います。我々は、機械学習の開発と展開のための実証されたシステムエンジニアリングアプローチを提案する。
論文参考訳（メタデータ） (2020-06-21T17:14:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。