論文の概要: Vamsa: Automated Provenance Tracking in Data Science Scripts
- arxiv url: http://arxiv.org/abs/2001.01861v2
- Date: Thu, 30 Jul 2020 16:58:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-13 20:25:02.802170
- Title: Vamsa: Automated Provenance Tracking in Data Science Scripts
- Title(参考訳): Vamsa: データサイエンススクリプトにおける自動前兆追跡
- Authors: Mohammad Hossein Namaki, Avrilia Floratou, Fotis Psallidas, Subru
Krishnan, Ashvin Agrawal, Yinghui Wu, Yiwen Zhu and Markus Weimer
- Abstract要約: 本稿では,MLプロビデンス追跡問題を紹介する。
このような情報をPythonのコンテキストで取得する上での課題について論じる。
ユーザコードの変更を必要とせずに,Pythonスクリプトから証明を抽出するモジュールシステムであるVamsaを提案する。
- 参考スコア(独自算出の注目度): 17.53546311589593
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: There has recently been a lot of ongoing research in the areas of fairness,
bias and explainability of machine learning (ML) models due to the self-evident
or regulatory requirements of various ML applications. We make the following
observation: All of these approaches require a robust understanding of the
relationship between ML models and the data used to train them. In this work,
we introduce the ML provenance tracking problem: the fundamental idea is to
automatically track which columns in a dataset have been used to derive the
features/labels of an ML model. We discuss the challenges in capturing such
information in the context of Python, the most common language used by data
scientists. We then present Vamsa, a modular system that extracts provenance
from Python scripts without requiring any changes to the users' code. Using 26K
real data science scripts, we verify the effectiveness of Vamsa in terms of
coverage, and performance. We also evaluate Vamsa's accuracy on a smaller
subset of manually labeled data. Our analysis shows that Vamsa's precision and
recall range from 90.4% to 99.1% and its latency is in the order of
milliseconds for average size scripts. Drawing from our experience in deploying
ML models in production, we also present an example in which Vamsa helps
automatically identify models that are affected by data corruption issues.
- Abstract(参考訳): 最近、機械学習(ml)モデルの公平性、バイアス、説明可能性について、さまざまなmlアプリケーションの自己明確性や規制要件のために、多くの研究が進行中である。
これらのアプローチのすべてには、MLモデルとトレーニングに使用されるデータとの関係について、堅牢な理解が必要です。
本研究では,MLモデルの特徴やラベルを導出するためにデータセット内のどの列が使用されているかを自動的に追跡する,という基本的な考え方を紹介する。
データ科学者が使用する最も一般的な言語であるPythonのコンテキストにおいて、そのような情報をキャプチャする際の課題について論じる。
次に、ユーザのコードを変更することなくPythonスクリプトから証明を抽出するモジュールシステムであるVamsaを紹介します。
実データサイエンスのスクリプト26Kを用いて、Vamsaの有効性をカバレッジと性能の観点から検証する。
また,手動ラベル付きデータの小さなサブセットに対して,Vamsaの精度を評価する。
解析の結果,vamsaの精度とリコールは90.4%から99.1%まで変化し,平均サイズスクリプトのレイテンシはミリ秒単位であることが判明した。
実運用環境にMLモデルをデプロイした経験から、Vamsaがデータ破損問題に影響を及ぼすモデルを自動的に識別するのに役立つ例を示します。
関連論文リスト
- Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs [49.57641083688934]
本稿では,Large Language Models (LLM) 埋め込みを用いた財務データにおける異常検出の新しい手法を提案する。
実験により,LLMが異常検出に有用な情報をもたらし,モデルがベースラインを上回っていることが確認された。
論文 参考訳(メタデータ) (2024-06-05T20:19:09Z) - Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - Accelerated Cloud for Artificial Intelligence (ACAI) [24.40451195277244]
我々は、エンドツーエンドのクラウドベースの機械学習プラットフォームであるAccelerated Cloud for AI (ACAI)を提案する。
ACAIは、インデックス付き、ラベル付き、検索可能なデータのクラウドストレージと、自動リソースプロビジョニング、ジョブスケジューリング、実験追跡を可能にする。
自動プロビジョン装置は1.7倍のスピードアップと39%のコスト削減を実現し,典型的なMLのユースケースにおいて,ML科学者の実験時間を20%短縮することを示した。
論文 参考訳(メタデータ) (2024-01-30T07:09:48Z) - Towards Automatic Translation of Machine Learning Visual Insights to
Analytical Assertions [23.535630175567146]
機械学習(ML)の可視化で観察される視覚特性をPythonアサーションに変換する自動化ツールを開発するためのビジョンを提示する。
このツールは、ML開発サイクルでこれらの視覚化を手作業で検証するプロセスの合理化を目的としている。
論文 参考訳(メタデータ) (2024-01-15T14:11:59Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - AI Model Disgorgement: Methods and Choices [127.54319351058167]
本稿では,現代の機械学習システムに適用可能な分類法を紹介する。
学習モデルにおけるデータ「効果の除去」の意味を,スクラッチからリトレーニングする必要のない方法で検討する。
論文 参考訳(メタデータ) (2023-04-07T08:50:18Z) - Tribuo: Machine Learning with Provenance in Java [0.0]
トレーニング、型安全性、ランタイムチェック、自動記録をひとつのフレームワークに統合するJava MLライブラリであるTribuoを紹介します。
Tribuoのモデルと評価はすべて、トレーニングアルゴリズムとともに、入力データの完全な処理パイプラインを記録している。
論文 参考訳(メタデータ) (2021-10-06T19:10:50Z) - FreaAI: Automated extraction of data slices to test machine learning
models [2.475112368179548]
本稿では,ML ソリューションが動作しない説明可能なデータスライスを実現する機能モデルの自動抽出の実現可能性を示す。
我々の新しい技術であるIBM FreaAI aka FreaAIは、構造化MLテストデータや他のラベル付きデータからそのようなスライスを抽出する。
論文 参考訳(メタデータ) (2021-08-12T09:21:16Z) - Did the Model Change? Efficiently Assessing Machine Learning API Shifts [24.342984907651505]
機械学習(ML)予測APIはますます広く使われている。
モデル更新や再トレーニングのために、時間とともに変更することも可能だ。
MLモデルがどのように変更されたかは、ユーザにとって明確ではないことが多い。
論文 参考訳(メタデータ) (2021-07-29T17:41:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。