論文の概要: Auto-Validate by-History: Auto-Program Data Quality Constraints to
Validate Recurring Data Pipelines
- arxiv url: http://arxiv.org/abs/2306.02421v1
- Date: Sun, 4 Jun 2023 17:53:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 17:58:22.042980
- Title: Auto-Validate by-History: Auto-Program Data Quality Constraints to
Validate Recurring Data Pipelines
- Title(参考訳): auto-validate by-history: 繰り返しデータパイプラインを検証するための自動プログラムデータ品質制約
- Authors: Dezhan Tu, Yeye He, Weiwei Cui, Song Ge, Haidong Zhang, Han Shi,
Dongmei Zhang, Surajit Chaudhuri
- Abstract要約: データパイプラインは、ML(Machine-Learning)およびBI(Business-Intelligence)アプリケーションを動かすために、現代の企業で広く利用されている。
データ品質(DQ)の問題は、上流スキーマとデータドリフトが時間の経過とともに発生するため、繰り返しパイプラインに忍び込むことが多い。
本稿では,繰り返しパイプラインにおけるDQ問題を自動的に検出するオートバイヒストリー(AVH)を提案する。
- 参考スコア(独自算出の注目度): 41.39496264168388
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data pipelines are widely employed in modern enterprises to power a variety
of Machine-Learning (ML) and Business-Intelligence (BI) applications.
Crucially, these pipelines are \emph{recurring} (e.g., daily or hourly) in
production settings to keep data updated so that ML models can be re-trained
regularly, and BI dashboards refreshed frequently. However, data quality (DQ)
issues can often creep into recurring pipelines because of upstream schema and
data drift over time. As modern enterprises operate thousands of recurring
pipelines, today data engineers have to spend substantial efforts to
\emph{manually} monitor and resolve DQ issues, as part of their DataOps and
MLOps practices.
Given the high human cost of managing large-scale pipeline operations, it is
imperative that we can \emph{automate} as much as possible. In this work, we
propose Auto-Validate-by-History (AVH) that can automatically detect DQ issues
in recurring pipelines, leveraging rich statistics from historical executions.
We formalize this as an optimization problem, and develop constant-factor
approximation algorithms with provable precision guarantees. Extensive
evaluations using 2000 production data pipelines at Microsoft demonstrate the
effectiveness and efficiency of AVH.
- Abstract(参考訳): データパイプラインは、機械学習(ML)やビジネスインテリジェンス(BI)アプリケーションを動かすために、現代の企業で広く利用されている。
重要な点として、これらのパイプラインは、MLモデルを定期的に再トレーニングできるようにデータを更新し、BIダッシュボードを頻繁にリフレッシュするために、プロダクション環境でのemph{recurring}(例:日毎または時間毎)である。
しかし、データ品質(dq)の問題はしばしば上流のスキーマとデータドリフトによって繰り返しパイプラインに潜り込む。
現代の企業は何千ものパイプラインを運用しているため、今日のデータエンジニアは、dataopsやmlopsのプラクティスの一部として、dq問題の監視と解決に多大な労力を費やさなければならない。
大規模なパイプライン操作を管理するための人的コストが高いことから、可能な限りemph{automate}を適用できることが不可欠です。
本研究では,繰り返しパイプラインのdq問題を自動的に検出し,履歴実行から豊富な統計情報を活用するavh(auto-validate-by-history)を提案する。
我々はこれを最適化問題として定式化し、証明可能な精度保証付き定数係数近似アルゴリズムを開発した。
Microsoftの2000のプロダクションデータパイプラインを使用した大規模な評価は、AVHの有効性と効率を実証している。
関連論文リスト
- Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows? [73.81908518992161]
我々は、プロのデータサイエンスとエンジニアリングに焦点を当てた最初のマルチモーダルエージェントベンチマークであるSpider2-Vを紹介する。
Spider2-Vは、本物のコンピュータ環境における現実世界のタスクを特徴とし、20のエンタープライズレベルのプロフェッショナルアプリケーションを組み込んでいる。
これらのタスクは、エンタープライズデータソフトウェアシステムにおいて、コードを書き、GUIを管理することで、マルチモーダルエージェントがデータ関連のタスクを実行する能力を評価する。
論文 参考訳(メタデータ) (2024-07-15T17:54:37Z) - Data-Copilot: Bridging Billions of Data and Humans with Autonomous Workflow [49.724842920942024]
金融、気象学、エネルギーといった産業は毎日大量のデータを生み出している。
本研究では,データ分析エージェントであるData-Copilotを提案する。
論文 参考訳(メタデータ) (2023-06-12T16:12:56Z) - Where Is My Training Bottleneck? Hidden Trade-Offs in Deep Learning
Preprocessing Pipelines [77.45213180689952]
ディープラーニングにおける前処理パイプラインは、トレーニングプロセスを忙しくするための十分なデータスループットの提供を目的としている。
エンドツーエンドのディープラーニングパイプラインのためのデータセットを効率的に準備する新たな視点を導入する。
チューニングされていないシステムに比べてスループットが3倍から13倍に向上する。
論文 参考訳(メタデータ) (2022-02-17T14:31:58Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - LogLAB: Attention-Based Labeling of Log Data Anomalies via Weak
Supervision [63.08516384181491]
専門家の手作業を必要とせず,ログメッセージの自動ラベル付けのための新しいモデリング手法であるLogLABを提案する。
本手法は,監視システムが提供する推定故障時間ウィンドウを用いて,正確なラベル付きデータセットを振り返りに生成する。
我々の評価によると、LogLABは3つの異なるデータセットで9つのベンチマークアプローチを一貫して上回り、大規模な障害時ウィンドウでも0.98以上のF1スコアを維持している。
論文 参考訳(メタデータ) (2021-11-02T15:16:08Z) - AI Total: Analyzing Security ML Models with Imperfect Data in Production [2.629585075202626]
新しい機械学習モデルの開発は通常、手動でキュレートされたデータセット上で行われる。
本研究では,ユーザによるヘッドライン性能数値の収集を可能にするWebベースの可視化システムを開発した。
また,何か問題が発生した場合に,問題の根本原因を即座に観察することも可能だ。
論文 参考訳(メタデータ) (2021-10-13T20:56:05Z) - Auto-Validate: Unsupervised Data Validation Using Data-Domain Patterns
Inferred from Data Lakes [16.392844962056742]
我々は,適切なデータバリデーションパターンを推定し,自動検証するコーパス駆動型手法を開発した。
この技術の一部は、Microsoft Azure PurviewのAuto-Tag機能として提供される。
論文 参考訳(メタデータ) (2021-04-10T01:15:48Z) - AutoWeka4MCPS-AVATAR: Accelerating Automated Machine Learning Pipeline
Composition and Optimisation [13.116806430326513]
本稿では,サロゲートモデル(AVATAR)を用いて,実行せずにMLパイプラインの有効性を評価する手法を提案する。
AVATARは、データセットの特徴に対するMLアルゴリズムの機能と効果を自動的に学習することで、知識ベースを生成する。
AVATARはその妥当性を評価するためにオリジナルのMLパイプラインを実行する代わりに、MLパイプラインコンポーネントの機能と効果によって構築されたサロゲートモデルを評価する。
論文 参考訳(メタデータ) (2020-11-21T14:05:49Z) - MLCask: Efficient Management of Component Evolution in Collaborative
Data Analytics Pipelines [29.999324319722508]
マシンラーニングパイプラインのデプロイ時に発生する2つの大きな課題に対処し、エンドツーエンド分析システムMLCaskのバージョニング設計で対処する。
我々は,再利用可能な履歴記録とパイプライン互換性情報を用いて,パイプライン探索木を刈り取ることで,メートル法駆動のマージ操作を定義し,高速化する。
MLCaskの有効性は、いくつかの実世界の展開事例に関する広範な研究を通じて評価される。
論文 参考訳(メタデータ) (2020-10-17T13:34:48Z) - AVATAR -- Machine Learning Pipeline Evaluation Using Surrogate Model [10.83607599315401]
本稿では,サロゲートモデル(AVATAR)を用いたMLパイプラインの有効性評価手法を提案する。
実験の結果, AVATARは, 従来の評価手法と比較して, 複雑なパイプラインの評価においてより効率的であることがわかった。
論文 参考訳(メタデータ) (2020-01-30T02:53:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。