論文の概要: Auto-Validate: Unsupervised Data Validation Using Data-Domain Patterns
Inferred from Data Lakes
- arxiv url: http://arxiv.org/abs/2104.04659v1
- Date: Sat, 10 Apr 2021 01:15:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-16 07:55:46.737188
- Title: Auto-Validate: Unsupervised Data Validation Using Data-Domain Patterns
Inferred from Data Lakes
- Title(参考訳): auto-validate: データレイクから推定したデータドメインパターンを用いた教師なしデータ検証
- Authors: Jie Song, Yeye He
- Abstract要約: 複雑なプロダクションパイプラインでは、上流のデータフィードは予期せぬ方法で変化し、下流のアプリケーションは静かに壊れる。
適切なデータパターンを推論し、自動検証するコーパス駆動型アプローチを開発しています。
この技術の一部は、textscMicrosoft Azure PurviewのtextscAuto-Tag機能として提供される。
- 参考スコア(独自算出の注目度): 16.392844962056742
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Complex data pipelines are increasingly common in diverse applications such
as BI reporting and ML modeling. These pipelines often recur regularly (e.g.,
daily or weekly), as BI reports need to be refreshed, and ML models need to be
retrained. However, it is widely reported that in complex production pipelines,
upstream data feeds can change in unexpected ways, causing downstream
applications to break silently that are expensive to resolve.
Data validation has thus become an important topic, as evidenced by notable
recent efforts from Google and Amazon, where the objective is to catch data
quality issues early as they arise in the pipelines. Our experience on
production data suggests, however, that on string-valued data, these existing
approaches yield high false-positive rates and frequently require human
intervention. In this work, we develop a corpus-driven approach to
auto-validate \emph{machine-generated data} by inferring suitable
data-validation "patterns" that accurately describe the underlying data-domain,
which minimizes false positives while maximizing data quality issues caught.
Evaluations using production data from real data lakes suggest that
Auto-Validate is substantially more effective than existing methods. Part of
this technology ships as an \textsc{Auto-Tag} feature in \textsc{Microsoft
Azure Purview}.
- Abstract(参考訳): 複雑なデータパイプラインは、BIレポートやMLモデリングといった多様なアプリケーションでますます一般的になっています。
これらのパイプラインは、BIレポートを更新する必要があり、MLモデルを再トレーニングする必要があるため、定期的に再帰することが多い。
しかし、複雑なプロダクションパイプラインでは、上流のデータフィードが予期せぬ方法で変化し、ダウンストリームアプリケーションは解決にコストがかかる静かに壊れてしまうことが広く報告されている。
このように、データ検証は重要なトピックとなり、googleとamazonによる最近の注目すべき取り組みで示されているように、パイプラインでデータ品質の問題が発生すると早期にキャッチすることを目的としている。
しかし,本研究の経験から,文字列値データでは,これらの既存手法は偽陽性率が高く,人的介入が頻繁に必要であることが示唆された。
本研究では,データ品質の問題を最大化しながら偽陽性を最小限に抑える,基礎となるデータドメインを正確に記述する適切なデータバリデーション"パターン"を推測することで,自動検証するコーパス駆動手法を開発した。
実データレイクの生産データを用いた評価は、Auto-Validateが既存の方法よりもかなり効果的であることを示している。
この技術の一部は、 \textsc{Microsoft Azure Purview} の \textsc{Auto-Tag} 機能として出荷される。
関連論文リスト
- Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Fact Checking Beyond Training Set [64.88575826304024]
本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。
本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。
次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
論文 参考訳(メタデータ) (2024-03-27T15:15:14Z) - Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks [66.87070857705994]
低リソース環境では、データ拡張に使用するシードデータサンプルの量は極めて少ない。
本稿では、他のデータセットから豊富なサンプルを組み込むことで、トレーニングデータを増強する新しい手法を提案する。
このアプローチは、生成されたデータが関連性だけでなく、限られたシードデータだけで達成できるものよりも多様であることを保証する。
論文 参考訳(メタデータ) (2024-02-21T02:45:46Z) - Making Large Language Models Better Data Creators [22.0882632635255]
大規模言語モデル(LLM)はNLPの最先端を著しく進歩させた。
ダウンストリームアプリケーションへのデプロイは、コスト、応答性、コントロール、プライバシとセキュリティに関する懸念のため、依然として難しい。
単一フォーマットの例のみを必要とする統一データ生成パイプラインを提案する。
論文 参考訳(メタデータ) (2023-10-31T01:08:34Z) - Better Practices for Domain Adaptation [62.70267990659201]
ドメイン適応(DA)は、ラベルを使わずに、モデルを配置データに適用するためのフレームワークを提供することを目的としている。
DAの明確な検証プロトコルは、文献の悪い実践につながっている。
ドメイン適応手法の3つの分野にまたがる課題を示す。
論文 参考訳(メタデータ) (2023-09-07T17:44:18Z) - DiffPrep: Differentiable Data Preprocessing Pipeline Search for Learning
over Tabular Data [12.416345241511781]
与えられたデータセットに対するデータ前処理パイプラインを自動かつ効率的に検索するDiffPrepを提案する。
実験の結果,DiffPrepは実世界の18のデータセットのうち15の精度で最高のテスト精度を達成できた。
論文 参考訳(メタデータ) (2023-08-20T23:40:26Z) - Data-Copilot: Bridging Billions of Data and Humans with Autonomous Workflow [49.724842920942024]
金融、気象学、エネルギーといった産業は毎日大量のデータを生み出している。
本研究では,データ分析エージェントであるData-Copilotを提案する。
論文 参考訳(メタデータ) (2023-06-12T16:12:56Z) - Auto-Validate by-History: Auto-Program Data Quality Constraints to
Validate Recurring Data Pipelines [41.39496264168388]
データパイプラインは、ML(Machine-Learning)およびBI(Business-Intelligence)アプリケーションを動かすために、現代の企業で広く利用されている。
データ品質(DQ)の問題は、上流スキーマとデータドリフトが時間の経過とともに発生するため、繰り返しパイプラインに忍び込むことが多い。
本稿では,繰り返しパイプラインにおけるDQ問題を自動的に検出するオートバイヒストリー(AVH)を提案する。
論文 参考訳(メタデータ) (2023-06-04T17:53:30Z) - AI Total: Analyzing Security ML Models with Imperfect Data in Production [2.629585075202626]
新しい機械学習モデルの開発は通常、手動でキュレートされたデータセット上で行われる。
本研究では,ユーザによるヘッドライン性能数値の収集を可能にするWebベースの可視化システムを開発した。
また,何か問題が発生した場合に,問題の根本原因を即座に観察することも可能だ。
論文 参考訳(メタデータ) (2021-10-13T20:56:05Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。