Fugu-MT 論文翻訳(概要): Auto-Validate: Unsupervised Data Validation Using Data-Domain Patterns Inferred from Data Lakes

論文の概要: Auto-Validate: Unsupervised Data Validation Using Data-Domain Patterns Inferred from Data Lakes

arxiv url: http://arxiv.org/abs/2104.04659v2
Date: Tue, 13 Apr 2021 17:29:18 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-16 08:25:00.974715
Title: Auto-Validate: Unsupervised Data Validation Using Data-Domain Patterns Inferred from Data Lakes
Title（参考訳）: auto-validate: データレイクから推定したデータドメインパターンを用いた教師なしデータ検証
Authors: Jie Song, Yeye He
Abstract要約: 我々は,適切なデータバリデーションパターンを推定し,自動検証するコーパス駆動型手法を開発した。この技術の一部は、Microsoft Azure PurviewのAuto-Tag機能として提供される。
参考スコア（独自算出の注目度）: 16.392844962056742
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Complex data pipelines are increasingly common in diverse applications such as BI reporting and ML modeling. These pipelines often recur regularly (e.g., daily or weekly), as BI reports need to be refreshed, and ML models need to be retrained. However, it is widely reported that in complex production pipelines, upstream data feeds can change in unexpected ways, causing downstream applications to break silently that are expensive to resolve. Data validation has thus become an important topic, as evidenced by notable recent efforts from Google and Amazon, where the objective is to catch data quality issues early as they arise in the pipelines. Our experience on production data suggests, however, that on string-valued data, these existing approaches yield high false-positive rates and frequently require human intervention. In this work, we develop a corpus-driven approach to auto-validate \emph{machine-generated data} by inferring suitable data-validation "patterns" that accurately describe the underlying data domain, which minimizes false positives while maximizing data quality issues caught. Evaluations using production data from real data lakes suggest that Auto-Validate is substantially more effective than existing methods. Part of this technology ships as an Auto-Tag feature in Microsoft Azure Purview.
Abstract（参考訳）: 複雑なデータパイプラインは、BIレポートやMLモデリングといった多様なアプリケーションでますます一般的になっています。これらのパイプラインは、BIレポートを更新する必要があり、MLモデルを再トレーニングする必要があるため、定期的に再帰することが多い。しかし、複雑なプロダクションパイプラインでは、上流のデータフィードが予期せぬ方法で変化し、ダウンストリームアプリケーションは解決にコストがかかる静かに壊れてしまうことが広く報告されている。このように、データ検証は重要なトピックとなり、googleとamazonによる最近の注目すべき取り組みで示されているように、パイプラインでデータ品質の問題が発生すると早期にキャッチすることを目的としている。しかし,本研究の経験から,文字列値データでは,これらの既存手法は偽陽性率が高く,人的介入が頻繁に必要であることが示唆された。本研究では,基礎となるデータ領域を正確に記述し,データ品質問題を最大化しながら偽陽性を最小限に抑える適切なデータ評価パターンを推定することにより,自動検証するコーパス駆動手法を開発した。実データレイクの生産データを用いた評価は、Auto-Validateが既存の方法よりもかなり効果的であることを示している。この技術の一部は、Microsoft Azure PurviewでAuto-Tag機能として提供される。

関連論文リスト

Hey, That's My Data! Label-Only Dataset Inference in Large Language Models [63.35066172530291]
CatShiftはラベルのみのデータセット推論フレームワークである。 LLMは、新しいデータに晒されたとき、学習した知識を上書きする傾向にある。
論文参考訳（メタデータ） (2025-06-06T13:02:59Z)
DUPRE: Data Utility Prediction for Efficient Data Valuation [49.60564885180563]
Data Shapleyのような協調ゲーム理論に基づくデータ評価では、データユーティリティを評価し、複数のデータサブセットに対してMLモデルを再トレーニングする必要がある。我々のフレームワークである textttDUPRE は、モデル再学習による評価ではなく、データユーティリティを予測することによって、サブセット評価当たりのコストを削減できる代替手法を採用しています。具体的には、いくつかのデータサブセットのデータユーティリティを評価すると、textttDUPREは、他のすべてのデータサブセットの有用性を予測するために、emphGaussianプロセス(GP)回帰モデルに適合する。
論文参考訳（メタデータ） (2025-02-22T08:53:39Z)
Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文参考訳（メタデータ） (2024-10-22T06:43:28Z)
Fact Checking Beyond Training Set [64.88575826304024]
本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
論文参考訳（メタデータ） (2024-03-27T15:15:14Z)
Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks [66.87070857705994]
低リソース環境では、データ拡張に使用するシードデータサンプルの量は極めて少ない。本稿では、他のデータセットから豊富なサンプルを組み込むことで、トレーニングデータを増強する新しい手法を提案する。このアプローチは、生成されたデータが関連性だけでなく、限られたシードデータだけで達成できるものよりも多様であることを保証する。
論文参考訳（メタデータ） (2024-02-21T02:45:46Z)
Making Large Language Models Better Data Creators [22.0882632635255]
大規模言語モデル(LLM)はNLPの最先端を著しく進歩させた。ダウンストリームアプリケーションへのデプロイは、コスト、応答性、コントロール、プライバシとセキュリティに関する懸念のため、依然として難しい。単一フォーマットの例のみを必要とする統一データ生成パイプラインを提案する。
論文参考訳（メタデータ） (2023-10-31T01:08:34Z)
Better Practices for Domain Adaptation [62.70267990659201]
ドメイン適応(DA)は、ラベルを使わずに、モデルを配置データに適用するためのフレームワークを提供することを目的としている。 DAの明確な検証プロトコルは、文献の悪い実践につながっている。ドメイン適応手法の3つの分野にまたがる課題を示す。
論文参考訳（メタデータ） (2023-09-07T17:44:18Z)
DiffPrep: Differentiable Data Preprocessing Pipeline Search for Learning over Tabular Data [12.416345241511781]
与えられたデータセットに対するデータ前処理パイプラインを自動かつ効率的に検索するDiffPrepを提案する。実験の結果,DiffPrepは実世界の18のデータセットのうち15の精度で最高のテスト精度を達成できた。
論文参考訳（メタデータ） (2023-08-20T23:40:26Z)
Data-Copilot: Bridging Billions of Data and Humans with Autonomous Workflow [49.724842920942024]
金融、気象学、エネルギーといった産業は毎日大量のデータを生み出している。本研究では,データ分析エージェントであるData-Copilotを提案する。
論文参考訳（メタデータ） (2023-06-12T16:12:56Z)
Auto-Validate by-History: Auto-Program Data Quality Constraints to Validate Recurring Data Pipelines [41.39496264168388]
データパイプラインは、ML(Machine-Learning)およびBI(Business-Intelligence)アプリケーションを動かすために、現代の企業で広く利用されている。データ品質(DQ)の問題は、上流スキーマとデータドリフトが時間の経過とともに発生するため、繰り返しパイプラインに忍び込むことが多い。本稿では,繰り返しパイプラインにおけるDQ問題を自動的に検出するオートバイヒストリー(AVH)を提案する。
論文参考訳（メタデータ） (2023-06-04T17:53:30Z)
AI Total: Analyzing Security ML Models with Imperfect Data in Production [2.629585075202626]
新しい機械学習モデルの開発は通常、手動でキュレートされたデータセット上で行われる。本研究では,ユーザによるヘッドライン性能数値の収集を可能にするWebベースの可視化システムを開発した。また,何か問題が発生した場合に,問題の根本原因を即座に観察することも可能だ。
論文参考訳（メタデータ） (2021-10-13T20:56:05Z)
Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文参考訳（メタデータ） (2020-10-03T03:18:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。