論文の概要: Towards augmented data quality management: Automation of Data Quality Rule Definition in Data Warehouses
- arxiv url: http://arxiv.org/abs/2406.10940v1
- Date: Sun, 16 Jun 2024 13:43:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 19:52:39.173770
- Title: Towards augmented data quality management: Automation of Data Quality Rule Definition in Data Warehouses
- Title(参考訳): データ品質管理の強化に向けて:データウェアハウスにおけるデータ品質ルール定義の自動化
- Authors: Heidi Carolina Tamm, Anastasija Nikiforova,
- Abstract要約: 本研究では,大規模組織で一般的に使用されているデータリポジトリとして,データウェアハウス内のデータ品質管理を自動化する可能性について検討する。
レビューでは、さまざまなソースから151のツールが紹介され、現在のほとんどのツールは、データウェアハウスではなく、ドメイン固有のデータベースのクリーニングと修正に重点を置いていることが明らかになった。
データウェアハウスでこれを実装することは言うまでもなく、DQルールを検出する能力を示したのは、限られたツール、特に10ツールだけだった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the contemporary data-driven landscape, ensuring data quality (DQ) is crucial for deriving actionable insights from vast data repositories. The objective of this study is to explore the potential for automating data quality management within data warehouses as data repository commonly used by large organizations. By conducting a systematic review of existing DQ tools available in the market and academic literature, the study assesses their capability to automatically detect and enforce data quality rules. The review encompassed 151 tools from various sources, revealing that most current tools focus on data cleansing and fixing in domain-specific databases rather than data warehouses. Only a limited number of tools, specifically ten, demonstrated the capability to detect DQ rules, not to mention implementing this in data warehouses. The findings underscore a significant gap in the market and academic research regarding AI-augmented DQ rule detection in data warehouses. This paper advocates for further development in this area to enhance the efficiency of DQ management processes, reduce human workload, and lower costs. The study highlights the necessity of advanced tools for automated DQ rule detection, paving the way for improved practices in data quality management tailored to data warehouse environments. The study can guide organizations in selecting data quality tool that would meet their requirements most.
- Abstract(参考訳): 現代のデータ駆動の状況では、巨大なデータリポジトリから実行可能な洞察を得るためには、データ品質(DQ)を保証することが不可欠です。
本研究の目的は,大規模組織で一般的に使用されているデータリポジトリとして,データウェアハウス内のデータ品質管理を自動化する可能性を検討することである。
市場および学術文献で利用可能な既存のDQツールの体系的なレビューを行うことで、データ品質ルールを自動的に検出し、強制する能力を評価する。
レビューでは、さまざまなソースから151のツールが紹介され、現在のほとんどのツールは、データウェアハウスではなく、ドメイン固有のデータベースのクリーニングと修正に重点を置いていることが明らかになった。
データウェアハウスでこれを実装することは言うまでもなく、DQルールを検出する能力を示したのは、限られたツール、特に10ツールだけだった。
この調査結果は、データウェアハウスにおけるAI強化DQルール検出に関する市場と学術研究において、大きなギャップを浮き彫りにした。
本稿では, DQ 管理プロセスの効率化, 作業負荷削減, コスト削減のために, この分野のさらなる発展を提唱する。
この研究は、DQルールの自動検出のための高度なツールの必要性を強調し、データウェアハウス環境に適したデータ品質管理におけるプラクティス改善の道を開く。
この研究は、最も要求を満たすデータ品質ツールを選択する上で、組織を導くことができる。
関連論文リスト
- A Systematic Review of NeurIPS Dataset Management Practices [7.974245534539289]
我々はNeurIPSトラックで公開されたデータセットの体系的なレビューを行い、証明、配布、倫理的開示、ライセンスの4つの重要な側面に焦点を当てる。
この結果から, データセットの出現は不明瞭なフィルタリングやキュレーションのプロセスのため, しばしば不明瞭であることが明らかとなった。
これらの矛盾は、データセットの公開と管理のための標準化されたデータインフラストラクチャーの緊急の必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-10-31T23:55:41Z) - Data Quality in Edge Machine Learning: A State-of-the-Art Survey [2.8449839307925955]
機械学習(ML)を使ってトレーニングされたデータ駆動人工知能(AI)システムは、私たちの生活の絶え間ない部分を形成している。
一方で、これらのシステムの影響は、特にトレーニングに使用されるデータにおいて、高い品質の基準を課している。
一方、エッジコンピューティングとIoTデバイスの普及により、データ品質(DQ)の標準を確立し維持することがより困難になる。
論文 参考訳(メタデータ) (2024-06-01T23:07:05Z) - Automatic Question-Answer Generation for Long-Tail Knowledge [65.11554185687258]
テールエンティティのための特別なQAデータセットを生成するための自動アプローチを提案する。
我々は,新たに生成された長尾QAデータセットに事前学習したLLMを用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-03-03T03:06:31Z) - A Systematic Review of Available Datasets in Additive Manufacturing [56.684125592242445]
視覚およびその他のセンサー技術を組み込んだその場監視により、追加製造プロセス中に広範なデータセットの収集が可能になる。
これらのデータセットは、製造された出力の品質を判断し、機械学習を使用して欠陥を検出する可能性がある。
本稿では,AMプロセスから派生したオープン画像ベースデータセットの利用可能性について検討する。
論文 参考訳(メタデータ) (2024-01-27T16:13:32Z) - Data Management For Training Large Language Models: A Survey [64.18200694790787]
大規模言語モデル(LLM)のトレーニングにおいて、データは基本的な役割を果たす
本調査は,LLMの事前学習および微調整段階におけるデータ管理の現状を概観するものである。
論文 参考訳(メタデータ) (2023-12-04T07:42:16Z) - Analyzing Dataset Annotation Quality Management in the Wild [63.07224587146207]
最先端モデルのトレーニングと評価に使用される一般的なデータセットでさえ、誤ったアノテーションやバイアス、アーティファクトの量は無視できない。
データセット作成プロジェクトに関するプラクティスやガイドラインは存在するが、品質管理の実施方法に関する大規模な分析はまだ行われていない。
論文 参考訳(メタデータ) (2023-07-16T21:22:40Z) - QI2 -- an Interactive Tool for Data Quality Assurance [63.379471124899915]
欧州委員会による計画されたAI法では、データ品質に関する法的要件が規定されている。
複数のデータ品質面におけるデータ品質保証プロセスをサポートする新しいアプローチを導入する。
論文 参考訳(メタデータ) (2023-07-07T07:06:38Z) - How Much More Data Do I Need? Estimating Requirements for Downstream
Tasks [99.44608160188905]
小さなトレーニングデータセットと学習アルゴリズムがあれば、ターゲットの検証やテストのパフォーマンスに到達するのに、どれくらいのデータが必要か?
データ要求を過大評価または過小評価すると、十分な予算で回避できる相当なコストが発生する。
本ガイドラインを用いることで,機械学習システムのデータ要求を正確に推定し,開発時間とデータ取得コストの双方で節約することができる。
論文 参考訳(メタデータ) (2022-07-04T21:16:05Z) - Data Quality Toolkit: Automatic assessment of data quality and
remediation for machine learning datasets [11.417891017429882]
Data Quality Toolkit for Machine Learningは、いくつかの重要な品質指標と関連する修復テクニックのライブラリである。
データ準備パイプラインのターンアラウンド時間を短縮し、データ品質評価プロセスを合理化する。
論文 参考訳(メタデータ) (2021-08-12T19:22:27Z) - Quality Prediction of Open Educational Resources A Metadata-based
Approach [0.0]
メタデータは、レコメンデーションや検索といった高品質なサービスを提供する上で重要な役割を担います。
我々はOERメタデータスコアリングモデルを提案し,OERの品質を予測できるメタデータベースの予測モデルを構築した。
データとモデルに基づいて、F1スコア94.6%の高品質なOERを検出できた。
論文 参考訳(メタデータ) (2020-05-21T09:53:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。