論文の概要: From Data Quality for AI to AI for Data Quality: A Systematic Review of Tools for AI-Augmented Data Quality Management in Data Warehouses
- arxiv url: http://arxiv.org/abs/2406.10940v3
- Date: Fri, 27 Jun 2025 07:27:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 15:06:56.749501
- Title: From Data Quality for AI to AI for Data Quality: A Systematic Review of Tools for AI-Augmented Data Quality Management in Data Warehouses
- Title(参考訳): データ品質のためのデータ品質からデータ品質のためのAI: データウェアハウスにおけるAI強化データ品質管理ツールの体系的レビュー
- Authors: Heidi Carolina Tamm, Anastasija Nikiforova,
- Abstract要約: 分析、コンプライアンス、AIのパフォーマンスには、高データ品質(DQ)が不可欠だ。
本研究では,データウェアハウスにおけるAI強化データ品質管理(DQM)をサポートする既存のツールについて検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While high data quality (DQ) is critical for analytics, compliance, and AI performance, data quality management (DQM) remains a complex, resource-intensive, and often manual process. This study investigates the extent to which existing tools support AI-augmented data quality management (DQM) in data warehouse environments. To this end, we conduct a systematic review of 151 DQ tools to evaluate their automation capabilities, particularly in detecting and recommending DQ rules in data warehouses -- a key component of modern data ecosystems. Using a multi-phase screening process based on functionality, trialability, regulatory compliance (e.g., GDPR), and architectural compatibility with data warehouses, only 10 tools met the criteria for AI-augmented DQM. The analysis reveals that most tools emphasize data cleansing and preparation for AI, rather than leveraging AI to improve DQ itself. Although metadata- and ML-based rule detection techniques are present, features such as SQL-based rule specification, reconciliation logic, and explainability of AI-driven recommendations remain scarce. This study offers practical guidance for tool selection and outlines critical design requirements for next-generation AI-driven DQ solutions -- advocating a paradigm shift from ``data quality for AI'' to ``AI for data quality management''.
- Abstract(参考訳): 分析、コンプライアンス、AIのパフォーマンスには高いデータ品質(DQ)が不可欠だが、データ品質管理(DQM)は複雑でリソース集約的で、多くの場合手作業によるプロセスである。
本研究では,データウェアハウス環境におけるAI強化データ品質管理(DQM)をサポートする既存のツールについて検討する。
この目的のために151のDQツールを体系的にレビューし、自動化機能の評価、特に現代のデータエコシステムの重要なコンポーネントであるデータウェアハウスにおけるDQルールの検出と推奨を行う。
機能、試行性、規制コンプライアンス(GDPRなど)、データウェアハウスとのアーキテクチャ互換性に基づくマルチフェーズスクリーニングプロセスを使用することで、AIに強化されたDQMの基準を満たすツールは10に過ぎなかった。
分析によると、ほとんどのツールはDQ自体を改善するためにAIを活用するのではなく、AIのクリーニングと準備に重点を置いている。
メタデータとMLベースのルール検出技術は存在するが、SQLベースのルール仕様、和解ロジック、AI駆動のレコメンデーションの説明可能性など、機能はほとんどない。
この研究は、ツールの選択に関する実践的なガイダンスを提供し、次世代のAI駆動型DQソリューションにおける重要な設計要件を概説する。
関連論文リスト
- A Systematic Review of NeurIPS Dataset Management Practices [7.974245534539289]
我々はNeurIPSトラックで公開されたデータセットの体系的なレビューを行い、証明、配布、倫理的開示、ライセンスの4つの重要な側面に焦点を当てる。
この結果から, データセットの出現は不明瞭なフィルタリングやキュレーションのプロセスのため, しばしば不明瞭であることが明らかとなった。
これらの矛盾は、データセットの公開と管理のための標準化されたデータインフラストラクチャーの緊急の必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-10-31T23:55:41Z) - Data Quality in Edge Machine Learning: A State-of-the-Art Survey [2.8449839307925955]
機械学習(ML)を使ってトレーニングされたデータ駆動人工知能(AI)システムは、私たちの生活の絶え間ない部分を形成している。
一方で、これらのシステムの影響は、特にトレーニングに使用されるデータにおいて、高い品質の基準を課している。
一方、エッジコンピューティングとIoTデバイスの普及により、データ品質(DQ)の標準を確立し維持することがより困難になる。
論文 参考訳(メタデータ) (2024-06-01T23:07:05Z) - AI-Driven Frameworks for Enhancing Data Quality in Big Data Ecosystems: Error_Detection, Correction, and Metadata Integration [0.0]
この論文は、ビッグデータの品質を包括的に向上することを目的とした、新しい相互接続フレームワークセットを提案する。
まず,データ品質を正確に評価するために,新しい品質指標と重み付きスコアシステムを導入する。
第3に,AIモデルを用いた各種品質異常検出のための汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-06T21:36:45Z) - Automatic Question-Answer Generation for Long-Tail Knowledge [65.11554185687258]
テールエンティティのための特別なQAデータセットを生成するための自動アプローチを提案する。
我々は,新たに生成された長尾QAデータセットに事前学習したLLMを用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-03-03T03:06:31Z) - A Survey on Data Selection for Language Models [148.300726396877]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。
ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。
広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (2024-02-26T18:54:35Z) - A Systematic Review of Available Datasets in Additive Manufacturing [56.684125592242445]
視覚およびその他のセンサー技術を組み込んだその場監視により、追加製造プロセス中に広範なデータセットの収集が可能になる。
これらのデータセットは、製造された出力の品質を判断し、機械学習を使用して欠陥を検出する可能性がある。
本稿では,AMプロセスから派生したオープン画像ベースデータセットの利用可能性について検討する。
論文 参考訳(メタデータ) (2024-01-27T16:13:32Z) - Data Management For Training Large Language Models: A Survey [64.18200694790787]
大規模言語モデル(LLM)のトレーニングにおいて、データは基本的な役割を果たす
本調査は,LLMの事前学習および微調整段階におけるデータ管理の現状を概観するものである。
論文 参考訳(メタデータ) (2023-12-04T07:42:16Z) - Analyzing Dataset Annotation Quality Management in the Wild [63.07224587146207]
最先端モデルのトレーニングと評価に使用される一般的なデータセットでさえ、誤ったアノテーションやバイアス、アーティファクトの量は無視できない。
データセット作成プロジェクトに関するプラクティスやガイドラインは存在するが、品質管理の実施方法に関する大規模な分析はまだ行われていない。
論文 参考訳(メタデータ) (2023-07-16T21:22:40Z) - QI2 -- an Interactive Tool for Data Quality Assurance [63.379471124899915]
欧州委員会による計画されたAI法では、データ品質に関する法的要件が規定されている。
複数のデータ品質面におけるデータ品質保証プロセスをサポートする新しいアプローチを導入する。
論文 参考訳(メタデータ) (2023-07-07T07:06:38Z) - How Much More Data Do I Need? Estimating Requirements for Downstream
Tasks [99.44608160188905]
小さなトレーニングデータセットと学習アルゴリズムがあれば、ターゲットの検証やテストのパフォーマンスに到達するのに、どれくらいのデータが必要か?
データ要求を過大評価または過小評価すると、十分な予算で回避できる相当なコストが発生する。
本ガイドラインを用いることで,機械学習システムのデータ要求を正確に推定し,開発時間とデータ取得コストの双方で節約することができる。
論文 参考訳(メタデータ) (2022-07-04T21:16:05Z) - Data Quality Toolkit: Automatic assessment of data quality and
remediation for machine learning datasets [11.417891017429882]
Data Quality Toolkit for Machine Learningは、いくつかの重要な品質指標と関連する修復テクニックのライブラリである。
データ準備パイプラインのターンアラウンド時間を短縮し、データ品質評価プロセスを合理化する。
論文 参考訳(メタデータ) (2021-08-12T19:22:27Z) - Quality Prediction of Open Educational Resources A Metadata-based
Approach [0.0]
メタデータは、レコメンデーションや検索といった高品質なサービスを提供する上で重要な役割を担います。
我々はOERメタデータスコアリングモデルを提案し,OERの品質を予測できるメタデータベースの予測モデルを構築した。
データとモデルに基づいて、F1スコア94.6%の高品質なOERを検出できた。
論文 参考訳(メタデータ) (2020-05-21T09:53:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。