論文の概要: From Data Quality for AI to AI for Data Quality: A Systematic Review of Tools for AI-Augmented Data Quality Management in Data Warehouses
- arxiv url: http://arxiv.org/abs/2406.10940v3
- Date: Fri, 27 Jun 2025 07:27:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 15:06:56.749501
- Title: From Data Quality for AI to AI for Data Quality: A Systematic Review of Tools for AI-Augmented Data Quality Management in Data Warehouses
- Title(参考訳): データ品質のためのデータ品質からデータ品質のためのAI: データウェアハウスにおけるAI強化データ品質管理ツールの体系的レビュー
- Authors: Heidi Carolina Tamm, Anastasija Nikiforova,
- Abstract要約: 分析、コンプライアンス、AIのパフォーマンスには、高データ品質(DQ)が不可欠だ。
本研究では,データウェアハウスにおけるAI強化データ品質管理(DQM)をサポートする既存のツールについて検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While high data quality (DQ) is critical for analytics, compliance, and AI performance, data quality management (DQM) remains a complex, resource-intensive, and often manual process. This study investigates the extent to which existing tools support AI-augmented data quality management (DQM) in data warehouse environments. To this end, we conduct a systematic review of 151 DQ tools to evaluate their automation capabilities, particularly in detecting and recommending DQ rules in data warehouses -- a key component of modern data ecosystems. Using a multi-phase screening process based on functionality, trialability, regulatory compliance (e.g., GDPR), and architectural compatibility with data warehouses, only 10 tools met the criteria for AI-augmented DQM. The analysis reveals that most tools emphasize data cleansing and preparation for AI, rather than leveraging AI to improve DQ itself. Although metadata- and ML-based rule detection techniques are present, features such as SQL-based rule specification, reconciliation logic, and explainability of AI-driven recommendations remain scarce. This study offers practical guidance for tool selection and outlines critical design requirements for next-generation AI-driven DQ solutions -- advocating a paradigm shift from ``data quality for AI'' to ``AI for data quality management''.
- Abstract(参考訳): 分析、コンプライアンス、AIのパフォーマンスには高いデータ品質(DQ)が不可欠だが、データ品質管理(DQM)は複雑でリソース集約的で、多くの場合手作業によるプロセスである。
本研究では,データウェアハウス環境におけるAI強化データ品質管理(DQM)をサポートする既存のツールについて検討する。
この目的のために151のDQツールを体系的にレビューし、自動化機能の評価、特に現代のデータエコシステムの重要なコンポーネントであるデータウェアハウスにおけるDQルールの検出と推奨を行う。
機能、試行性、規制コンプライアンス(GDPRなど)、データウェアハウスとのアーキテクチャ互換性に基づくマルチフェーズスクリーニングプロセスを使用することで、AIに強化されたDQMの基準を満たすツールは10に過ぎなかった。
分析によると、ほとんどのツールはDQ自体を改善するためにAIを活用するのではなく、AIのクリーニングと準備に重点を置いている。
メタデータとMLベースのルール検出技術は存在するが、SQLベースのルール仕様、和解ロジック、AI駆動のレコメンデーションの説明可能性など、機能はほとんどない。
この研究は、ツールの選択に関する実践的なガイダンスを提供し、次世代のAI駆動型DQソリューションにおける重要な設計要件を概説する。
関連論文リスト
- d-DQIVAR: Data-centric Visual Analytics and Reasoning for Data Quality Improvement [2.696480125327807]
我々のシステムは、データ駆動とプロセス駆動の両方のアプローチを利用する視覚分析技術を統合する。
本稿では,本システムによってユーザに対して,実践的なワークフロー内で専門家やドメイン知識を効果的に活用することを可能にする方法について説明する。
論文 参考訳(メタデータ) (2025-07-16T06:45:08Z) - The AI Imperative: Scaling High-Quality Peer Review in Machine Learning [49.87236114682497]
AIによるピアレビューは、緊急の研究とインフラの優先事項になるべきだ、と私たちは主張する。
我々は、事実検証の強化、レビュアーのパフォーマンスの指導、品質改善における著者の支援、意思決定におけるAC支援におけるAIの具体的な役割を提案する。
論文 参考訳(メタデータ) (2025-06-09T18:37:14Z) - Scaling-up Perceptual Video Quality Assessment [54.691252495691955]
マルチモーダル・イン・ループ型VQAマルチモーダル・インストラクション・データベースを効率的に構築する方法を示す。
我々の焦点は、微細なVQAの知識を提供するために、多くのコンテキスト内インストラクションデータを持つ技術と美的品質の次元である。
この結果から,我々のモデルは,品質理解と評価の両タスクにおいて,最先端のパフォーマンスを達成できることが示唆された。
論文 参考訳(メタデータ) (2025-05-28T16:24:52Z) - A Systematic Review of NeurIPS Dataset Management Practices [7.974245534539289]
我々はNeurIPSトラックで公開されたデータセットの体系的なレビューを行い、証明、配布、倫理的開示、ライセンスの4つの重要な側面に焦点を当てる。
この結果から, データセットの出現は不明瞭なフィルタリングやキュレーションのプロセスのため, しばしば不明瞭であることが明らかとなった。
これらの矛盾は、データセットの公開と管理のための標準化されたデータインフラストラクチャーの緊急の必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-10-31T23:55:41Z) - A Theoretical Framework for AI-driven data quality monitoring in high-volume data environments [1.2753215270475886]
本稿では,高ボリューム環境におけるデータ品質維持の課題に対処するために,AIによるデータ品質監視システムに関する理論的枠組みを提案する。
本稿では,ビッグデータのスケール,速度,多様性の管理における従来の手法の限界について検討し,高度な機械学習技術を活用した概念的アプローチを提案する。
主なコンポーネントは、インテリジェントデータ取り込み層、適応前処理機構、コンテキスト認識機能抽出、AIベースの品質評価モジュールなどである。
論文 参考訳(メタデータ) (2024-10-11T07:06:36Z) - A Survey on Data Quality Dimensions and Tools for Machine Learning [1.6078134198754157]
機械学習(ML)技術は、私たちの社会の事実上のあらゆる面で重要なものになっています。
探索的データ分析(EDA)やクロスバリデーション(CV)といった従来の手法は、データ中心AIにおける課題に直面している。
本調査では,過去5年間の17のDQ評価・改善ツールについて概観する。
論文 参考訳(メタデータ) (2024-06-28T02:41:33Z) - AI Data Readiness Inspector (AIDRIN) for Quantitative Assessment of Data Readiness for AI [0.8553254686016967]
ガベージ・イン・ガベージ・アウト(Garbage in Garbage Out)は、人工知能(AI)など、様々な分野のコンピュータ科学者によって広く合意された引用である。
AIのデータ"可読性"を評価するための標準的な方法やフレームワークはありません。
AIDRINは、文献で利用可能な幅広い準備性次元をカバーするフレームワークである。
論文 参考訳(メタデータ) (2024-06-27T15:26:39Z) - Data Quality in Edge Machine Learning: A State-of-the-Art Survey [2.8449839307925955]
機械学習(ML)を使ってトレーニングされたデータ駆動人工知能(AI)システムは、私たちの生活の絶え間ない部分を形成している。
一方で、これらのシステムの影響は、特にトレーニングに使用されるデータにおいて、高い品質の基準を課している。
一方、エッジコンピューティングとIoTデバイスの普及により、データ品質(DQ)の標準を確立し維持することがより困難になる。
論文 参考訳(メタデータ) (2024-06-01T23:07:05Z) - AI-Driven Frameworks for Enhancing Data Quality in Big Data Ecosystems: Error_Detection, Correction, and Metadata Integration [0.0]
この論文は、ビッグデータの品質を包括的に向上することを目的とした、新しい相互接続フレームワークセットを提案する。
まず,データ品質を正確に評価するために,新しい品質指標と重み付きスコアシステムを導入する。
第3に,AIモデルを用いた各種品質異常検出のための汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-06T21:36:45Z) - Data Readiness for AI: A 360-Degree Survey [0.9343816282846432]
この調査では、ACM Digital Library、IEEE Xplore、Nature、Springer、Science Directなどのジャーナル、著名なAI専門家が発行するオンライン記事の140以上の論文を調査している。
本稿では、構造化データセットと非構造化データセットのためのAI(DRAI)メトリクスのためのデータ準備性の分類法を提案する。
論文 参考訳(メタデータ) (2024-04-08T15:19:57Z) - Automatic Question-Answer Generation for Long-Tail Knowledge [65.11554185687258]
テールエンティティのための特別なQAデータセットを生成するための自動アプローチを提案する。
我々は,新たに生成された長尾QAデータセットに事前学習したLLMを用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-03-03T03:06:31Z) - A Survey on Data Selection for Language Models [148.300726396877]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。
ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。
広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (2024-02-26T18:54:35Z) - A Systematic Review of Available Datasets in Additive Manufacturing [56.684125592242445]
視覚およびその他のセンサー技術を組み込んだその場監視により、追加製造プロセス中に広範なデータセットの収集が可能になる。
これらのデータセットは、製造された出力の品質を判断し、機械学習を使用して欠陥を検出する可能性がある。
本稿では,AMプロセスから派生したオープン画像ベースデータセットの利用可能性について検討する。
論文 参考訳(メタデータ) (2024-01-27T16:13:32Z) - Data Management For Training Large Language Models: A Survey [64.18200694790787]
大規模言語モデル(LLM)のトレーニングにおいて、データは基本的な役割を果たす
本調査は,LLMの事前学習および微調整段階におけるデータ管理の現状を概観するものである。
論文 参考訳(メタデータ) (2023-12-04T07:42:16Z) - Analyzing Dataset Annotation Quality Management in the Wild [63.07224587146207]
最先端モデルのトレーニングと評価に使用される一般的なデータセットでさえ、誤ったアノテーションやバイアス、アーティファクトの量は無視できない。
データセット作成プロジェクトに関するプラクティスやガイドラインは存在するが、品質管理の実施方法に関する大規模な分析はまだ行われていない。
論文 参考訳(メタデータ) (2023-07-16T21:22:40Z) - QI2 -- an Interactive Tool for Data Quality Assurance [63.379471124899915]
欧州委員会による計画されたAI法では、データ品質に関する法的要件が規定されている。
複数のデータ品質面におけるデータ品質保証プロセスをサポートする新しいアプローチを導入する。
論文 参考訳(メタデータ) (2023-07-07T07:06:38Z) - Enabling AI-Generated Content (AIGC) Services in Wireless Edge Networks [68.00382171900975]
無線エッジネットワークでは、不正に生成されたコンテンツの送信はネットワークリソースを不要に消費する可能性がある。
我々は、AIGC-as-a-serviceの概念を示し、エッジネットワークにAをデプロイする際の課題について議論する。
最適なASP選択のための深層強化学習可能なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-09T09:30:23Z) - How Much More Data Do I Need? Estimating Requirements for Downstream
Tasks [99.44608160188905]
小さなトレーニングデータセットと学習アルゴリズムがあれば、ターゲットの検証やテストのパフォーマンスに到達するのに、どれくらいのデータが必要か?
データ要求を過大評価または過小評価すると、十分な予算で回避できる相当なコストが発生する。
本ガイドラインを用いることで,機械学習システムのデータ要求を正確に推定し,開発時間とデータ取得コストの双方で節約することができる。
論文 参考訳(メタデータ) (2022-07-04T21:16:05Z) - Data Quality Toolkit: Automatic assessment of data quality and
remediation for machine learning datasets [11.417891017429882]
Data Quality Toolkit for Machine Learningは、いくつかの重要な品質指標と関連する修復テクニックのライブラリである。
データ準備パイプラインのターンアラウンド時間を短縮し、データ品質評価プロセスを合理化する。
論文 参考訳(メタデータ) (2021-08-12T19:22:27Z) - Generating Diverse and Consistent QA pairs from Contexts with
Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。
我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文 参考訳(メタデータ) (2020-05-28T08:26:06Z) - Quality Prediction of Open Educational Resources A Metadata-based
Approach [0.0]
メタデータは、レコメンデーションや検索といった高品質なサービスを提供する上で重要な役割を担います。
我々はOERメタデータスコアリングモデルを提案し,OERの品質を予測できるメタデータベースの予測モデルを構築した。
データとモデルに基づいて、F1スコア94.6%の高品質なOERを検出できた。
論文 参考訳(メタデータ) (2020-05-21T09:53:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。