論文の概要: Data Quality Awareness: A Journey from Traditional Data Management to Data Science Systems
- arxiv url: http://arxiv.org/abs/2411.03007v1
- Date: Tue, 05 Nov 2024 11:12:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 14:59:13.422449
- Title: Data Quality Awareness: A Journey from Traditional Data Management to Data Science Systems
- Title(参考訳): データ品質の意識: 従来のデータ管理からデータサイエンスシステムへの旅
- Authors: Sijie Dong, Soror Sahri, Themis Palpanas,
- Abstract要約: 本稿では、従来のデータ管理システムから現代のデータ駆動型AIシステムへのデータ品質意識の進化についてレビューする。
データサイエンスシステムは幅広い活動をサポートするため、本論文の焦点は機械学習によって引き起こされる分析的側面に特化している。
- 参考スコア(独自算出の注目度): 9.490118207943196
- License:
- Abstract: Artificial intelligence (AI) has transformed various fields, significantly impacting our daily lives. A major factor in AI success is high-quality data. In this paper, we present a comprehensive review of the evolution of data quality (DQ) awareness from traditional data management systems to modern data-driven AI systems, which are integral to data science. We synthesize the existing literature, highlighting the quality challenges and techniques that have evolved from traditional data management to data science including big data and ML fields. As data science systems support a wide range of activities, our focus in this paper lies specifically in the analytics aspect driven by machine learning. We use the cause-effect connection between the quality challenges of ML and those of big data to allow a more thorough understanding of emerging DQ challenges and the related quality awareness techniques in data science systems. To the best of our knowledge, our paper is the first to provide a review of DQ awareness spanning traditional and emergent data science systems. We hope that readers will find this journey through the evolution of data quality awareness insightful and valuable.
- Abstract(参考訳): 人工知能(AI)は様々な分野を変革し、私たちの日常生活に大きな影響を与えています。
AIの成功の大きな要因は、高品質なデータである。
本稿では、従来のデータ管理システムから、データ科学に不可欠な現代データ駆動型AIシステムへの、データ品質(DQ)の認識の進化を包括的にレビューする。
我々は既存の文献を合成し、従来のデータ管理からビッグデータやMLフィールドを含むデータサイエンスへと進化してきた品質上の課題とテクニックを強調します。
データサイエンスシステムは幅広い活動をサポートするため、本論文の焦点は機械学習によって引き起こされる分析的側面に特化している。
我々は、MLの品質課題とビッグデータの品質課題との間の因果関係を利用して、新たなDQ課題と、データサイエンスシステムにおける関連する品質意識技術をより深く理解する。
我々の知る限り、私たちの論文は、従来のデータサイエンスシステムと創発的なデータサイエンスシステムにまたがるDQ意識のレビューを初めて提供します。
読者がデータ品質の認識の進化を通じて、洞察力と価値を見出すことを期待しています。
関連論文リスト
- Data Quality in Edge Machine Learning: A State-of-the-Art Survey [2.8449839307925955]
機械学習(ML)を使ってトレーニングされたデータ駆動人工知能(AI)システムは、私たちの生活の絶え間ない部分を形成している。
一方で、これらのシステムの影響は、特にトレーニングに使用されるデータにおいて、高い品質の基準を課している。
一方、エッジコンピューティングとIoTデバイスの普及により、データ品質(DQ)の標準を確立し維持することがより困難になる。
論文 参考訳(メタデータ) (2024-06-01T23:07:05Z) - AI-Driven Frameworks for Enhancing Data Quality in Big Data Ecosystems: Error_Detection, Correction, and Metadata Integration [0.0]
この論文は、ビッグデータの品質を包括的に向上することを目的とした、新しい相互接続フレームワークセットを提案する。
まず,データ品質を正確に評価するために,新しい品質指標と重み付きスコアシステムを導入する。
第3に,AIモデルを用いた各種品質異常検出のための汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-06T21:36:45Z) - Best Practices and Lessons Learned on Synthetic Data [83.63271573197026]
AIモデルの成功は、大規模で多様な、高品質なデータセットの可用性に依存している。
合成データは、現実世界のパターンを模倣する人工データを生成することによって、有望なソリューションとして現れてきた。
論文 参考訳(メタデータ) (2024-04-11T06:34:17Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - QI2 -- an Interactive Tool for Data Quality Assurance [63.379471124899915]
欧州委員会による計画されたAI法では、データ品質に関する法的要件が規定されている。
複数のデータ品質面におけるデータ品質保証プロセスをサポートする新しいアプローチを導入する。
論文 参考訳(メタデータ) (2023-07-07T07:06:38Z) - Data-centric Artificial Intelligence: A Survey [47.24049907785989]
近年、AIにおけるデータの役割は大幅に拡大し、データ中心AIという新たな概念が生まれた。
本稿では,データ中心型AIの必要性について論じ,続いて3つの一般的なデータ中心型目標の全体像を考察する。
これは、データライフサイクルのさまざまな段階にわたるタスクのグローバルなビューを提供する、初めての総合的な調査である、と私たちは信じています。
論文 参考訳(メタデータ) (2023-03-17T17:44:56Z) - Data-centric AI: Perspectives and Challenges [51.70828802140165]
データ中心AI(DCAI)は、モデル進歩からデータ品質と信頼性の確保への根本的なシフトを提唱している。
データ開発、推論データ開発、データメンテナンスの3つの一般的なミッションをまとめます。
論文 参考訳(メタデータ) (2023-01-12T05:28:59Z) - Advanced Data Augmentation Approaches: A Comprehensive Survey and Future
directions [57.30984060215482]
データ拡張の背景、レビューされたデータ拡張技術の新しい包括的分類法、および各技術の強さと弱点(可能ならば)を提供する。
また、画像分類、オブジェクト検出、セマンティックセグメンテーションなどの3つの一般的なコンピュータビジョンタスクに対して、データ拡張効果の総合的な結果を提供する。
論文 参考訳(メタデータ) (2023-01-07T11:37:32Z) - Data Smells in Public Datasets [7.1460275491017144]
我々は、機械学習システムにおける問題の早期兆候を示すために使用できる、新しいデータ臭いのカタログを紹介する。
データセットにおけるデータ品質の問題の頻度を理解するために、25の公開データセットを分析し、14のデータ臭いを特定します。
論文 参考訳(メタデータ) (2022-03-15T15:44:20Z) - Data Science: Challenges and Directions [42.98602883069444]
データサイエンスのタイトルを含む何百もの文献をレビューする。
議論の大部分は、統計、データマイニング、機械学習、ビッグデータ、あるいは広範なデータ分析に関するものだと考えています。
我々は、複雑なシステムとしてのデータサイエンス問題の性質にインスパイアされた研究とイノベーションの課題に焦点を当てる。
論文 参考訳(メタデータ) (2020-06-28T01:49:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。