論文の概要: Data Pipeline Quality: Influencing Factors, Root Causes of Data-related
Issues, and Processing Problem Areas for Developers
- arxiv url: http://arxiv.org/abs/2309.07067v1
- Date: Wed, 13 Sep 2023 16:28:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 07:49:16.349594
- Title: Data Pipeline Quality: Influencing Factors, Root Causes of Data-related
Issues, and Processing Problem Areas for Developers
- Title(参考訳): データパイプラインの品質: 影響要因、データ関連問題の根本原因、開発者のための処理問題領域
- Authors: Harald Foidl, Valentina Golendukhina, Rudolf Ramler, Michael Felderer
- Abstract要約: この記事ではまず、データパイプラインの品質データ提供能力に影響を与える41の要因の分類を紹介します。
データ、インフラストラクチャ、ライフサイクル管理、開発とデプロイメント、および処理が主な影響するテーマであることがわかった。
- 参考スコア(独自算出の注目度): 4.473327661758546
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Data pipelines are an integral part of various modern data-driven systems.
However, despite their importance, they are often unreliable and deliver
poor-quality data. A critical step toward improving this situation is a solid
understanding of the aspects contributing to the quality of data pipelines.
Therefore, this article first introduces a taxonomy of 41 factors that
influence the ability of data pipelines to provide quality data. The taxonomy
is based on a multivocal literature review and validated by eight interviews
with experts from the data engineering domain. Data, infrastructure, life cycle
management, development & deployment, and processing were found to be the main
influencing themes. Second, we investigate the root causes of data-related
issues, their location in data pipelines, and the main topics of data pipeline
processing issues for developers by mining GitHub projects and Stack Overflow
posts. We found data-related issues to be primarily caused by incorrect data
types (33%), mainly occurring in the data cleaning stage of pipelines (35%).
Data integration and ingestion tasks were found to be the most asked topics of
developers, accounting for nearly half (47%) of all questions. Compatibility
issues were found to be a separate problem area in addition to issues
corresponding to the usual data pipeline processing areas (i.e., data loading,
ingestion, integration, cleaning, and transformation). These findings suggest
that future research efforts should focus on analyzing compatibility and data
type issues in more depth and assisting developers in data integration and
ingestion tasks. The proposed taxonomy is valuable to practitioners in the
context of quality assurance activities and fosters future research into data
pipeline quality.
- Abstract(参考訳): データパイプラインは、さまざまな現代的なデータ駆動システムにおいて不可欠な部分です。
しかし、その重要性にもかかわらず、信頼できないことが多く、品質の悪いデータを提供する。
この状況を改善するための重要なステップは、データパイプラインの品質に寄与する側面をしっかりと理解することだ。
そこで本稿ではまず,データパイプラインの品質データ提供能力に影響を与える41の要因を分類する。
分類学は多言語文献レビューに基づいており、データエンジニアリング分野の専門家との8つのインタビューによって検証されている。
データ、インフラストラクチャ、ライフサイクル管理、開発とデプロイメント、および処理が主な影響するテーマであることがわかった。
次に,githubプロジェクトとstack overflowの投稿をマイニングすることによって,データ関連の問題の根本原因,データパイプラインにおける位置,データパイプライン処理の問題の主なトピックを調査した。
データ関連の問題は,パイプラインのデータクリーニング段階(35%)で主に発生する不正なデータ型(33%)が原因であることがわかった。
データ統合と取り込みタスクは開発者の最も質問の多いトピックであり、すべての質問のほぼ半分(47%)を占めています。
互換性の問題は、通常のデータパイプライン処理領域(データローディング、取り込み、統合、クリーニング、変換など)に対応する問題に加えて、別の問題領域であることが判明した。
これらの結果は、将来の研究は互換性とデータ型の問題をより深く分析し、データ統合と取り込みタスクにおける開発者を支援することに重点を置くべきであることを示唆している。
提案する分類法は,品質保証活動の文脈において実践者にとって有用であり,データパイプライン品質に関する今後の研究を促進する。
関連論文リスト
- Enhancing Data Quality in Federated Fine-Tuning of Foundation Models [54.757324343062734]
本稿では,基礎モデルのファインチューニングのためのデータ品質制御パイプラインを提案する。
このパイプラインは、トレーニングデータの質を反映したスコアを計算し、統一された標準のグローバルしきい値を決定する。
実験の結果,提案した品質制御パイプラインはモデルトレーニングの有効性と信頼性を向上し,性能が向上することが示された。
論文 参考訳(メタデータ) (2024-03-07T14:28:04Z) - Investigating the Quality of DermaMNIST and Fitzpatrick17k
Dermatological Image Datasets [19.128392861461297]
DermaMNIST と Fitzpatrick17k という2つの一般的な皮膚画像データセットの精査分析を行った。
データ品質の問題を明らかにし、これらの問題がベンチマーク結果に与える影響を測定し、データセットの修正を提案する。
論文 参考訳(メタデータ) (2024-01-25T20:29:01Z) - A Pretrainer's Guide to Training Data: Measuring the Effects of Data
Age, Domain Coverage, Quality, & Toxicity [84.6421260559093]
この研究は、テキスト事前学習に関する文書化されていない直観を検証、定量化、公開するための最大の実験である。
以上の結果から,トレーニングデータをフィルタリングする一大ソリューションが存在しないことが示唆された。
論文 参考訳(メタデータ) (2023-05-22T15:57:53Z) - A Comprehensive Survey of Dataset Distillation [73.15482472726555]
限られた計算能力で無制限に成長するデータを扱うことは困難になっている。
ディープラーニング技術はこの10年で前例のない発展を遂げた。
本稿では,多面的なデータセット蒸留の総合的な理解を提供する。
論文 参考訳(メタデータ) (2023-01-13T15:11:38Z) - Advanced Data Augmentation Approaches: A Comprehensive Survey and Future
directions [57.30984060215482]
データ拡張の背景、レビューされたデータ拡張技術の新しい包括的分類法、および各技術の強さと弱点(可能ならば)を提供する。
また、画像分類、オブジェクト検出、セマンティックセグメンテーションなどの3つの一般的なコンピュータビジョンタスクに対して、データ拡張効果の総合的な結果を提供する。
論文 参考訳(メタデータ) (2023-01-07T11:37:32Z) - A Survey of Dataset Refinement for Problems in Computer Vision Datasets [11.45536223418548]
大規模データセットはコンピュータビジョンの進歩に重要な役割を果たしてきた。
クラス不均衡、ノイズの多いラベル、データセットバイアス、高いリソースコストといった問題に悩まされることが多い。
データセット問題を解決するために、様々なデータ中心のソリューションが提案されている。
データセットを再構成することで、データセットの品質が向上します。
論文 参考訳(メタデータ) (2022-10-21T03:58:43Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - Augment & Valuate : A Data Enhancement Pipeline for Data-Centric AI [19.358073575300004]
ブラックボックスモデルを用いたデータセットの基本分布特性と意味特性に対処するデータ中心型手法を提案する。
データ中心AIコンペティションにおいて、提供されたデータセットのみで84.711%のテスト精度(6位、最もイノベーティブなメンション)を達成する。
論文 参考訳(メタデータ) (2021-12-07T17:22:44Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z) - Occams Razor for Big Data? On Detecting Quality in Large Unstructured
Datasets [0.0]
分析複雑性への新たな傾向は、科学におけるパシモニーやオッカム・ラザーの原理にとって深刻な課題である。
データクラスタリングのための計算的ビルディングブロックアプローチは、最小の計算時間で大規模な非構造化データセットを扱うのに役立つ。
このレビューは、東西の文化的な違いがビッグデータ分析の過程にどのように影響するかを結論付けている。
論文 参考訳(メタデータ) (2020-11-12T16:06:01Z) - Challenges in Benchmarking Stream Learning Algorithms with Real-world
Data [2.861782696432711]
ストリーミングデータは、センサー計測、衛星データフィード、株式市場、金融データなど、現実世界のアプリケーションにますます存在する。
データストリームマイニングコミュニティは、新しい提案の比較と評価に関するいくつかの主要な課題と困難に直面している。
実世界のデータを用いたストリームアルゴリズムのベンチマークのための新しい公開データリポジトリを提案する。
論文 参考訳(メタデータ) (2020-04-30T21:31:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。