論文の概要: Batchwise Probabilistic Incremental Data Cleaning
- arxiv url: http://arxiv.org/abs/2011.04730v1
- Date: Mon, 9 Nov 2020 20:15:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 02:19:35.755372
- Title: Batchwise Probabilistic Incremental Data Cleaning
- Title(参考訳): バッチワイズ確率的インクリメンタルデータクリーニング
- Authors: Paulo H. Oliveira, Daniel S. Kaster, Caetano Traina-Jr., Ihab F. Ilyas
- Abstract要約: 本報告では, 包括的データクリーニングを段階的に行うという課題に対処する。
私たちの知識を最大限に活用するために、私たちのコントリビューションは、データをクリーン化する最初のインクリメンタルフレームワークを構成しています。
当社のアプローチは, 品質, 実行時間, メモリ消費に関して, 競合他社よりも優れています。
- 参考スコア(独自算出の注目度): 5.035172070107058
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lack of data and data quality issues are among the main bottlenecks that
prevent further artificial intelligence adoption within many organizations,
pushing data scientists to spend most of their time cleaning data before being
able to answer analytical questions. Hence, there is a need for more effective
and efficient data cleaning solutions, which, not surprisingly, is rife with
theoretical and engineering problems. This report addresses the problem of
performing holistic data cleaning incrementally, given a fixed rule set and an
evolving categorical relational dataset acquired in sequential batches. To the
best of our knowledge, our contributions compose the first incremental
framework that cleans data (i) independently of user interventions, (ii)
without requiring knowledge about the incoming dataset, such as the number of
classes per attribute, and (iii) holistically, enabling multiple error types to
be repaired simultaneously, and thus avoiding conflicting repairs. Extensive
experiments show that our approach outperforms the competitors with respect to
repair quality, execution time, and memory consumption.
- Abstract(参考訳): データとデータの品質の問題の欠如は、多くの組織で人工知能がさらなる採用を妨げ、データサイエンティストが分析的な質問に答える前にデータのクリーニングに時間を費やすという、大きなボトルネックの1つだ。
したがって、より効率的で効率的なデータクリーニングソリューションが必要である。
本報告は,逐次バッチで取得した固定ルールセットと進化するカテゴリリレーショナルデータセットを考慮し,総括的データのクリーニングを段階的に行う問題に対処する。
私たちの知識を最大限に活用するために、私たちの貢献はデータをクリーン化する最初のインクリメンタルフレームワークを構成する。
i) ユーザの介入とは独立して
(二 属性ごとのクラス数等の入ってくるデータセットについての知識を必要とせず
(iii)階層的に複数のエラータイプを同時に修復できるため、相反する修正を避けることができる。
広範な実験の結果,我々のアプローチは,修復品質,実行時間,メモリ消費に関して,競合製品よりも優れています。
関連論文リスト
- A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Towards Explainable Automated Data Quality Enhancement without Domain Knowledge [0.0]
我々は,任意のデータセットにおけるデータ品質問題を自動的に評価し,修正するための包括的フレームワークを提案する。
私たちの主な目的は、欠如、冗長性、不整合という3つの基本的な欠陥に対処することです。
統計的手法と機械学習アルゴリズムを統合するハイブリッドアプローチを採用する。
論文 参考訳(メタデータ) (2024-09-16T10:08:05Z) - Dataset Growth [59.68869191071907]
InfoGrowthは、データのクリーニングとセレクションのための効率的なオンラインアルゴリズムである。
シングルモーダルタスクとマルチモーダルタスクの両方において、データ品質/効率を改善することができる。
論文 参考訳(メタデータ) (2024-05-28T16:43:57Z) - AI-Driven Frameworks for Enhancing Data Quality in Big Data Ecosystems: Error_Detection, Correction, and Metadata Integration [0.0]
この論文は、ビッグデータの品質を包括的に向上することを目的とした、新しい相互接続フレームワークセットを提案する。
まず,データ品質を正確に評価するために,新しい品質指標と重み付きスコアシステムを導入する。
第3に,AIモデルを用いた各種品質異常検出のための汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-06T21:36:45Z) - Collect, Measure, Repeat: Reliability Factors for Responsible AI Data
Collection [8.12993269922936]
AIのデータ収集は責任ある方法で行うべきだと我々は主張する。
本稿では,データ収集をメトリクスの集合でガイドするResponsible AI(RAI)手法を提案する。
論文 参考訳(メタデータ) (2023-08-22T18:01:27Z) - Make Every Example Count: On the Stability and Utility of Self-Influence
for Learning from Noisy NLP Datasets [4.142507103595571]
データクリーニングのためのトレーニング例のタスク非依存自己影響スコアの適合性について検討した。
自然発生の異常者を捕獲する効果を解析する。
論文 参考訳(メタデータ) (2023-02-27T17:00:06Z) - Optimizing Data Collection for Machine Learning [87.37252958806856]
現代のディープラーニングシステムは、素晴らしいパフォーマンスを達成するために巨大なデータセットを必要とします。
過度に収集したデータは不要な現在のコストを発生させる一方、過度に収集したデータは将来のコストと遅延を引き起こす可能性がある。
本稿では,データ収集を形式的最適データ収集問題としてモデル化するための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2022-10-03T21:19:05Z) - How Much More Data Do I Need? Estimating Requirements for Downstream
Tasks [99.44608160188905]
小さなトレーニングデータセットと学習アルゴリズムがあれば、ターゲットの検証やテストのパフォーマンスに到達するのに、どれくらいのデータが必要か?
データ要求を過大評価または過小評価すると、十分な予算で回避できる相当なコストが発生する。
本ガイドラインを用いることで,機械学習システムのデータ要求を正確に推定し,開発時間とデータ取得コストの双方で節約することができる。
論文 参考訳(メタデータ) (2022-07-04T21:16:05Z) - Autoencoder-based cleaning in probabilistic databases [0.0]
ほぼ自動でデータ品質を向上できるデータクリーニングオートエンコーダを提案する。
データの構造と依存関係を学び、疑わしい値を識別し、修正する。
論文 参考訳(メタデータ) (2021-06-17T18:46:56Z) - ORDisCo: Effective and Efficient Usage of Incremental Unlabeled Data for
Semi-supervised Continual Learning [52.831894583501395]
連続学習は、入力されたデータが完全にラベル付けされていると仮定し、実際のアプリケーションでは適用できないかもしれない。
我々は、条件付き生成逆数ネットワーク(GAN)を用いた分類器を相互に学習するために、識別器整合(ORDisCo)を用いたディープオンライン再生を提案する。
ORDisCo が SSCL の様々な半教師付き学習ベンチマークデータセットで大幅なパフォーマンス向上を達成していることを示します。
論文 参考訳(メタデータ) (2021-01-02T09:04:14Z) - DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a
Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。
利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。
関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2019-12-27T02:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。