論文の概要: Batchwise Probabilistic Incremental Data Cleaning
- arxiv url: http://arxiv.org/abs/2011.04730v1
- Date: Mon, 9 Nov 2020 20:15:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 02:19:35.755372
- Title: Batchwise Probabilistic Incremental Data Cleaning
- Title(参考訳): バッチワイズ確率的インクリメンタルデータクリーニング
- Authors: Paulo H. Oliveira, Daniel S. Kaster, Caetano Traina-Jr., Ihab F. Ilyas
- Abstract要約: 本報告では, 包括的データクリーニングを段階的に行うという課題に対処する。
私たちの知識を最大限に活用するために、私たちのコントリビューションは、データをクリーン化する最初のインクリメンタルフレームワークを構成しています。
当社のアプローチは, 品質, 実行時間, メモリ消費に関して, 競合他社よりも優れています。
- 参考スコア(独自算出の注目度): 5.035172070107058
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lack of data and data quality issues are among the main bottlenecks that
prevent further artificial intelligence adoption within many organizations,
pushing data scientists to spend most of their time cleaning data before being
able to answer analytical questions. Hence, there is a need for more effective
and efficient data cleaning solutions, which, not surprisingly, is rife with
theoretical and engineering problems. This report addresses the problem of
performing holistic data cleaning incrementally, given a fixed rule set and an
evolving categorical relational dataset acquired in sequential batches. To the
best of our knowledge, our contributions compose the first incremental
framework that cleans data (i) independently of user interventions, (ii)
without requiring knowledge about the incoming dataset, such as the number of
classes per attribute, and (iii) holistically, enabling multiple error types to
be repaired simultaneously, and thus avoiding conflicting repairs. Extensive
experiments show that our approach outperforms the competitors with respect to
repair quality, execution time, and memory consumption.
- Abstract(参考訳): データとデータの品質の問題の欠如は、多くの組織で人工知能がさらなる採用を妨げ、データサイエンティストが分析的な質問に答える前にデータのクリーニングに時間を費やすという、大きなボトルネックの1つだ。
したがって、より効率的で効率的なデータクリーニングソリューションが必要である。
本報告は,逐次バッチで取得した固定ルールセットと進化するカテゴリリレーショナルデータセットを考慮し,総括的データのクリーニングを段階的に行う問題に対処する。
私たちの知識を最大限に活用するために、私たちの貢献はデータをクリーン化する最初のインクリメンタルフレームワークを構成する。
i) ユーザの介入とは独立して
(二 属性ごとのクラス数等の入ってくるデータセットについての知識を必要とせず
(iii)階層的に複数のエラータイプを同時に修復できるため、相反する修正を避けることができる。
広範な実験の結果,我々のアプローチは,修復品質,実行時間,メモリ消費に関して,競合製品よりも優れています。
関連論文リスト
- Have Seen Me Before? Automating Dataset Updates Towards Reliable and
Timely Evaluation [59.91488389687633]
大きな言語モデル(LLM)は、ますます深刻な評価課題に直面しています。
本稿では,信頼性とタイムリーな評価のために,データセットの更新を自動化することを提案する。
論文 参考訳(メタデータ) (2024-02-19T07:15:59Z) - Collect, Measure, Repeat: Reliability Factors for Responsible AI Data
Collection [8.12993269922936]
AIのデータ収集は責任ある方法で行うべきだと我々は主張する。
本稿では,データ収集をメトリクスの集合でガイドするResponsible AI(RAI)手法を提案する。
論文 参考訳(メタデータ) (2023-08-22T18:01:27Z) - A Pre-trained Data Deduplication Model based on Active Learning [12.128827340330485]
汚れたデータ"問題は、ビッグデータの効果的な適用を著しく制限することができる。
本研究では,能動学習に基づく事前学習型重複解法モデルを提案する。
提案モデルでは、重複データ識別のための従来のSOTA(State-of-the-art)よりも優れている。
論文 参考訳(メタデータ) (2023-07-31T03:56:46Z) - Make Every Example Count: On the Stability and Utility of Self-Influence
for Learning from Noisy NLP Datasets [4.142507103595571]
データクリーニングのためのトレーニング例のタスク非依存自己影響スコアの適合性について検討した。
自然発生の異常者を捕獲する効果を解析する。
論文 参考訳(メタデータ) (2023-02-27T17:00:06Z) - Optimizing Data Collection for Machine Learning [87.37252958806856]
現代のディープラーニングシステムは、素晴らしいパフォーマンスを達成するために巨大なデータセットを必要とします。
過度に収集したデータは不要な現在のコストを発生させる一方、過度に収集したデータは将来のコストと遅延を引き起こす可能性がある。
本稿では,データ収集を形式的最適データ収集問題としてモデル化するための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2022-10-03T21:19:05Z) - How Much More Data Do I Need? Estimating Requirements for Downstream
Tasks [99.44608160188905]
小さなトレーニングデータセットと学習アルゴリズムがあれば、ターゲットの検証やテストのパフォーマンスに到達するのに、どれくらいのデータが必要か?
データ要求を過大評価または過小評価すると、十分な予算で回避できる相当なコストが発生する。
本ガイドラインを用いることで,機械学習システムのデータ要求を正確に推定し,開発時間とデータ取得コストの双方で節約することができる。
論文 参考訳(メタデータ) (2022-07-04T21:16:05Z) - Federated Causal Discovery [74.37739054932733]
本稿では,DAG-Shared Federated Causal Discovery (DS-FCD) という勾配学習フレームワークを開発する。
ローカルデータに直接触れることなく因果グラフを学習し、データの不均一性を自然に扱うことができる。
合成および実世界の両方のデータセットに対する大規模な実験により,提案手法の有効性が検証された。
論文 参考訳(メタデータ) (2021-12-07T08:04:12Z) - Autoencoder-based cleaning in probabilistic databases [0.0]
ほぼ自動でデータ品質を向上できるデータクリーニングオートエンコーダを提案する。
データの構造と依存関係を学び、疑わしい値を識別し、修正する。
論文 参考訳(メタデータ) (2021-06-17T18:46:56Z) - ORDisCo: Effective and Efficient Usage of Incremental Unlabeled Data for
Semi-supervised Continual Learning [52.831894583501395]
連続学習は、入力されたデータが完全にラベル付けされていると仮定し、実際のアプリケーションでは適用できないかもしれない。
我々は、条件付き生成逆数ネットワーク(GAN)を用いた分類器を相互に学習するために、識別器整合(ORDisCo)を用いたディープオンライン再生を提案する。
ORDisCo が SSCL の様々な半教師付き学習ベンチマークデータセットで大幅なパフォーマンス向上を達成していることを示します。
論文 参考訳(メタデータ) (2021-01-02T09:04:14Z) - Occams Razor for Big Data? On Detecting Quality in Large Unstructured
Datasets [0.0]
分析複雑性への新たな傾向は、科学におけるパシモニーやオッカム・ラザーの原理にとって深刻な課題である。
データクラスタリングのための計算的ビルディングブロックアプローチは、最小の計算時間で大規模な非構造化データセットを扱うのに役立つ。
このレビューは、東西の文化的な違いがビッグデータ分析の過程にどのように影響するかを結論付けている。
論文 参考訳(メタデータ) (2020-11-12T16:06:01Z) - DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a
Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。
利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。
関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2019-12-27T02:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。