論文の概要: REIN: A Comprehensive Benchmark Framework for Data Cleaning Methods in
ML Pipelines
- arxiv url: http://arxiv.org/abs/2302.04702v1
- Date: Thu, 9 Feb 2023 15:37:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-10 15:25:29.427571
- Title: REIN: A Comprehensive Benchmark Framework for Data Cleaning Methods in
ML Pipelines
- Title(参考訳): rein: mlパイプラインのデータクリーニング方法のための包括的なベンチマークフレームワーク
- Authors: Mohamed Abdelaal, Christian Hammacher, Harald Schoening
- Abstract要約: 我々は,データクリーニング手法が各種機械学習モデルに与える影響を徹底的に調査するために,REIN1と呼ばれるベンチマークを導入する。
ベンチマークを通じて、MLパイプラインにおいて、データのクリーニングが必要なステップである場所や場所など、重要な研究課題に対する回答を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Nowadays, machine learning (ML) plays a vital role in many aspects of our
daily life. In essence, building well-performing ML applications requires the
provision of high-quality data throughout the entire life-cycle of such
applications. Nevertheless, most of the real-world tabular data suffer from
different types of discrepancies, such as missing values, outliers, duplicates,
pattern violation, and inconsistencies. Such discrepancies typically emerge
while collecting, transferring, storing, and/or integrating the data. To deal
with these discrepancies, numerous data cleaning methods have been introduced.
However, the majority of such methods broadly overlook the requirements imposed
by downstream ML models. As a result, the potential of utilizing these data
cleaning methods in ML pipelines is predominantly unrevealed. In this work, we
introduce a comprehensive benchmark, called REIN1, to thoroughly investigate
the impact of data cleaning methods on various ML models. Through the
benchmark, we provide answers to important research questions, e.g., where and
whether data cleaning is a necessary step in ML pipelines. To this end, the
benchmark examines 38 simple and advanced error detection and repair methods.
To evaluate these methods, we utilized a wide collection of ML models trained
on 14 publicly-available datasets covering different domains and encompassing
realistic as well as synthetic error profiles.
- Abstract(参考訳): 今日では、機械学習(ML)が日々の生活において重要な役割を担っている。
本質的に、優れたMLアプリケーションを構築するには、そのようなアプリケーションのライフサイクル全体を通して高品質なデータを提供する必要があります。
それでも、実際の表データのほとんどは、値の欠如、外れ値、重複、パターン違反、矛盾など、さまざまなタイプの不一致に悩まされている。
このような不一致は通常、データの収集、転送、保存、および/または統合中に発生する。
これらの不一致に対処するため、多くのデータクリーニング手法が導入された。
しかし、そのような手法の大部分は、下流MLモデルによって課される要件を概ね見落としている。
その結果、これらのデータクリーニング手法をMLパイプラインで活用する可能性はほとんど明らかにされていない。
本研究では,データクリーニング手法が各種MLモデルに与える影響を徹底的に調査するための総合ベンチマークREIN1を導入する。
ベンチマークを通じて、データのクリーニングがmlパイプラインに必要なステップであるかどうかなど、重要な研究課題に対する回答を提供する。
この目的のために、ベンチマークは38の単純かつ高度なエラー検出と修復方法を調べる。
これらの手法を評価するために,異なるドメインをカバーする14の公開データセットでトレーニングされたmlモデルの幅広いコレクションを利用し,合成エラープロファイルを包含した。
関連論文リスト
- Enhancing Consistency and Mitigating Bias: A Data Replay Approach for
Incremental Learning [100.7407460674153]
ディープラーニングシステムは、一連のタスクから学ぶとき、破滅的な忘れがちだ。
問題を緩和するため、新しいタスクを学ぶ際に経験豊富なタスクのデータを再生する手法が提案されている。
しかし、メモリ制約やデータプライバシーの問題を考慮すると、実際には期待できない。
代替として、分類モデルからサンプルを反転させることにより、データフリーなデータ再生法を提案する。
論文 参考訳(メタデータ) (2024-01-12T12:51:12Z) - VDC: Versatile Data Cleanser for Detecting Dirty Samples via
Visual-Linguistic Inconsistency [50.129230147605185]
現実の世界では、データセットには、バックドア攻撃による毒サンプル、クラウドソーシングにおけるノイズの多いラベル、さらにはそれらのハイブリッドなど、汚れたサンプルが含まれている。
既存の検出器は、他のドメインの汚れたサンプルを扱う場合、しばしば一般化が弱くなるような、有毒なサンプルやノイズのあるラベルを検出することのみに焦点を当てている。
マルチモーダル大規模言語モデル(MLLM)の超越した機能を利用した多目的データクリーニング(VDC)を提案する。
論文 参考訳(メタデータ) (2023-09-28T07:37:18Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - DiffPrep: Differentiable Data Preprocessing Pipeline Search for Learning
over Tabular Data [12.416345241511781]
与えられたデータセットに対するデータ前処理パイプラインを自動かつ効率的に検索するDiffPrepを提案する。
実験の結果,DiffPrepは実世界の18のデータセットのうち15の精度で最高のテスト精度を達成できた。
論文 参考訳(メタデータ) (2023-08-20T23:40:26Z) - VeML: An End-to-End Machine Learning Lifecycle for Large-scale and
High-dimensional Data [0.0]
本稿では、エンド・ツー・エンドの機械学習ライフサイクルに特化したバージョン管理システムであるVeMLを紹介する。
特に大規模かつ高次元のデータセットにおいて、MLライフサイクルを構築するための高コストに対処する。
大規模・高次元データの類似性を効率的に計算するために,コアセットに基づくアルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-04-25T07:32:16Z) - Privacy Adhering Machine Un-learning in NLP [66.17039929803933]
現実の業界では、機械学習を使ってユーザデータに基づくモデルを構築します。
このような委任事項には、データだけでなく、モデルの再トレーニングにも労力が要る。
データの継続的な削除と モデル再訓練のステップはスケールしません
この課題に対処するために、textitMachine Unlearningを提案する。
論文 参考訳(メタデータ) (2022-12-19T16:06:45Z) - Information FOMO: The unhealthy fear of missing out on information. A
method for removing misleading data for healthier models [0.0]
本稿では,機械学習モデルを正確に学習するために必要なデータサイズを大幅に削減する手法を提案する。
本手法は,MLモデルを低次一般化特性に誤導するデータを無視・省略しながら,最も情報性の高いデータを抽出する。
特に、このメソッドは、データセットをトレーニング、テスト、バリデーションデータに分割する従来のニーズを自然に収束させ、取り除きます。
論文 参考訳(メタデータ) (2022-08-27T19:43:53Z) - Data Debugging with Shapley Importance over End-to-End Machine Learning
Pipelines [27.461398584509755]
DataScopeは、エンドツーエンドの機械学習パイプライン上でトレーニング例のShapley値を効率的に計算する最初のシステムである。
以上の結果から,DataScopeは最先端のモンテカルロ法よりも最大4桁高速であることがわかった。
論文 参考訳(メタデータ) (2022-04-23T19:29:23Z) - Machine Learning Model Drift Detection Via Weak Data Slices [5.319802998033767]
本研究では,データスライスと呼ばれる特徴空間規則を用いてドリフト検出を行う手法を提案する。
提案手法は,基礎となるデータの変化に基づいて,MLモデルが性能を変化させる可能性が示唆される。
論文 参考訳(メタデータ) (2021-08-11T16:55:34Z) - Overcoming the curse of dimensionality with Laplacian regularization in
semi-supervised learning [80.20302993614594]
ラプラシア正規化の欠点を克服するための統計的解析を提供する。
望ましい振る舞いを示すスペクトルフィルタリング法を多数発表する。
我々は,本手法を大量のデータで利用できるようにするために,現実的な計算ガイドラインを提供する。
論文 参考訳(メタデータ) (2020-09-09T14:28:54Z) - PClean: Bayesian Data Cleaning at Scale with Domain-Specific
Probabilistic Programming [65.88506015656951]
我々は、データセット固有の知識を活用して汚いデータのクリーン化と正規化を行う確率的プログラミング言語であるPCleanを提案する。
PCleanは、(1)確率的プログラムでカスタマイズ可能なリレーショナルデータベースインスタンスの非パラメトリックモデル、(2)モデルの構造を利用するシーケンシャルなモンテカルロ推論アルゴリズム、(3)ほぼ最適のSMC提案とブロックされたギブス再構成の3つのモデルと推論コントリビューションを利用している。
論文 参考訳(メタデータ) (2020-07-23T08:01:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。