論文の概要: REIN: A Comprehensive Benchmark Framework for Data Cleaning Methods in
ML Pipelines
- arxiv url: http://arxiv.org/abs/2302.04702v1
- Date: Thu, 9 Feb 2023 15:37:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-10 15:25:29.427571
- Title: REIN: A Comprehensive Benchmark Framework for Data Cleaning Methods in
ML Pipelines
- Title(参考訳): rein: mlパイプラインのデータクリーニング方法のための包括的なベンチマークフレームワーク
- Authors: Mohamed Abdelaal, Christian Hammacher, Harald Schoening
- Abstract要約: 我々は,データクリーニング手法が各種機械学習モデルに与える影響を徹底的に調査するために,REIN1と呼ばれるベンチマークを導入する。
ベンチマークを通じて、MLパイプラインにおいて、データのクリーニングが必要なステップである場所や場所など、重要な研究課題に対する回答を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Nowadays, machine learning (ML) plays a vital role in many aspects of our
daily life. In essence, building well-performing ML applications requires the
provision of high-quality data throughout the entire life-cycle of such
applications. Nevertheless, most of the real-world tabular data suffer from
different types of discrepancies, such as missing values, outliers, duplicates,
pattern violation, and inconsistencies. Such discrepancies typically emerge
while collecting, transferring, storing, and/or integrating the data. To deal
with these discrepancies, numerous data cleaning methods have been introduced.
However, the majority of such methods broadly overlook the requirements imposed
by downstream ML models. As a result, the potential of utilizing these data
cleaning methods in ML pipelines is predominantly unrevealed. In this work, we
introduce a comprehensive benchmark, called REIN1, to thoroughly investigate
the impact of data cleaning methods on various ML models. Through the
benchmark, we provide answers to important research questions, e.g., where and
whether data cleaning is a necessary step in ML pipelines. To this end, the
benchmark examines 38 simple and advanced error detection and repair methods.
To evaluate these methods, we utilized a wide collection of ML models trained
on 14 publicly-available datasets covering different domains and encompassing
realistic as well as synthetic error profiles.
- Abstract(参考訳): 今日では、機械学習(ML)が日々の生活において重要な役割を担っている。
本質的に、優れたMLアプリケーションを構築するには、そのようなアプリケーションのライフサイクル全体を通して高品質なデータを提供する必要があります。
それでも、実際の表データのほとんどは、値の欠如、外れ値、重複、パターン違反、矛盾など、さまざまなタイプの不一致に悩まされている。
このような不一致は通常、データの収集、転送、保存、および/または統合中に発生する。
これらの不一致に対処するため、多くのデータクリーニング手法が導入された。
しかし、そのような手法の大部分は、下流MLモデルによって課される要件を概ね見落としている。
その結果、これらのデータクリーニング手法をMLパイプラインで活用する可能性はほとんど明らかにされていない。
本研究では,データクリーニング手法が各種MLモデルに与える影響を徹底的に調査するための総合ベンチマークREIN1を導入する。
ベンチマークを通じて、データのクリーニングがmlパイプラインに必要なステップであるかどうかなど、重要な研究課題に対する回答を提供する。
この目的のために、ベンチマークは38の単純かつ高度なエラー検出と修復方法を調べる。
これらの手法を評価するために,異なるドメインをカバーする14の公開データセットでトレーニングされたmlモデルの幅広いコレクションを利用し,合成エラープロファイルを包含した。
関連論文リスト
- Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。
本手法は,モデルトレーニングデータや重みを使用せずに,ブラックボックス条件下で動作することができる。
我々は,4つのベンチマークデータセットを用いて,31個の主要なオープンソースLCMのデータ漏洩の程度を評価する。
論文 参考訳(メタデータ) (2024-09-03T11:09:44Z) - Can LLMs Separate Instructions From Data? And What Do We Even Mean By That? [60.50127555651554]
大規模言語モデル(LLM)は、多くの実用的なアプリケーションにおいて印象的な結果を示すが、基本的な安全性機能は欠如している。
これにより、間接的なプロンプトインジェクションのような操作に脆弱になり、一般に安全クリティカルなタスクには適さない。
モデル出力から計算可能な命令データ分離の形式的尺度と経験的変量を導入する。
論文 参考訳(メタデータ) (2024-03-11T15:48:56Z) - Enhancing Consistency and Mitigating Bias: A Data Replay Approach for
Incremental Learning [100.7407460674153]
ディープラーニングシステムは、一連のタスクから学ぶとき、破滅的な忘れがちだ。
問題を緩和するため、新しいタスクを学ぶ際に経験豊富なタスクのデータを再生する手法が提案されている。
しかし、メモリ制約やデータプライバシーの問題を考慮すると、実際には期待できない。
代替として、分類モデルからサンプルを反転させることにより、データフリーなデータ再生法を提案する。
論文 参考訳(メタデータ) (2024-01-12T12:51:12Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - DiffPrep: Differentiable Data Preprocessing Pipeline Search for Learning
over Tabular Data [12.416345241511781]
与えられたデータセットに対するデータ前処理パイプラインを自動かつ効率的に検索するDiffPrepを提案する。
実験の結果,DiffPrepは実世界の18のデータセットのうち15の精度で最高のテスト精度を達成できた。
論文 参考訳(メタデータ) (2023-08-20T23:40:26Z) - VeML: An End-to-End Machine Learning Lifecycle for Large-scale and
High-dimensional Data [0.0]
本稿では、エンド・ツー・エンドの機械学習ライフサイクルに特化したバージョン管理システムであるVeMLを紹介する。
特に大規模かつ高次元のデータセットにおいて、MLライフサイクルを構築するための高コストに対処する。
大規模・高次元データの類似性を効率的に計算するために,コアセットに基づくアルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-04-25T07:32:16Z) - Privacy Adhering Machine Un-learning in NLP [66.17039929803933]
現実の業界では、機械学習を使ってユーザデータに基づくモデルを構築します。
このような委任事項には、データだけでなく、モデルの再トレーニングにも労力が要る。
データの継続的な削除と モデル再訓練のステップはスケールしません
この課題に対処するために、textitMachine Unlearningを提案する。
論文 参考訳(メタデータ) (2022-12-19T16:06:45Z) - Data Debugging with Shapley Importance over End-to-End Machine Learning
Pipelines [27.461398584509755]
DataScopeは、エンドツーエンドの機械学習パイプライン上でトレーニング例のShapley値を効率的に計算する最初のシステムである。
以上の結果から,DataScopeは最先端のモンテカルロ法よりも最大4桁高速であることがわかった。
論文 参考訳(メタデータ) (2022-04-23T19:29:23Z) - Machine Learning Model Drift Detection Via Weak Data Slices [5.319802998033767]
本研究では,データスライスと呼ばれる特徴空間規則を用いてドリフト検出を行う手法を提案する。
提案手法は,基礎となるデータの変化に基づいて,MLモデルが性能を変化させる可能性が示唆される。
論文 参考訳(メタデータ) (2021-08-11T16:55:34Z) - Auto-Validate: Unsupervised Data Validation Using Data-Domain Patterns
Inferred from Data Lakes [16.392844962056742]
我々は,適切なデータバリデーションパターンを推定し,自動検証するコーパス駆動型手法を開発した。
この技術の一部は、Microsoft Azure PurviewのAuto-Tag機能として提供される。
論文 参考訳(メタデータ) (2021-04-10T01:15:48Z) - PClean: Bayesian Data Cleaning at Scale with Domain-Specific
Probabilistic Programming [65.88506015656951]
我々は、データセット固有の知識を活用して汚いデータのクリーン化と正規化を行う確率的プログラミング言語であるPCleanを提案する。
PCleanは、(1)確率的プログラムでカスタマイズ可能なリレーショナルデータベースインスタンスの非パラメトリックモデル、(2)モデルの構造を利用するシーケンシャルなモンテカルロ推論アルゴリズム、(3)ほぼ最適のSMC提案とブロックされたギブス再構成の3つのモデルと推論コントリビューションを利用している。
論文 参考訳(メタデータ) (2020-07-23T08:01:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。