Fugu-MT 論文翻訳(概要): REIN: A Comprehensive Benchmark Framework for Data Cleaning Methods in ML Pipelines

論文の概要: REIN: A Comprehensive Benchmark Framework for Data Cleaning Methods in ML Pipelines

arxiv url: http://arxiv.org/abs/2302.04702v1
Date: Thu, 9 Feb 2023 15:37:39 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-10 15:25:29.427571
Title: REIN: A Comprehensive Benchmark Framework for Data Cleaning Methods in ML Pipelines
Title（参考訳）: rein: mlパイプラインのデータクリーニング方法のための包括的なベンチマークフレームワーク
Authors: Mohamed Abdelaal, Christian Hammacher, Harald Schoening
Abstract要約: 我々は,データクリーニング手法が各種機械学習モデルに与える影響を徹底的に調査するために,REIN1と呼ばれるベンチマークを導入する。ベンチマークを通じて、MLパイプラインにおいて、データのクリーニングが必要なステップである場所や場所など、重要な研究課題に対する回答を提供する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Nowadays, machine learning (ML) plays a vital role in many aspects of our daily life. In essence, building well-performing ML applications requires the provision of high-quality data throughout the entire life-cycle of such applications. Nevertheless, most of the real-world tabular data suffer from different types of discrepancies, such as missing values, outliers, duplicates, pattern violation, and inconsistencies. Such discrepancies typically emerge while collecting, transferring, storing, and/or integrating the data. To deal with these discrepancies, numerous data cleaning methods have been introduced. However, the majority of such methods broadly overlook the requirements imposed by downstream ML models. As a result, the potential of utilizing these data cleaning methods in ML pipelines is predominantly unrevealed. In this work, we introduce a comprehensive benchmark, called REIN1, to thoroughly investigate the impact of data cleaning methods on various ML models. Through the benchmark, we provide answers to important research questions, e.g., where and whether data cleaning is a necessary step in ML pipelines. To this end, the benchmark examines 38 simple and advanced error detection and repair methods. To evaluate these methods, we utilized a wide collection of ML models trained on 14 publicly-available datasets covering different domains and encompassing realistic as well as synthetic error profiles.
Abstract（参考訳）: 今日では、機械学習(ML)が日々の生活において重要な役割を担っている。本質的に、優れたMLアプリケーションを構築するには、そのようなアプリケーションのライフサイクル全体を通して高品質なデータを提供する必要があります。それでも、実際の表データのほとんどは、値の欠如、外れ値、重複、パターン違反、矛盾など、さまざまなタイプの不一致に悩まされている。このような不一致は通常、データの収集、転送、保存、および/または統合中に発生する。これらの不一致に対処するため、多くのデータクリーニング手法が導入された。しかし、そのような手法の大部分は、下流MLモデルによって課される要件を概ね見落としている。その結果、これらのデータクリーニング手法をMLパイプラインで活用する可能性はほとんど明らかにされていない。本研究では,データクリーニング手法が各種MLモデルに与える影響を徹底的に調査するための総合ベンチマークREIN1を導入する。ベンチマークを通じて、データのクリーニングがmlパイプラインに必要なステップであるかどうかなど、重要な研究課題に対する回答を提供する。この目的のために、ベンチマークは38の単純かつ高度なエラー検出と修復方法を調べる。これらの手法を評価するために,異なるドメインをカバーする14の公開データセットでトレーニングされたmlモデルの幅広いコレクションを利用し,合成エラープロファイルを包含した。

関連論文リスト

Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers [59.168391398830515]
我々は,14のファクトチェックベンチマークのサンプルを用いて,12の事前学習LDMと1つの特殊ファクト検証器を評価した。データセットにおけるアノテーションエラーとあいまいさに対処することの重要性を強調します。最上位のパフォーマンスを実現するために、前作でしばしば見落とされがちな、数ショットのインコンテキストの例を持つフロンティアLSM。
論文参考訳（メタデータ） (2025-06-16T10:32:10Z)
Purifying, Labeling, and Utilizing: A High-Quality Pipeline for Small Object Detection [83.90563802153707]
PLUSNetは高品質のSmallオブジェクト検出フレームワークである。上流の特徴を浄化するための階層的特徴(HFP)フレームワーク、中流トレーニングサンプルの品質を改善するための多重基準ラベル割り当て(MCLA)、下流タスクを達成するためにより効果的に情報を活用するための周波数分離ヘッド(FDHead)の3つのコンポーネントで構成されている。
論文参考訳（メタデータ） (2025-04-29T10:11:03Z)
Are Large Language Models Good Data Preprocessors? [5.954202581988127]
高品質なテキストトレーニングデータは、マルチモーダルデータ処理タスクの成功に不可欠である。 BLIPやGITのような画像キャプションモデルからの出力は、しばしばルールベースの手法で修正が難しいエラーや異常を含む。
論文参考訳（メタデータ） (2025-02-24T02:57:21Z)
Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。本手法は,モデルトレーニングデータや重みを使用せずに,ブラックボックス条件下で動作することができる。我々は,4つのベンチマークデータセットを用いて,31個の主要なオープンソースLCMのデータ漏洩の程度を評価する。
論文参考訳（メタデータ） (2024-09-03T11:09:44Z)
Can LLMs Separate Instructions From Data? And What Do We Even Mean By That? [60.50127555651554]
大規模言語モデル(LLM)は、多くの実用的なアプリケーションにおいて印象的な結果を示すが、基本的な安全性機能は欠如している。これにより、間接的なプロンプトインジェクションのような操作に脆弱になり、一般に安全クリティカルなタスクには適さない。モデル出力から計算可能な命令データ分離の形式的尺度と経験的変量を導入する。
論文参考訳（メタデータ） (2024-03-11T15:48:56Z)
Enhancing Consistency and Mitigating Bias: A Data Replay Approach for Incremental Learning [100.7407460674153]
ディープラーニングシステムは、一連のタスクから学ぶとき、破滅的な忘れがちだ。問題を緩和するため、新しいタスクを学ぶ際に経験豊富なタスクのデータを再生する手法が提案されている。しかし、メモリ制約やデータプライバシーの問題を考慮すると、実際には期待できない。代替として、分類モデルからサンプルを反転させることにより、データフリーなデータ再生法を提案する。
論文参考訳（メタデータ） (2024-01-12T12:51:12Z)
MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文参考訳（メタデータ） (2023-08-25T01:41:04Z)
DiffPrep: Differentiable Data Preprocessing Pipeline Search for Learning over Tabular Data [12.416345241511781]
与えられたデータセットに対するデータ前処理パイプラインを自動かつ効率的に検索するDiffPrepを提案する。実験の結果,DiffPrepは実世界の18のデータセットのうち15の精度で最高のテスト精度を達成できた。
論文参考訳（メタデータ） (2023-08-20T23:40:26Z)
VeML: An End-to-End Machine Learning Lifecycle for Large-scale and High-dimensional Data [0.0]
本稿では、エンド・ツー・エンドの機械学習ライフサイクルに特化したバージョン管理システムであるVeMLを紹介する。特に大規模かつ高次元のデータセットにおいて、MLライフサイクルを構築するための高コストに対処する。大規模・高次元データの類似性を効率的に計算するために,コアセットに基づくアルゴリズムを設計する。
論文参考訳（メタデータ） (2023-04-25T07:32:16Z)
Privacy Adhering Machine Un-learning in NLP [66.17039929803933]
現実の業界では、機械学習を使ってユーザデータに基づくモデルを構築します。このような委任事項には、データだけでなく、モデルの再トレーニングにも労力が要る。データの継続的な削除とモデル再訓練のステップはスケールしませんこの課題に対処するために、textitMachine Unlearningを提案する。
論文参考訳（メタデータ） (2022-12-19T16:06:45Z)
Data Debugging with Shapley Importance over End-to-End Machine Learning Pipelines [27.461398584509755]
DataScopeは、エンドツーエンドの機械学習パイプライン上でトレーニング例のShapley値を効率的に計算する最初のシステムである。以上の結果から,DataScopeは最先端のモンテカルロ法よりも最大4桁高速であることがわかった。
論文参考訳（メタデータ） (2022-04-23T19:29:23Z)
Machine Learning Model Drift Detection Via Weak Data Slices [5.319802998033767]
本研究では,データスライスと呼ばれる特徴空間規則を用いてドリフト検出を行う手法を提案する。提案手法は,基礎となるデータの変化に基づいて,MLモデルが性能を変化させる可能性が示唆される。
論文参考訳（メタデータ） (2021-08-11T16:55:34Z)
Auto-Validate: Unsupervised Data Validation Using Data-Domain Patterns Inferred from Data Lakes [16.392844962056742]
我々は,適切なデータバリデーションパターンを推定し,自動検証するコーパス駆動型手法を開発した。この技術の一部は、Microsoft Azure PurviewのAuto-Tag機能として提供される。
論文参考訳（メタデータ） (2021-04-10T01:15:48Z)
PClean: Bayesian Data Cleaning at Scale with Domain-Specific Probabilistic Programming [65.88506015656951]
我々は、データセット固有の知識を活用して汚いデータのクリーン化と正規化を行う確率的プログラミング言語であるPCleanを提案する。 PCleanは、(1)確率的プログラムでカスタマイズ可能なリレーショナルデータベースインスタンスの非パラメトリックモデル、(2)モデルの構造を利用するシーケンシャルなモンテカルロ推論アルゴリズム、(3)ほぼ最適のSMC提案とブロックされたギブス再構成の3つのモデルと推論コントリビューションを利用している。
論文参考訳（メタデータ） (2020-07-23T08:01:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。