論文の概要: Data Cleaning and Machine Learning: A Systematic Literature Review
- arxiv url: http://arxiv.org/abs/2310.01765v1
- Date: Tue, 3 Oct 2023 03:13:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 17:57:01.675722
- Title: Data Cleaning and Machine Learning: A Systematic Literature Review
- Title(参考訳): データクリーニングと機械学習: 体系的な文献レビュー
- Authors: Pierre-Olivier C\^ot\'e, Amin Nikanjam, Nafisa Ahmed, Dmytro Humeniuk,
Foutse Khomh
- Abstract要約: 我々は,2016年から2022年の間に公刊された論文を包括的に体系的な文献レビューを行う。
我々は機械学習(ML)におけるさまざまな種類のデータクリーニング活動を特定する。
我々のレビューでは、さらなる拡張が可能な多くの有望なデータクリーニング技術に注目している。
- 参考スコア(独自算出の注目度): 12.454003091362283
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Context: Machine Learning (ML) is integrated into a growing number of systems
for various applications. Because the performance of an ML model is highly
dependent on the quality of the data it has been trained on, there is a growing
interest in approaches to detect and repair data errors (i.e., data cleaning).
Researchers are also exploring how ML can be used for data cleaning; hence
creating a dual relationship between ML and data cleaning. To the best of our
knowledge, there is no study that comprehensively reviews this relationship.
Objective: This paper's objectives are twofold. First, it aims to summarize the
latest approaches for data cleaning for ML and ML for data cleaning. Second, it
provides future work recommendations. Method: We conduct a systematic
literature review of the papers published between 2016 and 2022 inclusively. We
identify different types of data cleaning activities with and for ML: feature
cleaning, label cleaning, entity matching, outlier detection, imputation, and
holistic data cleaning. Results: We summarize the content of 101 papers
covering various data cleaning activities and provide 24 future work
recommendations. Our review highlights many promising data cleaning techniques
that can be further extended. Conclusion: We believe that our review of the
literature will help the community develop better approaches to clean data.
- Abstract(参考訳): コンテキスト: 機械学習(ML)は、さまざまなアプリケーション向けの多くのシステムに統合されます。
MLモデルの性能はトレーニングされたデータの品質に大きく依存しているため、データエラー(すなわちデータのクリーニング)を検出し、修復するアプローチへの関心が高まっている。
研究者はまた、MLをデータクリーニングに使用する方法についても検討している。
私たちの知る限りでは、この関係を包括的にレビューする研究はない。
目的:本論文の目的は2つある。
まず、データクリーニングのためのMLとMLの最新のアプローチを要約することを目的としている。
第2に、将来の作業推奨を提供する。
方法:2016年から2022年にかけての論文を包括的に体系的な文献レビューを行う。
MLでは,特徴クリーニング,ラベルクリーニング,エンティティマッチング,アウトリーチ検出,インプット,包括的データクリーニングなど,さまざまな種類のデータクリーニング活動を識別する。
結果: 各種データクリーニング活動に関する101論文の内容を要約し, 今後の作業推奨事項を24件提示した。
我々のレビューは、さらに拡張可能な多くの有望なデータクリーニング技術を強調している。
結論: 文献のレビューは,データのクリーン化のためのより良いアプローチをコミュニティが開発するのに役立つと信じています。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Clean Evaluations on Contaminated Visual Language Models [46.01250813909264]
視覚言語モデル(VLM)をきれいに評価する方法は、未研究の問題である。
本稿では,視覚的入力情報に対するデータ拡張手法により,そのような目標を達成するための新しい手法を提案する。
コード、データ、モデルの重み付けは、公開時にリリースされます。
論文 参考訳(メタデータ) (2024-10-09T16:13:19Z) - Multi-News+: Cost-efficient Dataset Cleansing via LLM-based Data Annotation [9.497148303350697]
本稿では,LCMに基づくデータアノテーションの適用を拡大し,既存のデータセットの品質を向上させるケーススタディを提案する。
具体的には、連鎖や多数決のようなアプローチを利用して、人間のアノテーションを模倣し、Multi-Newsデータセットから無関係な文書を分類する。
論文 参考訳(メタデータ) (2024-04-15T11:36:10Z) - An Integrated Data Processing Framework for Pretraining Foundation Models [57.47845148721817]
研究者や実践者は、しばしば異なるソースからデータセットを手動でキュレートする必要がある。
本稿では,処理モジュールと解析モジュールを統合したデータ処理フレームワークを提案する。
提案されたフレームワークは使いやすく、柔軟です。
論文 参考訳(メタデータ) (2024-02-26T07:22:51Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - CupCleaner: A Data Cleaning Approach for Comment Updating [20.834718062539896]
コメント更新は、ソースコードの変更に基づいて対応するコメントを自動的に更新することを目的とした、新しいソフトウェアエンジニアリングタスクである。
コメント更新データセットは通常、GitHubなどのオープンソースソフトウェアリポジトリのコミットバージョンからクロールされる。
我々は,この目的を達成するために,CupCleaner (Comment UPdating's CLEANER) という意味的かつ重なり合うアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-14T02:27:51Z) - REIN: A Comprehensive Benchmark Framework for Data Cleaning Methods in
ML Pipelines [0.0]
我々は,データクリーニング手法が各種機械学習モデルに与える影響を徹底的に調査するために,REIN1と呼ばれるベンチマークを導入する。
ベンチマークを通じて、MLパイプラインにおいて、データのクリーニングが必要なステップである場所や場所など、重要な研究課題に対する回答を提供する。
論文 参考訳(メタデータ) (2023-02-09T15:37:39Z) - Privacy Adhering Machine Un-learning in NLP [66.17039929803933]
現実の業界では、機械学習を使ってユーザデータに基づくモデルを構築します。
このような委任事項には、データだけでなく、モデルの再トレーニングにも労力が要る。
データの継続的な削除と モデル再訓練のステップはスケールしません
この課題に対処するために、textitMachine Unlearningを提案する。
論文 参考訳(メタデータ) (2022-12-19T16:06:45Z) - Zero-Shot Machine Unlearning [6.884272840652062]
現代のプライバシー規制は、市民に製品、サービス、企業によって忘れられる権利を与える。
トレーニングプロセスやトレーニングサンプルに関連するデータは、未学習の目的のためにアクセスできない。
本稿では, (a) 誤り最小化雑音と (b) ゲート付き知識伝達に基づくゼロショットマシンアンラーニングのための2つの新しい解を提案する。
論文 参考訳(メタデータ) (2022-01-14T19:16:09Z) - Scaling Systematic Literature Reviews with Machine Learning Pipelines [57.82662094602138]
体系的なレビューは、科学的文書からデータを抽出する。
これらの側面をそれぞれ自動化するパイプラインを構築し、多くの人間時間対システム品質トレードオフを実験します。
人間の専門的アノテーションの2週間だけで、パイプラインシステム全体の驚くほどの精度と一般性が得られることが分かりました。
論文 参考訳(メタデータ) (2020-10-09T16:19:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。