論文の概要: AutoCure: Automated Tabular Data Curation Technique for ML Pipelines
- arxiv url: http://arxiv.org/abs/2304.13636v1
- Date: Wed, 26 Apr 2023 15:51:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-27 13:42:57.890921
- Title: AutoCure: Automated Tabular Data Curation Technique for ML Pipelines
- Title(参考訳): autocure:mlパイプラインのための自動化された表データキュレーション技術
- Authors: Mohamed Abdelaal and Rashmi Koparde and Harald Schoening
- Abstract要約: 本稿では,新鮮で構成のないデータキュレーションパイプラインであるAutoCureを紹介する。
従来のデータキュレーション方法とは異なり、AutoCureはクリーンなデータ率の密度を合成的に強化する。
実際にAutoCureは、オープンソースのツールと統合して、機械学習の民主化を促進することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning algorithms have become increasingly prevalent in multiple
domains, such as autonomous driving, healthcare, and finance. In such domains,
data preparation remains a significant challenge in developing accurate models,
requiring significant expertise and time investment to search the huge search
space of well-suited data curation and transformation tools. To address this
challenge, we present AutoCure, a novel and configuration-free data curation
pipeline that improves the quality of tabular data. Unlike traditional data
curation methods, AutoCure synthetically enhances the density of the clean data
fraction through an adaptive ensemble-based error detection method and a data
augmentation module. In practice, AutoCure can be integrated with open source
tools, e.g., Auto-sklearn, H2O, and TPOT, to promote the democratization of
machine learning. As a proof of concept, we provide a comparative evaluation of
AutoCure against 28 combinations of traditional data curation tools,
demonstrating superior performance and predictive accuracy without user
intervention. Our evaluation shows that AutoCure is an effective approach to
automating data preparation and improving the accuracy of machine learning
models.
- Abstract(参考訳): 機械学習アルゴリズムは、自動運転、ヘルスケア、ファイナンスなど、複数のドメインでますます普及している。
このような領域では、データ準備は正確なモデルを開発する上で重要な課題であり、よく適合したデータキュレーションと変換ツールの巨大な検索空間を探索するために、かなりの専門知識と時間的投資を必要とする。
この課題に対処するために,表データの質を向上させる新鮮で構成自由なデータキュレーションパイプラインであるAutoCureを提案する。
従来のデータキュレーション法とは異なり、AutoCureは適応アンサンブルベースのエラー検出方法とデータ拡張モジュールによってクリーンなデータ分画の密度を合成的に向上させる。
実際にAutoCureは、Auto-sklearn、H2O、TPOTといったオープンソースツールと統合して、機械学習の民主化を促進することができる。
概念実証として、従来のデータキュレーションツールの28種類の組み合わせに対してAutoCureの比較評価を行い、ユーザの介入なしに優れた性能と予測精度を示す。
評価の結果,AutoCureはデータ準備の自動化と機械学習モデルの精度向上に有効な手法であることがわかった。
関連論文リスト
- Hardware Aware Ensemble Selection for Balancing Predictive Accuracy and Cost [0.6486052012623046]
ハードウェア対応のアンサンブル選択手法を導入し,推論時間をポストホックアンサンブルに統合する。
提案手法は,既存のアンサンブル選択フレームワークと品質多様性最適化を利用して,その予測精度とハードウェア効率について,アンサンブル候補の評価を行う。
83の分類データセットを用いて評価したところ,本手法は競争精度を保ち,アンサンブルの操作効率を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2024-08-05T07:30:18Z) - Incremental Self-training for Semi-supervised Learning [56.57057576885672]
ISTは単純だが有効であり、既存の自己学習に基づく半教師あり学習手法に適合する。
提案したISTを5つのデータセットと2種類のバックボーンで検証し,認識精度と学習速度を効果的に向上させる。
論文 参考訳(メタデータ) (2024-04-14T05:02:00Z) - AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving [68.73885845181242]
本稿では,問題を自動的に識別し,データを効率よくキュレートし,自動ラベル付けによりモデルを改善する自動データエンジン(AIDE)を提案する。
さらに,AVデータセットのオープンワールド検出のためのベンチマークを構築し,様々な学習パラダイムを包括的に評価し,提案手法の優れた性能を低コストで実証する。
論文 参考訳(メタデータ) (2024-03-26T04:27:56Z) - Automated data processing and feature engineering for deep learning and big data applications: a survey [0.0]
現代の人工知能(AI)のアプローチは、データから直接学習するアルゴリズムを設計することを目的としている。
従来のディープラーニングパイプラインのすべてのデータ処理タスクが自動化されたわけではない。
論文 参考訳(メタデータ) (2024-03-18T01:07:48Z) - Advancing Reacting Flow Simulations with Data-Driven Models [50.9598607067535]
マルチ物理問題における機械学習ツールの効果的な利用の鍵は、それらを物理モデルとコンピュータモデルに結合することである。
本章では, 燃焼システムにおけるデータ駆動型低次モデリングの適用可能性について概説する。
論文 参考訳(メタデータ) (2022-09-05T16:48:34Z) - AutoDC: Automated data-centric processing [0.2936007114555107]
データセット改善プロセスの高速化を目的として,自動データ中心ツール(AutoDC)を開発した。
AutoDCは、データ改善タスクの約80%のマニュアル時間を削減すると同時に、固定されたMLコードでモデルの精度を10~15%向上させると見積もられている。
論文 参考訳(メタデータ) (2021-11-23T00:48:49Z) - Self-service Data Classification Using Interactive Visualization and
Interpretable Machine Learning [9.13755431537592]
Iterative Visual Logical (IVLC) は、解釈可能な機械学習アルゴリズムである。
IVLCは、医療領域における癌データのような機密で重要なデータを扱う際に特に有用である。
この章では、新しいコーディネートオーダー(COO)アルゴリズムと遺伝的アルゴリズムを組み合わせた自動分類手法を提案する。
論文 参考訳(メタデータ) (2021-07-11T05:39:14Z) - Automated Machine Learning Techniques for Data Streams [91.3755431537592]
本稿では、最先端のオープンソースAutoMLツールを調査し、ストリームから収集したデータに適用し、時間とともにパフォーマンスがどのように変化するかを測定する。
この結果から,既製のAutoMLツールで十分な結果が得られることが示されたが,概念ドリフトや検出,適応といった手法が適用されれば,予測精度を時間とともに維持することが可能になる。
論文 参考訳(メタデータ) (2021-06-14T11:42:46Z) - Fast, Accurate, and Simple Models for Tabular Data via Augmented
Distillation [97.42894942391575]
本研究では、FAST-DADを用いて、任意の複雑なアンサンブル予測を、高木、無作為林、深層ネットワークなどの個々のモデルに抽出する。
我々の個々の蒸留モデルは、H2O/AutoSklearnのようなAutoMLツールが生成するアンサンブル予測よりも10倍高速で精度が高い。
論文 参考訳(メタデータ) (2020-06-25T09:57:47Z) - Self-Training with Improved Regularization for Sample-Efficient Chest
X-Ray Classification [80.00316465793702]
挑戦的なシナリオで堅牢なモデリングを可能にするディープラーニングフレームワークを提案する。
その結果,85%のラベル付きデータを用いて,大規模データ設定で学習した分類器の性能に適合する予測モデルを構築することができた。
論文 参考訳(メタデータ) (2020-05-03T02:36:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。