Fugu-MT 論文翻訳(概要): AutoCure: Automated Tabular Data Curation Technique for ML Pipelines

論文の概要: AutoCure: Automated Tabular Data Curation Technique for ML Pipelines

arxiv url: http://arxiv.org/abs/2304.13636v1
Date: Wed, 26 Apr 2023 15:51:47 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-27 13:42:57.890921
Title: AutoCure: Automated Tabular Data Curation Technique for ML Pipelines
Title（参考訳）: autocure:mlパイプラインのための自動化された表データキュレーション技術
Authors: Mohamed Abdelaal and Rashmi Koparde and Harald Schoening
Abstract要約: 本稿では,新鮮で構成のないデータキュレーションパイプラインであるAutoCureを紹介する。従来のデータキュレーション方法とは異なり、AutoCureはクリーンなデータ率の密度を合成的に強化する。実際にAutoCureは、オープンソースのツールと統合して、機械学習の民主化を促進することができる。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Machine learning algorithms have become increasingly prevalent in multiple domains, such as autonomous driving, healthcare, and finance. In such domains, data preparation remains a significant challenge in developing accurate models, requiring significant expertise and time investment to search the huge search space of well-suited data curation and transformation tools. To address this challenge, we present AutoCure, a novel and configuration-free data curation pipeline that improves the quality of tabular data. Unlike traditional data curation methods, AutoCure synthetically enhances the density of the clean data fraction through an adaptive ensemble-based error detection method and a data augmentation module. In practice, AutoCure can be integrated with open source tools, e.g., Auto-sklearn, H2O, and TPOT, to promote the democratization of machine learning. As a proof of concept, we provide a comparative evaluation of AutoCure against 28 combinations of traditional data curation tools, demonstrating superior performance and predictive accuracy without user intervention. Our evaluation shows that AutoCure is an effective approach to automating data preparation and improving the accuracy of machine learning models.
Abstract（参考訳）: 機械学習アルゴリズムは、自動運転、ヘルスケア、ファイナンスなど、複数のドメインでますます普及している。このような領域では、データ準備は正確なモデルを開発する上で重要な課題であり、よく適合したデータキュレーションと変換ツールの巨大な検索空間を探索するために、かなりの専門知識と時間的投資を必要とする。この課題に対処するために,表データの質を向上させる新鮮で構成自由なデータキュレーションパイプラインであるAutoCureを提案する。従来のデータキュレーション法とは異なり、AutoCureは適応アンサンブルベースのエラー検出方法とデータ拡張モジュールによってクリーンなデータ分画の密度を合成的に向上させる。実際にAutoCureは、Auto-sklearn、H2O、TPOTといったオープンソースツールと統合して、機械学習の民主化を促進することができる。概念実証として、従来のデータキュレーションツールの28種類の組み合わせに対してAutoCureの比較評価を行い、ユーザの介入なしに優れた性能と予測精度を示す。評価の結果,AutoCureはデータ準備の自動化と機械学習モデルの精度向上に有効な手法であることがわかった。

関連論文リスト

SSA3D: Text-Conditioned Assisted Self-Supervised Framework for Automatic Dental Abutment Design [52.57094737117145]
本稿では、再構成ブランチと回帰ブランチを備えたデュアルブランチアーキテクチャを用いた自己教師付き自動支台築造設計フレームワーク(SS$A3$D)を提案する。回帰分岐は、教師付き学習下での分配パラメータを予測し、個別の事前学習と微調整のプロセスを排除します。また、他の手法と比較して最先端性能を実現し、自動当接設計の精度と効率を大幅に向上させる。
論文参考訳（メタデータ） (2025-12-12T12:08:05Z)
Efficient Machine Unlearning via Influence Approximation [75.31015485113993]
インフルエンサーベースのアンラーニングは、個別のトレーニングサンプルがモデルパラメータに与える影響を再トレーニングせずに推定する顕著なアプローチとして現れてきた。本稿では,暗記(増分学習)と忘れ(未学習)の理論的関連性を確立する。本稿では、インフルエンス近似アンラーニングアルゴリズムを導入し、インクリメンタルな視点から効率的なマシンアンラーニングを行う。
論文参考訳（メタデータ） (2025-07-31T05:34:27Z)
An Automated Data Mining Framework Using Autoencoders for Feature Extraction and Dimensionality Reduction [10.358417199718462]
本研究では,自動エンコーダに基づく自動データマイニングフレームワークを提案する。符号化復号構造により、オートエンコーダはデータの電位特性を捕捉し、ノイズの低減と異常検出を実現する。将来的には,ディープラーニングとビッグデータ技術の進歩に伴い,複雑なデータ処理やリアルタイムデータ解析,知的意思決定といった分野において,GAN(Generative Adversarial Network)やグラフニューラルネットワーク(Graph Neural Network,GNN)と組み合わせたオートエンコーダ方式が広く使われることが期待される。
論文参考訳（メタデータ） (2024-12-03T07:04:10Z)
Hardware Aware Ensemble Selection for Balancing Predictive Accuracy and Cost [0.6486052012623046]
ハードウェア対応のアンサンブル選択手法を導入し,推論時間をポストホックアンサンブルに統合する。提案手法は,既存のアンサンブル選択フレームワークと品質多様性最適化を利用して,その予測精度とハードウェア効率について,アンサンブル候補の評価を行う。 83の分類データセットを用いて評価したところ,本手法は競争精度を保ち,アンサンブルの操作効率を大幅に向上させることができることがわかった。
論文参考訳（メタデータ） (2024-08-05T07:30:18Z)
Incremental Self-training for Semi-supervised Learning [56.57057576885672]
ISTは単純だが有効であり、既存の自己学習に基づく半教師あり学習手法に適合する。提案したISTを5つのデータセットと2種類のバックボーンで検証し,認識精度と学習速度を効果的に向上させる。
論文参考訳（メタデータ） (2024-04-14T05:02:00Z)
AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving [68.73885845181242]
本稿では,問題を自動的に識別し,データを効率よくキュレートし,自動ラベル付けによりモデルを改善する自動データエンジン(AIDE)を提案する。さらに,AVデータセットのオープンワールド検出のためのベンチマークを構築し,様々な学習パラダイムを包括的に評価し,提案手法の優れた性能を低コストで実証する。
論文参考訳（メタデータ） (2024-03-26T04:27:56Z)
Automated data processing and feature engineering for deep learning and big data applications: a survey [0.0]
現代の人工知能(AI)のアプローチは、データから直接学習するアルゴリズムを設計することを目的としている。従来のディープラーニングパイプラインのすべてのデータ処理タスクが自動化されたわけではない。
論文参考訳（メタデータ） (2024-03-18T01:07:48Z)
Advancing Reacting Flow Simulations with Data-Driven Models [50.9598607067535]
マルチ物理問題における機械学習ツールの効果的な利用の鍵は、それらを物理モデルとコンピュータモデルに結合することである。本章では, 燃焼システムにおけるデータ駆動型低次モデリングの適用可能性について概説する。
論文参考訳（メタデータ） (2022-09-05T16:48:34Z)
AutoDC: Automated data-centric processing [0.2936007114555107]
データセット改善プロセスの高速化を目的として,自動データ中心ツール(AutoDC)を開発した。 AutoDCは、データ改善タスクの約80%のマニュアル時間を削減すると同時に、固定されたMLコードでモデルの精度を10～15%向上させると見積もられている。
論文参考訳（メタデータ） (2021-11-23T00:48:49Z)
Self-service Data Classification Using Interactive Visualization and Interpretable Machine Learning [9.13755431537592]
Iterative Visual Logical (IVLC) は、解釈可能な機械学習アルゴリズムである。 IVLCは、医療領域における癌データのような機密で重要なデータを扱う際に特に有用である。この章では、新しいコーディネートオーダー(COO)アルゴリズムと遺伝的アルゴリズムを組み合わせた自動分類手法を提案する。
論文参考訳（メタデータ） (2021-07-11T05:39:14Z)
Automated Machine Learning Techniques for Data Streams [91.3755431537592]
本稿では、最先端のオープンソースAutoMLツールを調査し、ストリームから収集したデータに適用し、時間とともにパフォーマンスがどのように変化するかを測定する。この結果から,既製のAutoMLツールで十分な結果が得られることが示されたが,概念ドリフトや検出,適応といった手法が適用されれば,予測精度を時間とともに維持することが可能になる。
論文参考訳（メタデータ） (2021-06-14T11:42:46Z)
Fast, Accurate, and Simple Models for Tabular Data via Augmented Distillation [97.42894942391575]
本研究では、FAST-DADを用いて、任意の複雑なアンサンブル予測を、高木、無作為林、深層ネットワークなどの個々のモデルに抽出する。我々の個々の蒸留モデルは、H2O/AutoSklearnのようなAutoMLツールが生成するアンサンブル予測よりも10倍高速で精度が高い。
論文参考訳（メタデータ） (2020-06-25T09:57:47Z)
Self-Training with Improved Regularization for Sample-Efficient Chest X-Ray Classification [80.00316465793702]
挑戦的なシナリオで堅牢なモデリングを可能にするディープラーニングフレームワークを提案する。その結果,85%のラベル付きデータを用いて,大規模データ設定で学習した分類器の性能に適合する予測モデルを構築することができた。
論文参考訳（メタデータ） (2020-05-03T02:36:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。