論文の概要: Automated data processing and feature engineering for deep learning and big data applications: a survey
- arxiv url: http://arxiv.org/abs/2403.11395v2
- Date: Tue, 19 Mar 2024 09:36:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 12:44:53.216411
- Title: Automated data processing and feature engineering for deep learning and big data applications: a survey
- Title(参考訳): ディープラーニングとビッグデータアプリケーションのための自動データ処理と機能エンジニアリング:サーベイ
- Authors: Alhassan Mumuni, Fuseini Mumuni,
- Abstract要約: 現代の人工知能(AI)のアプローチは、データから直接学習するアルゴリズムを設計することを目的としている。
従来のディープラーニングパイプラインのすべてのデータ処理タスクが自動化されたわけではない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern approach to artificial intelligence (AI) aims to design algorithms that learn directly from data. This approach has achieved impressive results and has contributed significantly to the progress of AI, particularly in the sphere of supervised deep learning. It has also simplified the design of machine learning systems as the learning process is highly automated. However, not all data processing tasks in conventional deep learning pipelines have been automated. In most cases data has to be manually collected, preprocessed and further extended through data augmentation before they can be effective for training. Recently, special techniques for automating these tasks have emerged. The automation of data processing tasks is driven by the need to utilize large volumes of complex, heterogeneous data for machine learning and big data applications. Today, end-to-end automated data processing systems based on automated machine learning (AutoML) techniques are capable of taking raw data and transforming them into useful features for Big Data tasks by automating all intermediate processing stages. In this work, we present a thorough review of approaches for automating data processing tasks in deep learning pipelines, including automated data preprocessing--e.g., data cleaning, labeling, missing data imputation, and categorical data encoding--as well as data augmentation (including synthetic data generation using generative AI methods) and feature engineering--specifically, automated feature extraction, feature construction and feature selection. In addition to automating specific data processing tasks, we discuss the use of AutoML methods and tools to simultaneously optimize all stages of the machine learning pipeline.
- Abstract(参考訳): 現代の人工知能(AI)のアプローチは、データから直接学習するアルゴリズムを設計することを目的としている。
このアプローチは印象的な成果を上げており、特に教師付きディープラーニングの分野において、AIの進歩に大きく貢献している。
また、学習プロセスが高度に自動化されているため、機械学習システムの設計を単純化した。
しかし、従来のディープラーニングパイプラインにおけるすべてのデータ処理タスクが自動化されたわけではない。
ほとんどの場合、トレーニングに有効になる前に、データを手作業で収集し、前処理し、データ拡張を通じてさらに拡張する必要があります。
近年,これらのタスクを自動化するための特別な技術が出現している。
データ処理タスクの自動化は、大量の複雑で異質なデータを機械学習やビッグデータアプリケーションに利用する必要性によって進められている。
今日、機械学習(AutoML)技術に基づくエンドツーエンドの自動データ処理システムは、すべての中間処理ステージを自動化して、生データを取り込み、それらをビッグデータタスクに有用な機能に変換することができる。
本研究では、ディープラーニングパイプラインにおけるデータ処理タスクを自動化するためのアプローチについて、例えば、データクリーニング、ラベリング、ラベリング、欠落データインプット、カテゴリデータエンコーディング、データ拡張(生成AI法による合成データ生成を含む)、機能工学に特化した機能抽出、機能構築、特徴選択など、徹底的なレビューを行う。
特定のデータ処理タスクの自動化に加えて、機械学習パイプラインのすべてのステージを同時に最適化するためにAutoMLメソッドとツールの使用について議論する。
関連論文リスト
- Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows? [73.81908518992161]
我々は、プロのデータサイエンスとエンジニアリングに焦点を当てた最初のマルチモーダルエージェントベンチマークであるSpider2-Vを紹介する。
Spider2-Vは、本物のコンピュータ環境における現実世界のタスクを特徴とし、20のエンタープライズレベルのプロフェッショナルアプリケーションを組み込んでいる。
これらのタスクは、エンタープライズデータソフトウェアシステムにおいて、コードを書き、GUIを管理することで、マルチモーダルエージェントがデータ関連のタスクを実行する能力を評価する。
論文 参考訳(メタデータ) (2024-07-15T17:54:37Z) - Data augmentation with automated machine learning: approaches and
performance comparison with classical data augmentation methods [0.0]
最先端のアプローチは一般的に、自動機械学習(AutoML)の原則に依存します。
本稿では,AutoMLに基づくデータ拡張技術に関する総合的な調査を紹介する。
論文 参考訳(メタデータ) (2024-03-13T09:00:38Z) - Data Pipeline Training: Integrating AutoML to Optimize the Data Flow of
Machine Learning Models [17.091169031023714]
Data Pipelineは、マシンラーニングのモデリングやデータ製品の開発といったタスクにおいて、必須の役割を果たす。
本稿では,機械学習の自動化によるデータフローの最適化について検討する。
私たちは、AutoML技術を活用してData Pipelineのインテリジェンスを強化する方法について論じる。
論文 参考訳(メタデータ) (2024-02-20T11:06:42Z) - AutoML-GPT: Automatic Machine Learning with GPT [74.30699827690596]
本稿では,タスク指向のプロンプトを開発し,大規模言語モデル(LLM)を自動的に活用して学習パイプラインを自動化することを提案する。
本稿では,多様なAIモデルのブリッジとしてGPTを用いたAutoML-GPTを提案する。
このアプローチはコンピュータビジョン、自然言語処理、その他の課題領域において顕著な結果をもたらす。
論文 参考訳(メタデータ) (2023-05-04T02:09:43Z) - AutoCure: Automated Tabular Data Curation Technique for ML Pipelines [0.0]
本稿では,新鮮で構成のないデータキュレーションパイプラインであるAutoCureを紹介する。
従来のデータキュレーション方法とは異なり、AutoCureはクリーンなデータ率の密度を合成的に強化する。
実際にAutoCureは、オープンソースのツールと統合して、機械学習の民主化を促進することができる。
論文 参考訳(メタデータ) (2023-04-26T15:51:47Z) - OmniForce: On Human-Centered, Large Model Empowered and Cloud-Edge
Collaborative AutoML System [85.8338446357469]
我々は人間中心のAutoMLシステムであるOmniForceを紹介した。
我々は、OmniForceがAutoMLシステムを実践し、オープン環境シナリオにおける適応型AIを構築する方法について説明する。
論文 参考訳(メタデータ) (2023-03-01T13:35:22Z) - Where Is My Training Bottleneck? Hidden Trade-Offs in Deep Learning
Preprocessing Pipelines [77.45213180689952]
ディープラーニングにおける前処理パイプラインは、トレーニングプロセスを忙しくするための十分なデータスループットの提供を目的としている。
エンドツーエンドのディープラーニングパイプラインのためのデータセットを効率的に準備する新たな視点を導入する。
チューニングされていないシステムに比べてスループットが3倍から13倍に向上する。
論文 参考訳(メタデータ) (2022-02-17T14:31:58Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - Automated Machine Learning Techniques for Data Streams [91.3755431537592]
本稿では、最先端のオープンソースAutoMLツールを調査し、ストリームから収集したデータに適用し、時間とともにパフォーマンスがどのように変化するかを測定する。
この結果から,既製のAutoMLツールで十分な結果が得られることが示されたが,概念ドリフトや検出,適応といった手法が適用されれば,予測精度を時間とともに維持することが可能になる。
論文 参考訳(メタデータ) (2021-06-14T11:42:46Z) - AutoDS: Towards Human-Centered Automation of Data Science [20.859067294445985]
本稿では,データサイエンスプロジェクトを支援する自動機械学習(AutoML)システムであるAutoDSを紹介する。
予想通り、autodsは生産性を向上させる。しかし驚くべきことに、autods groupが生成するモデルは品質が高く、エラーが少ないが、人間の信頼度スコアは低い。
論文 参考訳(メタデータ) (2021-01-13T08:35:14Z) - AutoML to Date and Beyond: Challenges and Opportunities [30.60364966752454]
AutoMLツールは、機械学習を非機械学習の専門家が利用できるようにすることを目的としている。
本稿では,AutoMLシステムのための新しい分類システムを提案する。
エンド・ツー・エンドの機械学習パイプラインのさらなる自動化に必要な研究を指摘して、将来のロードマップを策定しました。
論文 参考訳(メタデータ) (2020-10-21T06:08:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。