論文の概要: DiffPrep: Differentiable Data Preprocessing Pipeline Search for Learning
over Tabular Data
- arxiv url: http://arxiv.org/abs/2308.10915v1
- Date: Sun, 20 Aug 2023 23:40:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 14:24:33.445313
- Title: DiffPrep: Differentiable Data Preprocessing Pipeline Search for Learning
over Tabular Data
- Title(参考訳): DiffPrep: タブラルデータによる学習のためのデータ前処理パイプライン探索
- Authors: Peng Li, Zhiyi Chen, Xu Chu, Kexin Rong
- Abstract要約: 与えられたデータセットに対するデータ前処理パイプラインを自動かつ効率的に検索するDiffPrepを提案する。
実験の結果,DiffPrepは実世界の18のデータセットのうち15の精度で最高のテスト精度を達成できた。
- 参考スコア(独自算出の注目度): 12.416345241511781
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data preprocessing is a crucial step in the machine learning process that
transforms raw data into a more usable format for downstream ML models.
However, it can be costly and time-consuming, often requiring the expertise of
domain experts. Existing automated machine learning (AutoML) frameworks claim
to automate data preprocessing. However, they often use a restricted search
space of data preprocessing pipelines which limits the potential performance
gains, and they are often too slow as they require training the ML model
multiple times. In this paper, we propose DiffPrep, a method that can
automatically and efficiently search for a data preprocessing pipeline for a
given tabular dataset and a differentiable ML model such that the performance
of the ML model is maximized. We formalize the problem of data preprocessing
pipeline search as a bi-level optimization problem. To solve this problem
efficiently, we transform and relax the discrete, non-differential search space
into a continuous and differentiable one, which allows us to perform the
pipeline search using gradient descent with training the ML model only once.
Our experiments show that DiffPrep achieves the best test accuracy on 15 out of
the 18 real-world datasets evaluated and improves the model's test accuracy by
up to 6.6 percentage points.
- Abstract(参考訳): データ前処理は、生データを下流MLモデルのより有用なフォーマットに変換する機械学習プロセスにおける重要なステップである。
しかし、コストと時間がかかり、しばしばドメインエキスパートの専門知識を必要とします。
既存の機械学習(AutoML)フレームワークは、データ前処理を自動化する。
しかしながら、パフォーマンス向上の可能性を制限するデータプリプロセッシングパイプラインの制限された検索スペースを使用することが多く、mlモデルを複数回トレーニングする必要があるため、遅すぎることが多い。
本稿では,与えられた表型データセットのデータプリプロセッシングパイプラインと,mlモデルの性能を最大化する微分可能なmlモデルを自動的にかつ効率的に探索する手法であるdiffprepを提案する。
我々は、二段階最適化問題として、データ前処理パイプライン探索の問題を定式化する。
この問題を効率的に解決するために、離散的な非微分探索空間を連続的かつ微分可能な空間に変換して緩和し、MLモデルのみをトレーニングすることで勾配勾配を用いたパイプライン探索を行う。
実験の結果、diffprepは18個の実世界のデータセットのうち15個で最高のテスト精度を達成し、モデルのテスト精度を最大6.6ポイント向上させた。
関連論文リスト
- MUSO: Achieving Exact Machine Unlearning in Over-Parameterized Regimes [19.664090734076712]
マシン・アンラーニング(MU)は、訓練されたモデルを特定のデータでトレーニングされたことがないかのように振る舞う。
本研究では,学習と学習のタスクを統一する交互最適化アルゴリズムを提案する。
このアルゴリズムの有効性は、数値実験によって確認され、様々なシナリオにおける未学習における優れた性能を強調している。
論文 参考訳(メタデータ) (2024-10-11T06:17:17Z) - Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。
本手法は,モデルトレーニングデータや重みを使用せずに,ブラックボックス条件下で動作することができる。
我々は,4つのベンチマークデータセットを用いて,31個の主要なオープンソースLCMのデータ漏洩の程度を評価する。
論文 参考訳(メタデータ) (2024-09-03T11:09:44Z) - Accelerated Cloud for Artificial Intelligence (ACAI) [24.40451195277244]
我々は、エンドツーエンドのクラウドベースの機械学習プラットフォームであるAccelerated Cloud for AI (ACAI)を提案する。
ACAIは、インデックス付き、ラベル付き、検索可能なデータのクラウドストレージと、自動リソースプロビジョニング、ジョブスケジューリング、実験追跡を可能にする。
自動プロビジョン装置は1.7倍のスピードアップと39%のコスト削減を実現し,典型的なMLのユースケースにおいて,ML科学者の実験時間を20%短縮することを示した。
論文 参考訳(メタデータ) (2024-01-30T07:09:48Z) - Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models [115.501751261878]
人為的なデータに基づく微調整言語モデル(LM)が普及している。
我々は、スカラーフィードバックにアクセス可能なタスクにおいて、人間のデータを超えることができるかどうか検討する。
ReST$EM$はモデルサイズに好適にスケールし、人間のデータのみによる微調整を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-11T18:17:43Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - AutoSlicer: Scalable Automated Data Slicing for ML Model Analysis [3.3446830960153555]
本稿では,分散メトリクス計算と仮説テストにより問題スライスを探索するスケーラブルなシステムであるAutoslicerを提案する。
実験では,探索空間のごく一部を検査することで,異常なスライスの大部分を探索戦略が発見できることを示した。
論文 参考訳(メタデータ) (2022-12-18T07:49:17Z) - Data Debugging with Shapley Importance over End-to-End Machine Learning
Pipelines [27.461398584509755]
DataScopeは、エンドツーエンドの機械学習パイプライン上でトレーニング例のShapley値を効率的に計算する最初のシステムである。
以上の結果から,DataScopeは最先端のモンテカルロ法よりも最大4桁高速であることがわかった。
論文 参考訳(メタデータ) (2022-04-23T19:29:23Z) - Complementary Ensemble Learning [1.90365714903665]
我々は最先端のディープラーニングモデルの性能向上手法を考案した。
具体的には、最先端モデルの不確実性を補完できる補助モデルを訓練する。
論文 参考訳(メタデータ) (2021-11-09T03:23:05Z) - AutoSimulate: (Quickly) Learning Synthetic Data Generation [70.82315853981838]
目的の新たな微分可能近似に基づく最適な合成データ生成法を提案する。
提案手法は,学習データ生成の高速化(最大50Times$)と,実世界のテストデータセットの精度向上(+8.7%$)を実現している。
論文 参考訳(メタデータ) (2020-08-16T11:36:11Z) - Multi-layer Optimizations for End-to-End Data Analytics [71.05611866288196]
代替アプローチを実現するフレームワークであるIFAQ(Iterative Functional Aggregate Queries)を紹介する。
IFAQは、特徴抽出クエリと学習タスクを、IFAQのドメイン固有言語で与えられた1つのプログラムとして扱う。
IFAQ の Scala 実装が mlpack,Scikit,特殊化を数桁で上回り,線形回帰木モデルや回帰木モデルを複数の関係データセット上で処理可能であることを示す。
論文 参考訳(メタデータ) (2020-01-10T16:14:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。