論文の概要: Towards Personalized Preprocessing Pipeline Search
- arxiv url: http://arxiv.org/abs/2302.14329v1
- Date: Tue, 28 Feb 2023 05:45:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-01 17:56:10.781437
- Title: Towards Personalized Preprocessing Pipeline Search
- Title(参考訳): パーソナライズされた前処理パイプライン探索に向けて
- Authors: Diego Martinez, Daochen Zha, Qiaoyu Tan, Xia Hu
- Abstract要約: ClusterP3Sは、Clusteringを介してパイプライン検索をパーソナライズする新しいフレームワークである。
本稿では,クラスタを協調的に学習し,最適なパイプラインを探索するための階層的探索手法を提案する。
ベンチマーク分類データセットの実験では、機能的に前処理可能なパイプライン探索の有効性が示されている。
- 参考スコア(独自算出の注目度): 52.59156206880384
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Feature preprocessing, which transforms raw input features into numerical
representations, is a crucial step in automated machine learning (AutoML)
systems. However, the existing systems often have a very small search space for
feature preprocessing with the same preprocessing pipeline applied to all the
numerical features. This may result in sub-optimal performance since different
datasets often have various feature characteristics, and features within a
dataset may also have their own preprocessing preferences. To bridge this gap,
we explore personalized preprocessing pipeline search, where the search
algorithm is allowed to adopt a different preprocessing pipeline for each
feature. This is a challenging task because the search space grows
exponentially with more features. To tackle this challenge, we propose
ClusterP3S, a novel framework for Personalized Preprocessing Pipeline Search
via Clustering. The key idea is to learn feature clusters such that the search
space can be significantly reduced by using the same preprocessing pipeline for
the features within a cluster. To this end, we propose a hierarchical search
strategy to jointly learn the clusters and search for the optimal pipelines,
where the upper-level search optimizes the feature clustering to enable better
pipelines built upon the clusters, and the lower-level search optimizes the
pipeline given a specific cluster assignment. We instantiate this idea with a
deep clustering network that is trained with reinforcement learning at the
upper level, and random search at the lower level. Experiments on benchmark
classification datasets demonstrate the effectiveness of enabling feature-wise
preprocessing pipeline search.
- Abstract(参考訳): 生の入力機能を数値表現に変換する特徴前処理は、自動機械学習(AutoML)システムにおいて重要なステップである。
しかし、既存のシステムは、全ての数値的特徴に適用されるのと同じ前処理パイプラインを持つ機能前処理のための非常に小さな検索スペースを持つことが多い。
異なるデータセットには様々な特徴があり、データセット内の機能には独自のプリプロセッシングの好みがあるため、これは最適以下のパフォーマンスをもたらす可能性がある。
このギャップを埋めるため、検索アルゴリズムでは、各機能に対して異なる前処理パイプラインを適用できるパーソナライズされた前処理パイプライン検索を探求する。
検索スペースは、より多くの機能で指数関数的に成長するので、これは難しい課題です。
この課題に対処するため、ClusteringによるPersonalized Preprocessing Pipeline Searchのための新しいフレームワークであるClusterP3Sを提案する。
主要なアイデアは、クラスタ内の機能に対して、同じ前処理パイプラインを使用することで、検索スペースを大幅に削減できる機能クラスタを学習することだ。
この目的のために、クラスタを共同で学習し、最適なパイプラインを探索する階層的な探索戦略を提案する。そこで、上位レベルの探索は、クラスタ上に構築されたより良いパイプラインを実現するために機能クラスタを最適化し、下位レベルの探索は、特定のクラスタ割り当てを与えられたパイプラインを最適化する。
私たちはこのアイデアを,上位レベルの強化学習と下位レベルのランダム検索でトレーニングされた深層クラスタリングネットワークでインスタンス化する。
ベンチマーク分類データセットの実験は、特徴的前処理パイプライン探索を可能にする効果を実証する。
関連論文リスト
- Automating Data Science Pipelines with Tensor Completion [4.956678070210018]
我々はテンソル補完の例としてデータサイエンスパイプラインをモデル化する。
目標は、可変値のすべての組み合わせに対応するテンソルの欠落する全てのエントリを特定することである。
既存の手法と提案手法を多種多様なデータセットで広く評価する。
論文 参考訳(メタデータ) (2024-10-08T22:34:08Z) - A Refreshed Similarity-based Upsampler for Direct High-Ratio Feature Upsampling [54.05517338122698]
本稿では,セマンティック・アウェアとディテール・アウェアの両方の観点から,明示的に制御可能なクエリキー機能アライメントを提案する。
また,モーザイクアーティファクトを緩和するのには単純だが有効であるHR特徴量に対して,きめ細かな近傍選択戦略を開発した。
提案するReSFUフレームワークは,異なるセグメンテーションアプリケーション上での良好な性能を一貫して達成する。
論文 参考訳(メタデータ) (2024-07-02T14:12:21Z) - Feature Selection as Deep Sequential Generative Learning [50.00973409680637]
本研究では, 逐次再構成, 変分, 性能評価器の損失を伴って, 深部変分変圧器モデルを構築した。
提案モデルでは,特徴選択の知識を抽出し,連続的な埋め込み空間を学習し,特徴選択決定シーケンスをユーティリティスコアに関連付けられた埋め込みベクトルにマッピングする。
論文 参考訳(メタデータ) (2024-03-06T16:31:56Z) - Deep Pipeline Embeddings for AutoML [11.168121941015015]
AutoMLは、最小限の人間の専門知識で機械学習システムを自動デプロイすることで、AIを民主化するための有望な方向である。
既存のパイプライン最適化テクニックでは、パイプラインステージ/コンポーネント間の深いインタラクションを探索できない。
本稿では,機械学習パイプラインのコンポーネント間のディープインタラクションをキャプチャするニューラルアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-05-23T12:40:38Z) - Pruning-as-Search: Efficient Neural Architecture Search via Channel
Pruning and Structural Reparameterization [50.50023451369742]
プルーニング・アズ・サーチ(Pruning-as-Search、PaS)は、必要なサブネットワークを自動的に効率的に検索するエンドツーエンドのプルーニング手法である。
提案したアーキテクチャは,ImageNet-1000分類タスクにおいて,1.0%$ Top-1精度で先行技術より優れていた。
論文 参考訳(メタデータ) (2022-06-02T17:58:54Z) - CFNet: Learning Correlation Functions for One-Stage Panoptic
Segmentation [46.252118473248316]
バックボーンの特徴を高めるために,まず,異なる場所のセマンティックレベルとインスタンスレベルの相関関係を推定することを提案する。
次に,改良された識別特徴をそれぞれ対応するセグメンテーションヘッドに供給する。
PQは45.1ドル%、ADE20kは32.6ドル%である。
論文 参考訳(メタデータ) (2022-01-13T05:31:14Z) - Incremental Search Space Construction for Machine Learning Pipeline
Synthesis [4.060731229044571]
automated machine learning(automl)は、マシンラーニング(ml)パイプラインの自動構築を目的とする。
パイプライン構築のためのメタ機能に基づくデータ中心アプローチを提案する。
確立されたAutoMLベンチマークで使用した28データセットに対して,アプローチの有効性と競争性を実証する。
論文 参考訳(メタデータ) (2021-01-26T17:17:49Z) - Deep Shells: Unsupervised Shape Correspondence with Optimal Transport [52.646396621449]
本稿では,3次元形状対応のための教師なし学習手法を提案する。
提案手法は,複数のデータセット上での最先端技術よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-10-28T22:24:07Z) - PyODDS: An End-to-end Outlier Detection System with Automated Machine
Learning [55.32009000204512]
PyODDSは、データベースサポート付きアウトレイラ検出のための、エンドツーエンドのPythonシステムである。
具体的には,探索空間を外乱検出パイプラインで定義し,与えられた探索空間内で探索戦略を作成する。
また、データサイエンスや機械学習のバックグラウンドの有無に関わらず、統一されたインターフェイスと視覚化を提供する。
論文 参考訳(メタデータ) (2020-03-12T03:30:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。