論文の概要: Efficient AutoML Pipeline Search with Matrix and Tensor Factorization
- arxiv url: http://arxiv.org/abs/2006.04216v1
- Date: Sun, 7 Jun 2020 18:08:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 07:10:42.356170
- Title: Efficient AutoML Pipeline Search with Matrix and Tensor Factorization
- Title(参考訳): マトリックスとテンソルファクトリゼーションを用いた効率的なオートMLパイプライン探索
- Authors: Chengrun Yang, Jicong Fan, Ziyang Wu, Madeleine Udell
- Abstract要約: 新しいパイプラインコンポーネントでは、選択肢の数が爆発的に増えます!
本研究では,この課題に対処するために,教師付き学習パイプラインを設計する自動システムであるAutoMLシステムを設計する。
これらのモデルでは,新しいデータセットに関する情報を効率よく収集する,グリージーな実験設計プロトコルを開発した。
- 参考スコア(独自算出の注目度): 41.194759736425176
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data scientists seeking a good supervised learning model on a new dataset
have many choices to make: they must preprocess the data, select features,
possibly reduce the dimension, select an estimation algorithm, and choose
hyperparameters for each of these pipeline components. With new pipeline
components comes a combinatorial explosion in the number of choices! In this
work, we design a new AutoML system to address this challenge: an automated
system to design a supervised learning pipeline. Our system uses matrix and
tensor factorization as surrogate models to model the combinatorial pipeline
search space. Under these models, we develop greedy experiment design protocols
to efficiently gather information about a new dataset. Experiments on large
corpora of real-world classification problems demonstrate the effectiveness of
our approach.
- Abstract(参考訳): 新たなデータセットで優れた教師付き学習モデルを求めるデータサイエンティストには、データの事前処理、機能の選択、おそらくは次元の削減、推定アルゴリズムの選択、パイプラインコンポーネント毎のハイパーパラメータの選択など、多くの選択肢がある。
新しいパイプラインコンポーネントによって、選択肢の数の組合せが爆発する!
本研究では,この課題に対処するために,教師付き学習パイプラインを設計する自動システムであるAutoMLシステムを設計する。
本システムは,合成パイプライン探索空間をモデル化するための代理モデルとして行列とテンソル分解を用いる。
これらのモデルに基づき,新しいデータセットに関する情報を効率的に収集する,欲求実験設計プロトコルを開発した。
実世界の分類問題に対する大規模なコーパス実験により,本手法の有効性が示された。
関連論文リスト
- Automating Data Science Pipelines with Tensor Completion [4.956678070210018]
我々はテンソル補完の例としてデータサイエンスパイプラインをモデル化する。
目標は、可変値のすべての組み合わせに対応するテンソルの欠落する全てのエントリを特定することである。
既存の手法と提案手法を多種多様なデータセットで広く評価する。
論文 参考訳(メタデータ) (2024-10-08T22:34:08Z) - Towards Free Data Selection with General-Purpose Models [71.92151210413374]
望ましいデータ選択アルゴリズムは、限られたアノテーション予算の有用性を最大化するために、最も情報性の高いサンプルを効率的に選択することができる。
アクティブな学習手法で表現された現在のアプローチは、通常、時間を要するモデルのトレーニングとバッチデータ選択を繰り返し繰り返す、面倒なパイプラインに従う。
FreeSelは重いバッチ選択プロセスをバイパスし、効率を大幅に改善し、既存のアクティブラーニングメソッドよりも530倍高速である。
論文 参考訳(メタデータ) (2023-09-29T15:50:14Z) - Deep Pipeline Embeddings for AutoML [11.168121941015015]
AutoMLは、最小限の人間の専門知識で機械学習システムを自動デプロイすることで、AIを民主化するための有望な方向である。
既存のパイプライン最適化テクニックでは、パイプラインステージ/コンポーネント間の深いインタラクションを探索できない。
本稿では,機械学習パイプラインのコンポーネント間のディープインタラクションをキャプチャするニューラルアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-05-23T12:40:38Z) - SapientML: Synthesizing Machine Learning Pipelines by Learning from
Human-Written Solutions [28.718446733713183]
既存のデータセットとその人手によるパイプラインのコーパスから学習できるAutoML SapientMLを提案する。
我々は、170のデータセットにまたがる1094のパイプラインのトレーニングコーパスを作成し、41のベンチマークデータセットでSapientMLを評価した。
我々の評価によると、SapientMLは27のベンチマークでベストまたは同等の精度で、第2のツールでは9のインスタンスでパイプラインを生成できない。
論文 参考訳(メタデータ) (2022-02-18T20:45:47Z) - Automated Evolutionary Approach for the Design of Composite Machine
Learning Pipelines [48.7576911714538]
提案手法は、複合機械学習パイプラインの設計を自動化することを目的としている。
パイプラインをカスタマイズ可能なグラフベースの構造で設計し、得られた結果を分析して再生する。
このアプローチのソフトウェア実装は、オープンソースフレームワークとして紹介されている。
論文 参考訳(メタデータ) (2021-06-26T23:19:06Z) - Efficient Data-specific Model Search for Collaborative Filtering [56.60519991956558]
協調フィルタリング(CF)はレコメンダシステムの基本的なアプローチである。
本稿では,機械学習(AutoML)の最近の進歩を動機として,データ固有のCFモデルを設計することを提案する。
ここでキーとなるのは、最先端(SOTA)のCFメソッドを統一し、それらを入力エンコーディング、埋め込み関数、インタラクション、予測関数の非結合ステージに分割する新しいフレームワークである。
論文 参考訳(メタデータ) (2021-06-14T14:30:32Z) - Multi-Objective Evolutionary Design of CompositeData-Driven Models [0.0]
この手法はGPComp@Freeと呼ばれるモデル設計のためのパラメータフリーな遺伝的アルゴリズムに基づいている。
実験結果から, モデル設計に対する多目的アプローチにより, 得られたモデルの多様性と品質が向上することが確認された。
論文 参考訳(メタデータ) (2021-03-01T20:45:24Z) - Incremental Search Space Construction for Machine Learning Pipeline
Synthesis [4.060731229044571]
automated machine learning(automl)は、マシンラーニング(ml)パイプラインの自動構築を目的とする。
パイプライン構築のためのメタ機能に基づくデータ中心アプローチを提案する。
確立されたAutoMLベンチマークで使用した28データセットに対して,アプローチの有効性と競争性を実証する。
論文 参考訳(メタデータ) (2021-01-26T17:17:49Z) - Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature
Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。
提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文 参考訳(メタデータ) (2020-12-29T04:08:38Z) - Multi-layer Optimizations for End-to-End Data Analytics [71.05611866288196]
代替アプローチを実現するフレームワークであるIFAQ(Iterative Functional Aggregate Queries)を紹介する。
IFAQは、特徴抽出クエリと学習タスクを、IFAQのドメイン固有言語で与えられた1つのプログラムとして扱う。
IFAQ の Scala 実装が mlpack,Scikit,特殊化を数桁で上回り,線形回帰木モデルや回帰木モデルを複数の関係データセット上で処理可能であることを示す。
論文 参考訳(メタデータ) (2020-01-10T16:14:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。