論文の概要: AutoPipeline: Synthesize Data Pipelines By-Target Using Reinforcement
Learning and Search
- arxiv url: http://arxiv.org/abs/2106.13861v1
- Date: Fri, 25 Jun 2021 19:44:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-01 10:25:52.856951
- Title: AutoPipeline: Synthesize Data Pipelines By-Target Using Reinforcement
Learning and Search
- Title(参考訳): AutoPipeline: 強化学習と検索を使ってデータパイプラインをターゲット別に合成する
- Authors: Junwen Yang, Yeye He, Surajit Chaudhuri
- Abstract要約: 本稿では,文字列変換とテーブル操作演算を併用した複雑なデータパイプラインの自動化を提案する。
そこで本稿では,ユーザが希望するパイプラインを容易に指定可能な,新たな"ターゲット別"パラダイムを提案する。
我々は、強化学習と探索を用いてパイプラインを合成するオートパイプシステムを開発した。
- 参考スコア(独自算出の注目度): 19.53147565613595
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work has made significant progress in helping users to automate single
data preparation steps, such as string-transformations and table-manipulation
operators (e.g., Join, GroupBy, Pivot, etc.). We in this work propose to
automate multiple such steps end-to-end, by synthesizing complex data pipelines
with both string transformations and table-manipulation operators. We propose a
novel "by-target" paradigm that allows users to easily specify the desired
pipeline, which is a significant departure from the traditional by-example
paradigm. Using by-target, users would provide input tables (e.g., csv or json
files), and point us to a "target table" (e.g., an existing database table or
BI dashboard) to demonstrate how the output from the desired pipeline would
schematically "look like". While the problem is seemingly underspecified, our
unique insight is that implicit table constraints such as FDs and keys can be
exploited to significantly constrain the space to make the problem tractable.
We develop an Auto-Pipeline system that learns to synthesize pipelines using
reinforcement learning and search. Experiments on large numbers of real
pipelines crawled from GitHub suggest that Auto-Pipeline can successfully
synthesize 60-70% of these complex pipelines (up to 10 steps) in 10-20 seconds
on average.
- Abstract(参考訳): 最近の作業は、文字列変換やテーブル操作演算子(join、groupby、pivotなど)のような単一のデータ準備ステップの自動化を支援する上で大きな進歩を遂げている。
本研究では、文字列変換とテーブル操作演算子の両方で複雑なデータパイプラインを合成することにより、複数のステップをエンドツーエンドで自動化することを提案する。
本稿では,従来のバイサンプルパラダイムとは大きく離れているパイプラインをユーザが容易に指定できる,新たな"バイターゲット"パラダイムを提案する。
by-targetを使用することで、ユーザは入力テーブル(csvやjsonファイルなど)を提供して、“ターゲットテーブル”(既存のデータベーステーブルやbiダッシュボードなど)を指して、希望するパイプラインからの出力がどのようにスキーマ的に“見た目”するかを実証する。
問題は具体的でないように見えるが、FDやキーといった暗黙のテーブルの制約を利用して、空間を著しく制約し、問題を抽出できるようにするというユニークな洞察がある。
我々は、強化学習と探索を用いてパイプラインを合成するオートパイプシステムを開発した。
GitHubからクロールされた多数の実パイプラインの実験によると、Auto-Pipelineは、これらの複雑なパイプラインの60~70%(最大10ステップ)を平均10~20秒で合成できる。
関連論文リスト
- Deep Pipeline Embeddings for AutoML [11.168121941015015]
AutoMLは、最小限の人間の専門知識で機械学習システムを自動デプロイすることで、AIを民主化するための有望な方向である。
既存のパイプライン最適化テクニックでは、パイプラインステージ/コンポーネント間の深いインタラクションを探索できない。
本稿では,機械学習パイプラインのコンポーネント間のディープインタラクションをキャプチャするニューラルアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-05-23T12:40:38Z) - Towards Personalized Preprocessing Pipeline Search [52.59156206880384]
ClusterP3Sは、Clusteringを介してパイプライン検索をパーソナライズする新しいフレームワークである。
本稿では,クラスタを協調的に学習し,最適なパイプラインを探索するための階層的探索手法を提案する。
ベンチマーク分類データセットの実験では、機能的に前処理可能なパイプライン探索の有効性が示されている。
論文 参考訳(メタデータ) (2023-02-28T05:45:05Z) - Pushing the Limits of Simple Pipelines for Few-Shot Learning: External
Data and Fine-Tuning Make a Difference [74.80730361332711]
コンピュータビジョンにおいて、ほとんどショット学習は重要かつトピック的な問題である。
単純なトランスフォーマーベースのパイプラインは、標準ベンチマークで驚くほど優れたパフォーマンスが得られることを示す。
論文 参考訳(メタデータ) (2022-04-15T02:55:58Z) - A sequence-to-sequence approach for document-level relation extraction [4.906513405712846]
文書レベルの関係抽出(DocRE)は、文内および文間の情報の統合を必要とする。
Seq2relはDocREのエンドツーエンドのサブタスクを学習し、タスク固有のコンポーネントのパイプラインを置き換える。
論文 参考訳(メタデータ) (2022-04-03T16:03:19Z) - SapientML: Synthesizing Machine Learning Pipelines by Learning from
Human-Written Solutions [28.718446733713183]
既存のデータセットとその人手によるパイプラインのコーパスから学習できるAutoML SapientMLを提案する。
我々は、170のデータセットにまたがる1094のパイプラインのトレーニングコーパスを作成し、41のベンチマークデータセットでSapientMLを評価した。
我々の評価によると、SapientMLは27のベンチマークでベストまたは同等の精度で、第2のツールでは9のインスタンスでパイプラインを生成できない。
論文 参考訳(メタデータ) (2022-02-18T20:45:47Z) - Where Is My Training Bottleneck? Hidden Trade-Offs in Deep Learning
Preprocessing Pipelines [77.45213180689952]
ディープラーニングにおける前処理パイプラインは、トレーニングプロセスを忙しくするための十分なデータスループットの提供を目的としている。
エンドツーエンドのディープラーニングパイプラインのためのデータセットを効率的に準備する新たな視点を導入する。
チューニングされていないシステムに比べてスループットが3倍から13倍に向上する。
論文 参考訳(メタデータ) (2022-02-17T14:31:58Z) - Benchmarking Multimodal AutoML for Tabular Data with Text Fields [83.43249184357053]
テキストフィールドを含む18個のマルチモーダルデータテーブルを組み立てる。
このベンチマークにより、研究者は、数値的、分類的、テキスト的特徴を用いて教師あり学習を行うための独自の方法を評価することができる。
論文 参考訳(メタデータ) (2021-11-04T09:29:16Z) - PipeTransformer: Automated Elastic Pipelining for Distributed Training
of Transformers [47.194426122333205]
PipeTransformerはTransformerモデルの分散トレーニングアルゴリズムである。
トレーニング中にいくつかのレイヤを特定し凍結することで、パイプラインとデータの並列性を自動的に調整する。
GLUE と SQuAD データセット上で ImageNet と BERT 上での Vision Transformer (ViT) を用いた Pipe Transformer の評価を行った。
論文 参考訳(メタデータ) (2021-02-05T13:39:31Z) - MLCask: Efficient Management of Component Evolution in Collaborative
Data Analytics Pipelines [29.999324319722508]
マシンラーニングパイプラインのデプロイ時に発生する2つの大きな課題に対処し、エンドツーエンド分析システムMLCaskのバージョニング設計で対処する。
我々は,再利用可能な履歴記録とパイプライン互換性情報を用いて,パイプライン探索木を刈り取ることで,メートル法駆動のマージ操作を定義し,高速化する。
MLCaskの有効性は、いくつかの実世界の展開事例に関する広範な研究を通じて評価される。
論文 参考訳(メタデータ) (2020-10-17T13:34:48Z) - Task-Oriented Dialogue as Dataflow Synthesis [158.77123205487334]
本稿では,対話状態がデータフローグラフとして表現されるタスク指向対話へのアプローチについて述べる。
対話エージェントは、各ユーザの発話を、このグラフを拡張するプログラムにマッピングする。
我々は、イベント、天気、場所、人々に関する複雑な対話を特徴とする、新しいデータセットであるSMCalFlowを紹介した。
論文 参考訳(メタデータ) (2020-09-24T00:35:26Z) - Efficient AutoML Pipeline Search with Matrix and Tensor Factorization [41.194759736425176]
新しいパイプラインコンポーネントでは、選択肢の数が爆発的に増えます!
本研究では,この課題に対処するために,教師付き学習パイプラインを設計する自動システムであるAutoMLシステムを設計する。
これらのモデルでは,新しいデータセットに関する情報を効率よく収集する,グリージーな実験設計プロトコルを開発した。
論文 参考訳(メタデータ) (2020-06-07T18:08:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。