論文の概要: AutoPipeline: Synthesize Data Pipelines By-Target Using Reinforcement
Learning and Search
- arxiv url: http://arxiv.org/abs/2106.13861v1
- Date: Fri, 25 Jun 2021 19:44:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-01 10:25:52.856951
- Title: AutoPipeline: Synthesize Data Pipelines By-Target Using Reinforcement
Learning and Search
- Title(参考訳): AutoPipeline: 強化学習と検索を使ってデータパイプラインをターゲット別に合成する
- Authors: Junwen Yang, Yeye He, Surajit Chaudhuri
- Abstract要約: 本稿では,文字列変換とテーブル操作演算を併用した複雑なデータパイプラインの自動化を提案する。
そこで本稿では,ユーザが希望するパイプラインを容易に指定可能な,新たな"ターゲット別"パラダイムを提案する。
我々は、強化学習と探索を用いてパイプラインを合成するオートパイプシステムを開発した。
- 参考スコア(独自算出の注目度): 19.53147565613595
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work has made significant progress in helping users to automate single
data preparation steps, such as string-transformations and table-manipulation
operators (e.g., Join, GroupBy, Pivot, etc.). We in this work propose to
automate multiple such steps end-to-end, by synthesizing complex data pipelines
with both string transformations and table-manipulation operators. We propose a
novel "by-target" paradigm that allows users to easily specify the desired
pipeline, which is a significant departure from the traditional by-example
paradigm. Using by-target, users would provide input tables (e.g., csv or json
files), and point us to a "target table" (e.g., an existing database table or
BI dashboard) to demonstrate how the output from the desired pipeline would
schematically "look like". While the problem is seemingly underspecified, our
unique insight is that implicit table constraints such as FDs and keys can be
exploited to significantly constrain the space to make the problem tractable.
We develop an Auto-Pipeline system that learns to synthesize pipelines using
reinforcement learning and search. Experiments on large numbers of real
pipelines crawled from GitHub suggest that Auto-Pipeline can successfully
synthesize 60-70% of these complex pipelines (up to 10 steps) in 10-20 seconds
on average.
- Abstract(参考訳): 最近の作業は、文字列変換やテーブル操作演算子(join、groupby、pivotなど)のような単一のデータ準備ステップの自動化を支援する上で大きな進歩を遂げている。
本研究では、文字列変換とテーブル操作演算子の両方で複雑なデータパイプラインを合成することにより、複数のステップをエンドツーエンドで自動化することを提案する。
本稿では,従来のバイサンプルパラダイムとは大きく離れているパイプラインをユーザが容易に指定できる,新たな"バイターゲット"パラダイムを提案する。
by-targetを使用することで、ユーザは入力テーブル(csvやjsonファイルなど)を提供して、“ターゲットテーブル”(既存のデータベーステーブルやbiダッシュボードなど)を指して、希望するパイプラインからの出力がどのようにスキーマ的に“見た目”するかを実証する。
問題は具体的でないように見えるが、FDやキーといった暗黙のテーブルの制約を利用して、空間を著しく制約し、問題を抽出できるようにするというユニークな洞察がある。
我々は、強化学習と探索を用いてパイプラインを合成するオートパイプシステムを開発した。
GitHubからクロールされた多数の実パイプラインの実験によると、Auto-Pipelineは、これらの複雑なパイプラインの60~70%(最大10ステップ)を平均10~20秒で合成できる。
関連論文リスト
- ToolACE: Winning the Points of LLM Function Calling [139.07157814653638]
ToolACEは、正確で複雑で多様なツール学習データを生成するように設計された自動エージェントパイプラインである。
我々は、合成データに基づいてトレーニングされたモデルが、8Bパラメータだけで、バークレー・ファンクション・カリング・リーダーボード上で最先端のパフォーマンスを達成することを実証した。
論文 参考訳(メタデータ) (2024-09-02T03:19:56Z) - Instrumentation and Analysis of Native ML Pipelines via Logical Query Plans [3.2362171533623054]
私たちは、データサイエンティストが機械学習パイプラインを開発し、検証し、監視し、分析するのを支援するために、高度に自動化されたソフトウェアプラットフォームを構想しています。
一般的なライブラリに依存したMLパイプラインコードから"論理クエリプラン"を抽出する。
これらの計画に基づいて、パイプラインのセマンティクスとインスツルメンタを自動で推論し、MLパイプラインを書き換えて、データサイエンティストが手動でアノテートしたり、コードを書き換えたりすることなく、さまざまなユースケースを可能にします。
論文 参考訳(メタデータ) (2024-07-10T11:35:02Z) - Introducing Routing Functions to Vision-Language Parameter-Efficient Fine-Tuning with Low-Rank Bottlenecks [54.31708859631821]
低ランクボトルネックにおける視覚言語(VL)アライメントを高めるために,ルーティング関数と呼ばれる操作群を提案する。
様々なVL PEFT設定において、ルーティング機能は元のPEFT法の性能を大幅に改善する。
論文 参考訳(メタデータ) (2024-03-14T13:27:42Z) - Deep Pipeline Embeddings for AutoML [11.168121941015015]
AutoMLは、最小限の人間の専門知識で機械学習システムを自動デプロイすることで、AIを民主化するための有望な方向である。
既存のパイプライン最適化テクニックでは、パイプラインステージ/コンポーネント間の深いインタラクションを探索できない。
本稿では,機械学習パイプラインのコンポーネント間のディープインタラクションをキャプチャするニューラルアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-05-23T12:40:38Z) - Towards Personalized Preprocessing Pipeline Search [52.59156206880384]
ClusterP3Sは、Clusteringを介してパイプライン検索をパーソナライズする新しいフレームワークである。
本稿では,クラスタを協調的に学習し,最適なパイプラインを探索するための階層的探索手法を提案する。
ベンチマーク分類データセットの実験では、機能的に前処理可能なパイプライン探索の有効性が示されている。
論文 参考訳(メタデータ) (2023-02-28T05:45:05Z) - A sequence-to-sequence approach for document-level relation extraction [4.906513405712846]
文書レベルの関係抽出(DocRE)は、文内および文間の情報の統合を必要とする。
Seq2relはDocREのエンドツーエンドのサブタスクを学習し、タスク固有のコンポーネントのパイプラインを置き換える。
論文 参考訳(メタデータ) (2022-04-03T16:03:19Z) - SapientML: Synthesizing Machine Learning Pipelines by Learning from
Human-Written Solutions [28.718446733713183]
既存のデータセットとその人手によるパイプラインのコーパスから学習できるAutoML SapientMLを提案する。
我々は、170のデータセットにまたがる1094のパイプラインのトレーニングコーパスを作成し、41のベンチマークデータセットでSapientMLを評価した。
我々の評価によると、SapientMLは27のベンチマークでベストまたは同等の精度で、第2のツールでは9のインスタンスでパイプラインを生成できない。
論文 参考訳(メタデータ) (2022-02-18T20:45:47Z) - Where Is My Training Bottleneck? Hidden Trade-Offs in Deep Learning
Preprocessing Pipelines [77.45213180689952]
ディープラーニングにおける前処理パイプラインは、トレーニングプロセスを忙しくするための十分なデータスループットの提供を目的としている。
エンドツーエンドのディープラーニングパイプラインのためのデータセットを効率的に準備する新たな視点を導入する。
チューニングされていないシステムに比べてスループットが3倍から13倍に向上する。
論文 参考訳(メタデータ) (2022-02-17T14:31:58Z) - PipeTransformer: Automated Elastic Pipelining for Distributed Training
of Transformers [47.194426122333205]
PipeTransformerはTransformerモデルの分散トレーニングアルゴリズムである。
トレーニング中にいくつかのレイヤを特定し凍結することで、パイプラインとデータの並列性を自動的に調整する。
GLUE と SQuAD データセット上で ImageNet と BERT 上での Vision Transformer (ViT) を用いた Pipe Transformer の評価を行った。
論文 参考訳(メタデータ) (2021-02-05T13:39:31Z) - MLCask: Efficient Management of Component Evolution in Collaborative
Data Analytics Pipelines [29.999324319722508]
マシンラーニングパイプラインのデプロイ時に発生する2つの大きな課題に対処し、エンドツーエンド分析システムMLCaskのバージョニング設計で対処する。
我々は,再利用可能な履歴記録とパイプライン互換性情報を用いて,パイプライン探索木を刈り取ることで,メートル法駆動のマージ操作を定義し,高速化する。
MLCaskの有効性は、いくつかの実世界の展開事例に関する広範な研究を通じて評価される。
論文 参考訳(メタデータ) (2020-10-17T13:34:48Z) - Task-Oriented Dialogue as Dataflow Synthesis [158.77123205487334]
本稿では,対話状態がデータフローグラフとして表現されるタスク指向対話へのアプローチについて述べる。
対話エージェントは、各ユーザの発話を、このグラフを拡張するプログラムにマッピングする。
我々は、イベント、天気、場所、人々に関する複雑な対話を特徴とする、新しいデータセットであるSMCalFlowを紹介した。
論文 参考訳(メタデータ) (2020-09-24T00:35:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。