Fugu-MT 論文翻訳(概要): AutoPipeline: Synthesize Data Pipelines By-Target Using Reinforcement Learning and Search

論文の概要: AutoPipeline: Synthesize Data Pipelines By-Target Using Reinforcement Learning and Search

arxiv url: http://arxiv.org/abs/2106.13861v1
Date: Fri, 25 Jun 2021 19:44:01 GMT
ステータス: 翻訳完了
システム内更新日: 2021-07-01 10:25:52.856951
Title: AutoPipeline: Synthesize Data Pipelines By-Target Using Reinforcement Learning and Search
Title（参考訳）: AutoPipeline: 強化学習と検索を使ってデータパイプラインをターゲット別に合成する
Authors: Junwen Yang, Yeye He, Surajit Chaudhuri
Abstract要約: 本稿では,文字列変換とテーブル操作演算を併用した複雑なデータパイプラインの自動化を提案する。そこで本稿では,ユーザが希望するパイプラインを容易に指定可能な,新たな"ターゲット別"パラダイムを提案する。我々は、強化学習と探索を用いてパイプラインを合成するオートパイプシステムを開発した。
参考スコア（独自算出の注目度）: 19.53147565613595
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent work has made significant progress in helping users to automate single data preparation steps, such as string-transformations and table-manipulation operators (e.g., Join, GroupBy, Pivot, etc.). We in this work propose to automate multiple such steps end-to-end, by synthesizing complex data pipelines with both string transformations and table-manipulation operators. We propose a novel "by-target" paradigm that allows users to easily specify the desired pipeline, which is a significant departure from the traditional by-example paradigm. Using by-target, users would provide input tables (e.g., csv or json files), and point us to a "target table" (e.g., an existing database table or BI dashboard) to demonstrate how the output from the desired pipeline would schematically "look like". While the problem is seemingly underspecified, our unique insight is that implicit table constraints such as FDs and keys can be exploited to significantly constrain the space to make the problem tractable. We develop an Auto-Pipeline system that learns to synthesize pipelines using reinforcement learning and search. Experiments on large numbers of real pipelines crawled from GitHub suggest that Auto-Pipeline can successfully synthesize 60-70% of these complex pipelines (up to 10 steps) in 10-20 seconds on average.
Abstract（参考訳）: 最近の作業は、文字列変換やテーブル操作演算子(join、groupby、pivotなど)のような単一のデータ準備ステップの自動化を支援する上で大きな進歩を遂げている。本研究では、文字列変換とテーブル操作演算子の両方で複雑なデータパイプラインを合成することにより、複数のステップをエンドツーエンドで自動化することを提案する。本稿では,従来のバイサンプルパラダイムとは大きく離れているパイプラインをユーザが容易に指定できる,新たな"バイターゲット"パラダイムを提案する。 by-targetを使用することで、ユーザは入力テーブル(csvやjsonファイルなど)を提供して、“ターゲットテーブル”(既存のデータベーステーブルやbiダッシュボードなど)を指して、希望するパイプラインからの出力がどのようにスキーマ的に“見た目”するかを実証する。問題は具体的でないように見えるが、FDやキーといった暗黙のテーブルの制約を利用して、空間を著しく制約し、問題を抽出できるようにするというユニークな洞察がある。我々は、強化学習と探索を用いてパイプラインを合成するオートパイプシステムを開発した。 GitHubからクロールされた多数の実パイプラインの実験によると、Auto-Pipelineは、これらの複雑なパイプラインの60～70%(最大10ステップ)を平均10～20秒で合成できる。

関連論文リスト

SemPipes -- Optimizable Semantic Data Operators for Tabular Machine Learning Pipelines [12.816711873869984]
本稿では,セマンティックデータ演算子をMLパイプラインに統合する新しい宣言型プログラミングモデルであるSemPipesを紹介する。 SemPipesはデータ特性、演算子命令、パイプラインコンテキストに基づいて、カスタム演算子実装を合成する。セマンティック演算子は、専門家が設計したパイプラインとエージェント生成パイプラインの両方において、エンドツーエンドの予測性能を大幅に向上することを示す。
論文参考訳（メタデータ） (2026-02-04T23:36:29Z)
FlowETL: An Autonomous Example-Driven Pipeline for Data Engineering [1.3599496385950987]
FlowETLは、入力データセットの自動標準化と準備のために設計された、サンプルベースの自律パイプラインアーキテクチャである。 Planning Engineは、ペア化された入出力データセットを使用して変換計画を構築し、ワーカーがソースに適用する。結果は、さまざまなドメイン、ファイル構造、ファイルサイズからなる14のデータセットにまたがる有望な一般化能力を示している。
論文参考訳（メタデータ） (2025-07-30T21:46:22Z)
ToolACE: Winning the Points of LLM Function Calling [139.07157814653638]
ToolACEは、正確で複雑で多様なツール学習データを生成するように設計された自動エージェントパイプラインである。我々は、合成データに基づいてトレーニングされたモデルが、8Bパラメータだけで、バークレー・ファンクション・カリング・リーダーボード上で最先端のパフォーマンスを達成することを実証した。
論文参考訳（メタデータ） (2024-09-02T03:19:56Z)
Instrumentation and Analysis of Native ML Pipelines via Logical Query Plans [3.2362171533623054]
私たちは、データサイエンティストが機械学習パイプラインを開発し、検証し、監視し、分析するのを支援するために、高度に自動化されたソフトウェアプラットフォームを構想しています。一般的なライブラリに依存したMLパイプラインコードから"論理クエリプラン"を抽出する。これらの計画に基づいて、パイプラインのセマンティクスとインスツルメンタを自動で推論し、MLパイプラインを書き換えて、データサイエンティストが手動でアノテートしたり、コードを書き換えたりすることなく、さまざまなユースケースを可能にします。
論文参考訳（メタデータ） (2024-07-10T11:35:02Z)
Introducing Routing Functions to Vision-Language Parameter-Efficient Fine-Tuning with Low-Rank Bottlenecks [54.31708859631821]
低ランクボトルネックにおける視覚言語(VL)アライメントを高めるために,ルーティング関数と呼ばれる操作群を提案する。様々なVL PEFT設定において、ルーティング機能は元のPEFT法の性能を大幅に改善する。
論文参考訳（メタデータ） (2024-03-14T13:27:42Z)
Deep Pipeline Embeddings for AutoML [11.168121941015015]
AutoMLは、最小限の人間の専門知識で機械学習システムを自動デプロイすることで、AIを民主化するための有望な方向である。既存のパイプライン最適化テクニックでは、パイプラインステージ/コンポーネント間の深いインタラクションを探索できない。本稿では,機械学習パイプラインのコンポーネント間のディープインタラクションをキャプチャするニューラルアーキテクチャを提案する。
論文参考訳（メタデータ） (2023-05-23T12:40:38Z)
Towards Personalized Preprocessing Pipeline Search [52.59156206880384]
ClusterP3Sは、Clusteringを介してパイプライン検索をパーソナライズする新しいフレームワークである。本稿では,クラスタを協調的に学習し,最適なパイプラインを探索するための階層的探索手法を提案する。ベンチマーク分類データセットの実験では、機能的に前処理可能なパイプライン探索の有効性が示されている。
論文参考訳（メタデータ） (2023-02-28T05:45:05Z)
A sequence-to-sequence approach for document-level relation extraction [4.906513405712846]
文書レベルの関係抽出(DocRE)は、文内および文間の情報の統合を必要とする。 Seq2relはDocREのエンドツーエンドのサブタスクを学習し、タスク固有のコンポーネントのパイプラインを置き換える。
論文参考訳（メタデータ） (2022-04-03T16:03:19Z)
SapientML: Synthesizing Machine Learning Pipelines by Learning from Human-Written Solutions [28.718446733713183]
既存のデータセットとその人手によるパイプラインのコーパスから学習できるAutoML SapientMLを提案する。我々は、170のデータセットにまたがる1094のパイプラインのトレーニングコーパスを作成し、41のベンチマークデータセットでSapientMLを評価した。我々の評価によると、SapientMLは27のベンチマークでベストまたは同等の精度で、第2のツールでは9のインスタンスでパイプラインを生成できない。
論文参考訳（メタデータ） (2022-02-18T20:45:47Z)
Where Is My Training Bottleneck? Hidden Trade-Offs in Deep Learning Preprocessing Pipelines [77.45213180689952]
ディープラーニングにおける前処理パイプラインは、トレーニングプロセスを忙しくするための十分なデータスループットの提供を目的としている。エンドツーエンドのディープラーニングパイプラインのためのデータセットを効率的に準備する新たな視点を導入する。チューニングされていないシステムに比べてスループットが3倍から13倍に向上する。
論文参考訳（メタデータ） (2022-02-17T14:31:58Z)
PipeTransformer: Automated Elastic Pipelining for Distributed Training of Transformers [47.194426122333205]
PipeTransformerはTransformerモデルの分散トレーニングアルゴリズムである。トレーニング中にいくつかのレイヤを特定し凍結することで、パイプラインとデータの並列性を自動的に調整する。 GLUE と SQuAD データセット上で ImageNet と BERT 上での Vision Transformer (ViT) を用いた Pipe Transformer の評価を行った。
論文参考訳（メタデータ） (2021-02-05T13:39:31Z)
MLCask: Efficient Management of Component Evolution in Collaborative Data Analytics Pipelines [29.999324319722508]
マシンラーニングパイプラインのデプロイ時に発生する2つの大きな課題に対処し、エンドツーエンド分析システムMLCaskのバージョニング設計で対処する。我々は,再利用可能な履歴記録とパイプライン互換性情報を用いて,パイプライン探索木を刈り取ることで,メートル法駆動のマージ操作を定義し,高速化する。 MLCaskの有効性は、いくつかの実世界の展開事例に関する広範な研究を通じて評価される。
論文参考訳（メタデータ） (2020-10-17T13:34:48Z)
Task-Oriented Dialogue as Dataflow Synthesis [158.77123205487334]
本稿では,対話状態がデータフローグラフとして表現されるタスク指向対話へのアプローチについて述べる。対話エージェントは、各ユーザの発話を、このグラフを拡張するプログラムにマッピングする。我々は、イベント、天気、場所、人々に関する複雑な対話を特徴とする、新しいデータセットであるSMCalFlowを紹介した。
論文参考訳（メタデータ） (2020-09-24T00:35:26Z)
TODS: An Automated Time Series Outlier Detection System [70.88663649631857]
TODSは,パイプライン構築を容易にする,高度にモジュール化されたシステムである。 Todsはデータ処理、時系列処理、特徴分析、検出アルゴリズム、強化モジュールを含む70のプリミティブをサポートしている。
論文参考訳（メタデータ） (2020-09-18T15:36:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。