論文の概要: Text-to-Pipeline: Bridging Natural Language and Data Preparation Pipelines
- arxiv url: http://arxiv.org/abs/2505.15874v1
- Date: Wed, 21 May 2025 15:40:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:47.83285
- Title: Text-to-Pipeline: Bridging Natural Language and Data Preparation Pipelines
- Title(参考訳): Text-to-Pipeline: 自然言語とデータ作成パイプラインのブリッジ化
- Authors: Yuhang Ge, Yachuan Liu, Yuren Mao, Yunjun Gao,
- Abstract要約: データ作成命令をDPパイプラインに変換するタスクであるText-to-Pipelineを導入する。
また,システム評価を支援するベンチマーク PARROT も開発した。
この改善にもかかわらず、Text-to-Pipelineには相当な進歩の余地がある。
- 参考スコア(独自算出の注目度): 23.421567721746765
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data preparation (DP) transforms raw data into a form suitable for downstream applications, typically by composing operations into executable pipelines. Building such pipelines is time-consuming and requires sophisticated programming skills. If we can build the pipelines with natural language (NL), the technical barrier of DP will be significantly reduced. However, constructing DP pipelines from NL instructions remains underexplored. To fill the gap, we introduce Text-to-Pipeline, a new task that translates NL data preparation instructions into DP pipelines. Furthermore, we develop a benchmark named PARROT to support systematic evaluation. To simulate realistic DP scenarios, we mined transformation patterns from production pipelines and instantiated them on 23,009 real-world tables collected from six public sources. The resulting benchmark comprises ~18,000 pipelines covering 16 core DP operators. We evaluated cutting-edge large language models on PARROTand observed that they only solved 72.86% of the cases, revealing notable limitations in instruction understanding and multi-step reasoning. To address this, we propose Pipeline-Agent, a stronger baseline that iteratively predicts and executes operations with intermediate table feedback, achieving the best performance of 76.17%. Despite this improvement, there remains substantial room for progress on Text-to-Pipeline. Our data, codes, and evaluation tools are available at https://anonymous.4open.science/r/Text-to-Pipeline.
- Abstract(参考訳): データ準備(DP)は、通常、操作を実行可能なパイプラインに構成することで、生データを下流アプリケーションに適した形式に変換する。
このようなパイプラインの構築には時間がかかり、高度なプログラミングスキルが必要です。
自然言語(NL)でパイプラインを構築することができれば、DPの技術的な障壁は大幅に減少するでしょう。
しかし、NL命令からDPパイプラインを構築することは未定である。
このギャップを埋めるために,NLデータ作成命令をDPパイプラインに変換する新しいタスクであるText-to-Pipelineを導入する。
さらに,システム評価を支援するベンチマーク PARROT を開発した。
実際のDPシナリオをシミュレートするために,生産パイプラインから変換パターンを抽出し,これらを6つの公開ソースから収集した23,009個の実世界のテーブル上にインスタンス化した。
ベンチマークは16コアのDP演算子をカバーする約18,000のパイプラインで構成されている。
PARROTandでは,72.86%の症例のみを解決し,命令理解や多段階推論において顕著な限界が認められた。
この問題に対処するため、中間テーブルフィードバックによる操作を反復的に予測し実行し、76.17%の最高のパフォーマンスを達成する、より強力なベースラインであるPipeline-Agentを提案する。
この改善にもかかわらず、Text-to-Pipelineには相当な進歩の余地がある。
私たちのデータ、コード、評価ツールはhttps://anonymous.4open.science/r/Text-to-Pipeline.comで利用可能です。
関連論文リスト
- DSPy: Compiling Declarative Language Model Calls into Self-Improving
Pipelines [44.772892598128784]
DSPyは、LMパイプラインをテキスト変換グラフとして抽象化するプログラミングモデルである。
コンパイル後数分で数行のDSPyがGPT-3.5とllama2-13b-chatをセルフブートストラップパイプラインに接続できる。
論文 参考訳(メタデータ) (2023-10-05T17:37:25Z) - Deep Pipeline Embeddings for AutoML [11.168121941015015]
AutoMLは、最小限の人間の専門知識で機械学習システムを自動デプロイすることで、AIを民主化するための有望な方向である。
既存のパイプライン最適化テクニックでは、パイプラインステージ/コンポーネント間の深いインタラクションを探索できない。
本稿では,機械学習パイプラインのコンポーネント間のディープインタラクションをキャプチャするニューラルアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-05-23T12:40:38Z) - Demonstrate-Search-Predict: Composing retrieval and language models for
knowledge-intensive NLP [77.817293104436]
本稿では,LMとRMの間の洗練されたパイプラインにおいて,自然言語テキストを渡すことに依存するフレームワークを提案する。
我々は、オープンドメイン、マルチホップ、会話設定で質問に答えるための新しいDSPプログラムを作成した。
論文 参考訳(メタデータ) (2022-12-28T18:52:44Z) - Where Is My Training Bottleneck? Hidden Trade-Offs in Deep Learning
Preprocessing Pipelines [77.45213180689952]
ディープラーニングにおける前処理パイプラインは、トレーニングプロセスを忙しくするための十分なデータスループットの提供を目的としている。
エンドツーエンドのディープラーニングパイプラインのためのデータセットを効率的に準備する新たな視点を導入する。
チューニングされていないシステムに比べてスループットが3倍から13倍に向上する。
論文 参考訳(メタデータ) (2022-02-17T14:31:58Z) - PipeTransformer: Automated Elastic Pipelining for Distributed Training
of Transformers [47.194426122333205]
PipeTransformerはTransformerモデルの分散トレーニングアルゴリズムである。
トレーニング中にいくつかのレイヤを特定し凍結することで、パイプラインとデータの並列性を自動的に調整する。
GLUE と SQuAD データセット上で ImageNet と BERT 上での Vision Transformer (ViT) を用いた Pipe Transformer の評価を行った。
論文 参考訳(メタデータ) (2021-02-05T13:39:31Z) - AutoWeka4MCPS-AVATAR: Accelerating Automated Machine Learning Pipeline
Composition and Optimisation [13.116806430326513]
本稿では,サロゲートモデル(AVATAR)を用いて,実行せずにMLパイプラインの有効性を評価する手法を提案する。
AVATARは、データセットの特徴に対するMLアルゴリズムの機能と効果を自動的に学習することで、知識ベースを生成する。
AVATARはその妥当性を評価するためにオリジナルのMLパイプラインを実行する代わりに、MLパイプラインコンポーネントの機能と効果によって構築されたサロゲートモデルを評価する。
論文 参考訳(メタデータ) (2020-11-21T14:05:49Z) - Unsupervised Parallel Corpus Mining on Web Data [53.74427402568838]
並列コーパスを教師なしでインターネットからマイニングするためのパイプラインを提示する。
我々のシステムは、監督されたアプローチと比較しても、39.81と38.95のBLEUスコアを新たに生成する。
論文 参考訳(メタデータ) (2020-09-18T02:38:01Z) - POINTER: Constrained Progressive Text Generation via Insertion-based
Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。
提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。
結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文 参考訳(メタデータ) (2020-05-01T18:11:54Z) - AVATAR -- Machine Learning Pipeline Evaluation Using Surrogate Model [10.83607599315401]
本稿では,サロゲートモデル(AVATAR)を用いたMLパイプラインの有効性評価手法を提案する。
実験の結果, AVATARは, 従来の評価手法と比較して, 複雑なパイプラインの評価においてより効率的であることがわかった。
論文 参考訳(メタデータ) (2020-01-30T02:53:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。