論文の概要: Text-to-Pipeline: Bridging Natural Language and Data Preparation Pipelines
- arxiv url: http://arxiv.org/abs/2505.15874v2
- Date: Mon, 10 Nov 2025 14:42:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 14:55:59.941853
- Title: Text-to-Pipeline: Bridging Natural Language and Data Preparation Pipelines
- Title(参考訳): Text-to-Pipeline: 自然言語とデータ作成パイプラインのブリッジ化
- Authors: Yuhang Ge, Yachuan Liu, Zhangyan Ye, Yuren Mao, Yunjun Gao,
- Abstract要約: 我々は,NLデータ作成命令をDPパイプラインに変換する新しいタスクであるText-to-Pipelineを紹介する。
Parrotは、体系的な評価をサポートする大規模なベンチマークである。
ParROTは、プロダクションパイプラインから変換パターンをマイニングし、23,009の現実世界のテーブル上でインスタンス化する。
- 参考スコア(独自算出の注目度): 18.75611679837171
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data preparation (DP) transforms raw data into a form suitable for downstream applications, typically by composing operations into executable pipelines. Building such pipelines is time-consuming and requires sophisticated programming skills, posing a significant barrier for non-experts. To lower this barrier, we introduce Text-to-Pipeline, a new task that translates NL data preparation instructions into DP pipelines, and PARROT, a large-scale benchmark to support systematic evaluation. To ensure realistic DP scenarios, PARROT is built by mining transformation patterns from production pipelines and instantiating them on 23,009 real-world tables, resulting in ~18,000 tasks spanning 16 core operators. Our empirical evaluation on PARROT reveals a critical failure mode in cutting-edge LLMs: they struggle not only with multi-step compositional logic but also with semantic parameter grounding. We thus establish a strong baseline with Pipeline-Agent, an execution-aware agent that iteratively reflects on intermediate states. While it achieves state-of-the-art performance, a significant gap remains, underscoring the deep, unsolved challenges for PARROT. It provides the essential, large-scale testbed for developing and evaluating the next generation of autonomous data preparation agentic systems.
- Abstract(参考訳): データ準備(DP)は、通常、操作を実行可能なパイプラインに構成することで、生データを下流アプリケーションに適した形式に変換する。
このようなパイプラインの構築には時間がかかり、高度なプログラミングスキルを必要とします。
この障壁を下げるために、NLデータ作成命令をDPパイプラインに変換する新しいタスクであるText-to-Pipelineと、体系的評価をサポートする大規模ベンチマークであるPARROTを導入する。
実際のDPシナリオを保証するため、PARROTはプロダクションパイプラインから変換パターンをマイニングし、23,009の現実世界のテーブル上でインスタンス化する。
PARROTにおける実験的な評価は,多段階構成論理だけでなく,意味的パラメータのグラウンド化にも苦戦している,最先端LLMにおいて重要な障害モードを示す。
そこで我々は,中間状態を反復的に反映する実行対応エージェントであるPipeline-Agentを用いて,強力なベースラインを確立する。
最先端のパフォーマンスを実現する一方で、PARROTの深い未解決課題を裏付ける大きなギャップが残っている。
次世代の自律データ準備エージェントシステムの開発と評価に不可欠な大規模テストベッドを提供する。
関連論文リスト
- FineWeb2: One Pipeline to Scale Them All -- Adapting Pre-Training Data Processing to Every Language [48.79534869177174]
我々は、FineWebをベースにした、新しいトレーニング済みデータセットキュレーションパイプラインを導入する。
我々のパイプラインは、以前のデータセットよりもパフォーマンスの高いモデルを生成する非英語コーパスを作成するために使用できることを示す。
パイプラインを約100のCommon Crawlスナップショットを使用して1000以上の言語に拡張し、新たに20テラバイト(50億ドキュメント)のマルチリンガルデータセットであるFinWeb2を生成しました。
論文 参考訳(メタデータ) (2025-06-26T01:01:47Z) - Pipeline and Dataset Generation for Automated Fact-checking in Almost
Any Language [0.0]
本稿では,公開言語モデルとデータを活用したファクトチェック自動化パイプラインを提案する。
パイプラインは,エビデンス検索とクレームの妥当性評価という,2つの主要なモジュールで構成されている。
チェコ語、英語、ポーランド語、スロバキア語パイプラインのすべてのデータと微調整されたモデルにオープンアクセスを提供しています。
論文 参考訳(メタデータ) (2023-12-15T19:43:41Z) - DSPy: Compiling Declarative Language Model Calls into Self-Improving
Pipelines [44.772892598128784]
DSPyは、LMパイプラインをテキスト変換グラフとして抽象化するプログラミングモデルである。
コンパイル後数分で数行のDSPyがGPT-3.5とllama2-13b-chatをセルフブートストラップパイプラインに接続できる。
論文 参考訳(メタデータ) (2023-10-05T17:37:25Z) - Deep Pipeline Embeddings for AutoML [11.168121941015015]
AutoMLは、最小限の人間の専門知識で機械学習システムを自動デプロイすることで、AIを民主化するための有望な方向である。
既存のパイプライン最適化テクニックでは、パイプラインステージ/コンポーネント間の深いインタラクションを探索できない。
本稿では,機械学習パイプラインのコンポーネント間のディープインタラクションをキャプチャするニューラルアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-05-23T12:40:38Z) - Demonstrate-Search-Predict: Composing retrieval and language models for
knowledge-intensive NLP [77.817293104436]
本稿では,LMとRMの間の洗練されたパイプラインにおいて,自然言語テキストを渡すことに依存するフレームワークを提案する。
我々は、オープンドメイン、マルチホップ、会話設定で質問に答えるための新しいDSPプログラムを作成した。
論文 参考訳(メタデータ) (2022-12-28T18:52:44Z) - Where Is My Training Bottleneck? Hidden Trade-Offs in Deep Learning
Preprocessing Pipelines [77.45213180689952]
ディープラーニングにおける前処理パイプラインは、トレーニングプロセスを忙しくするための十分なデータスループットの提供を目的としている。
エンドツーエンドのディープラーニングパイプラインのためのデータセットを効率的に準備する新たな視点を導入する。
チューニングされていないシステムに比べてスループットが3倍から13倍に向上する。
論文 参考訳(メタデータ) (2022-02-17T14:31:58Z) - PipeTransformer: Automated Elastic Pipelining for Distributed Training
of Transformers [47.194426122333205]
PipeTransformerはTransformerモデルの分散トレーニングアルゴリズムである。
トレーニング中にいくつかのレイヤを特定し凍結することで、パイプラインとデータの並列性を自動的に調整する。
GLUE と SQuAD データセット上で ImageNet と BERT 上での Vision Transformer (ViT) を用いた Pipe Transformer の評価を行った。
論文 参考訳(メタデータ) (2021-02-05T13:39:31Z) - AutoWeka4MCPS-AVATAR: Accelerating Automated Machine Learning Pipeline
Composition and Optimisation [13.116806430326513]
本稿では,サロゲートモデル(AVATAR)を用いて,実行せずにMLパイプラインの有効性を評価する手法を提案する。
AVATARは、データセットの特徴に対するMLアルゴリズムの機能と効果を自動的に学習することで、知識ベースを生成する。
AVATARはその妥当性を評価するためにオリジナルのMLパイプラインを実行する代わりに、MLパイプラインコンポーネントの機能と効果によって構築されたサロゲートモデルを評価する。
論文 参考訳(メタデータ) (2020-11-21T14:05:49Z) - Unsupervised Parallel Corpus Mining on Web Data [53.74427402568838]
並列コーパスを教師なしでインターネットからマイニングするためのパイプラインを提示する。
我々のシステムは、監督されたアプローチと比較しても、39.81と38.95のBLEUスコアを新たに生成する。
論文 参考訳(メタデータ) (2020-09-18T02:38:01Z) - POINTER: Constrained Progressive Text Generation via Insertion-based
Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。
提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。
結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文 参考訳(メタデータ) (2020-05-01T18:11:54Z) - AVATAR -- Machine Learning Pipeline Evaluation Using Surrogate Model [10.83607599315401]
本稿では,サロゲートモデル(AVATAR)を用いたMLパイプラインの有効性評価手法を提案する。
実験の結果, AVATARは, 従来の評価手法と比較して, 複雑なパイプラインの評価においてより効率的であることがわかった。
論文 参考訳(メタデータ) (2020-01-30T02:53:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。