論文の概要: DataFlow: An LLM-Driven Framework for Unified Data Preparation and Workflow Automation in the Era of Data-Centric AI
- arxiv url: http://arxiv.org/abs/2512.16676v1
- Date: Thu, 18 Dec 2025 15:46:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.133634
- Title: DataFlow: An LLM-Driven Framework for Unified Data Preparation and Workflow Automation in the Era of Data-Centric AI
- Title(参考訳): DataFlow: データ中心AIの時代における統一データ準備とワークフロー自動化のためのLLM駆動フレームワーク
- Authors: Hao Liang, Xiaochen Ma, Zhou Liu, Zhen Hao Wong, Zhengyang Zhao, Zimo Meng, Runming He, Chengyu Shen, Qifeng Cai, Zhaoyang Han, Meiyi Qiang, Yalin Feng, Tianyi Bai, Zewei Pan, Ziyi Guo, Yizhen Jiang, Jingwen Deng, Qijie You, Peichao Lai, Tianyu Guo, Chi Hsu Tsai, Hengyi Feng, Rui Hu, Wenkai Yu, Junbo Niu, Bohan Zeng, Ruichuan An, Lu Ma, Jihao Huang, Yaowei Zheng, Conghui He, Linpeng Tang, Bin Cui, Weinan E, Wentao Zhang,
- Abstract要約: DataFlowは、統一的でLLM駆動のデータ準備フレームワークである。
システムレベルの抽象化により、モジュラー、再利用可能な、構成可能なデータ変換が可能になる。
DataFlowは、ダウンストリームのLarge Language Modelsのパフォーマンスを継続的に改善します。
- 参考スコア(独自算出の注目度): 42.191938707504406
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapidly growing demand for high-quality data in Large Language Models (LLMs) has intensified the need for scalable, reliable, and semantically rich data preparation pipelines. However, current practices remain dominated by ad-hoc scripts and loosely specified workflows, which lack principled abstractions, hinder reproducibility, and offer limited support for model-in-the-loop data generation. To address these challenges, we present DataFlow, a unified and extensible LLM-driven data preparation framework. DataFlow is designed with system-level abstractions that enable modular, reusable, and composable data transformations, and provides a PyTorch-style pipeline construction API for building debuggable and optimizable dataflows. The framework consists of nearly 200 reusable operators and six domain-general pipelines spanning text, mathematical reasoning, code, Text-to-SQL, agentic RAG, and large-scale knowledge extraction. To further improve usability, we introduce DataFlow-Agent, which automatically translates natural-language specifications into executable pipelines via operator synthesis, pipeline planning, and iterative verification. Across six representative use cases, DataFlow consistently improves downstream LLM performance. Our math, code, and text pipelines outperform curated human datasets and specialized synthetic baselines, achieving up to +3\% execution accuracy in Text-to-SQL over SynSQL, +7\% average improvements on code benchmarks, and 1--3 point gains on MATH, GSM8K, and AIME. Moreover, a unified 10K-sample dataset produced by DataFlow enables base models to surpass counterparts trained on 1M Infinity-Instruct data. These results demonstrate that DataFlow provides a practical and high-performance substrate for reliable, reproducible, and scalable LLM data preparation, and establishes a system-level foundation for future data-centric AI development.
- Abstract(参考訳): 大規模言語モデル(LLM)における高品質なデータに対する需要が急速に高まり、スケーラブルで信頼性があり、セマンティックにリッチなデータ準備パイプラインの必要性が高まっている。
しかし、現在のプラクティスは依然としてアドホックなスクリプトとゆるやかに定義されたワークフローに支配されている。
これらの課題に対処するために、統一的で拡張可能なLLM駆動データ準備フレームワークであるDataFlowを紹介します。
DataFlowは、モジュール的で再利用可能な、構成可能なデータ変換を可能にするシステムレベルの抽象化で設計されており、デバッグ可能で最適化可能なデータフローを構築するためのPyTorchスタイルのパイプライン構築APIを提供する。
このフレームワークは、200近い再利用可能な演算子と、テキスト、数学的推論、コード、Text-to-SQL、エージェントRAG、大規模知識抽出にまたがる6つのドメイン汎用パイプラインで構成されている。
ユーザビリティをさらに向上するため,我々は,自然言語仕様を演算子合成,パイプライン計画,反復検証を通じて,実行可能パイプラインに自動変換するDataFlow-Agentを紹介した。
6つの代表的なユースケースで、DataFlowは一貫して下流のLLMパフォーマンスを改善している。
SynSQL上でのText-to-SQLの実行精度は+3\%、コードベンチマークでは+7\%、MATH、GSM8K、AIMEでは1--3ポイント向上した。
さらに、DataFlowによって生成された統合された10Kサンプルデータセットにより、ベースモデルは100万のInfinity-Instructデータでトレーニングされたデータセットを上回ることができる。
これらの結果は、DataFlowが信頼性、再現性、スケーラブルなLCMデータ準備のための実用的で高性能な基板を提供し、将来のデータ中心型AI開発のためのシステムレベルの基盤を確立することを実証している。
関連論文リスト
- LLM/Agent-as-Data-Analyst: A Survey [54.08761322298559]
大規模言語モデル(LLM)とエージェント技術は、データ分析タスクの機能と開発パラダイムに根本的な変化をもたらした。
LLMは複雑なデータ理解、自然言語、意味分析機能、自律パイプラインオーケストレーションを可能にする。
論文 参考訳(メタデータ) (2025-09-28T17:31:38Z) - FlowETL: An Autonomous Example-Driven Pipeline for Data Engineering [1.3599496385950987]
FlowETLは、入力データセットの自動標準化と準備のために設計された、サンプルベースの自律パイプラインアーキテクチャである。
Planning Engineは、ペア化された入出力データセットを使用して変換計画を構築し、ワーカーがソースに適用する。
結果は、さまざまなドメイン、ファイル構造、ファイルサイズからなる14のデータセットにまたがる有望な一般化能力を示している。
論文 参考訳(メタデータ) (2025-07-30T21:46:22Z) - VerilogDB: The Largest, Highest-Quality Dataset with a Preprocessing Framework for LLM-based RTL Generation [1.0798445660490976]
大規模言語モデル(LLM)は、特にレジスタ転送レベル(RTL)コード生成を通じて、ハードウェア設計自動化において人気が高まっている。
データベース(DB)の作成と管理を含む3段階の自動化プロセスを通じて,ロバストなVerilogデータセットを構築した。
得られたデータセットは、20,392のVerilogサンプルと751MBのVerilogコードデータからなる。
論文 参考訳(メタデータ) (2025-07-09T17:06:54Z) - KramaBench: A Benchmark for AI Systems on Data-to-Insight Pipelines over Data Lakes [17.76903247601012]
104個の実世界のデータサイエンスパイプラインを手作業でキュレートしたベンチマークであるKRAMABENCHを紹介する。
これらのパイプラインは、データ処理におけるAIシステムのエンドツーエンド機能をテストする。
以上の結果から,既存のアウト・オブ・ボックスモデルでは,適切なデータサイエンスコード生成タスクを十分に解決できるが,既存のアウト・オブ・ボックスモデルでは不十分であることが示唆された。
論文 参考訳(メタデータ) (2025-06-06T21:18:45Z) - ELT-Bench: An End-to-End Benchmark for Evaluating AI Agents on ELT Pipelines [4.556817293680431]
ELT-BenchはAIエージェントがExtract-Load-Transformパイプラインを構築する能力を評価するためのエンドツーエンドベンチマークである。
ELT-Benchは、さまざまなドメインにわたる835のソーステーブルと203のデータモデルを含む100のパイプラインで構成されている。
ELT-Bench上の6つの人気のあるLarge Language Model(LLM)を用いて、Spider-AgentとSWE-Agentの2つの代表的なコードエージェントフレームワークを評価する。
論文 参考訳(メタデータ) (2025-04-07T08:03:36Z) - Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。