論文の概要: ELT-Bench: An End-to-End Benchmark for Evaluating AI Agents on ELT Pipelines
- arxiv url: http://arxiv.org/abs/2504.04808v2
- Date: Mon, 14 Apr 2025 19:46:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:07:08.559731
- Title: ELT-Bench: An End-to-End Benchmark for Evaluating AI Agents on ELT Pipelines
- Title(参考訳): ELT-Bench: ELTパイプライン上でAIエージェントを評価するためのエンドツーエンドベンチマーク
- Authors: Tengjun Jin, Yuxuan Zhu, Daniel Kang,
- Abstract要約: ELT-BenchはAIエージェントがExtract-Load-Transformパイプラインを構築する能力を評価するためのエンドツーエンドベンチマークである。
ELT-Benchは、さまざまなドメインにわたる835のソーステーブルと203のデータモデルを含む100のパイプラインで構成されている。
ELT-Bench上の6つの人気のあるLarge Language Model(LLM)を用いて、Spider-AgentとSWE-Agentの2つの代表的なコードエージェントフレームワークを評価する。
- 参考スコア(独自算出の注目度): 4.556817293680431
- License:
- Abstract: Practitioners are increasingly turning to Extract-Load-Transform (ELT) pipelines with the widespread adoption of cloud data warehouses. However, designing these pipelines often involves significant manual work to ensure correctness. Recent advances in AI-based methods, which have shown strong capabilities in data tasks, such as text-to-SQL, present an opportunity to alleviate manual efforts in developing ELT pipelines. Unfortunately, current benchmarks in data engineering only evaluate isolated tasks, such as using data tools and writing data transformation queries, leaving a significant gap in evaluating AI agents for generating end-to-end ELT pipelines. To fill this gap, we introduce ELT-Bench, an end-to-end benchmark designed to assess the capabilities of AI agents to build ELT pipelines. ELT-Bench consists of 100 pipelines, including 835 source tables and 203 data models across various domains. By simulating realistic scenarios involving the integration of diverse data sources and the use of popular data tools, ELT-Bench evaluates AI agents' abilities in handling complex data engineering workflows. AI agents must interact with databases and data tools, write code and SQL queries, and orchestrate every pipeline stage. We evaluate two representative code agent frameworks, Spider-Agent and SWE-Agent, using six popular Large Language Models (LLMs) on ELT-Bench. The highest-performing agent, Spider-Agent Claude-3.7-Sonnet with extended thinking, correctly generates only 3.9% of data models, with an average cost of $4.30 and 89.3 steps per pipeline. Our experimental results demonstrate the challenges of ELT-Bench and highlight the need for a more advanced AI agent to reduce manual effort in ELT workflows. Our code and data are available at https://github.com/uiuc-kang-lab/ELT-Bench.
- Abstract(参考訳): クラウドデータウェアハウスの普及に伴い、エクストラクト・ロード・トランスフォーメーション(ELT)パイプラインへの移行が進んでいる。
しかしながら、これらのパイプラインを設計するには、正確性を保証するための重要な手作業が伴うことが多い。
AIベースの手法の最近の進歩は、テキストからSQLのようなデータタスクに強力な能力を示しており、ETLパイプラインの開発における手作業の軽減の機会を与えている。
残念ながら、データエンジニアリングの現在のベンチマークでは、データツールの使用やデータ変換クエリの記述など、独立したタスクのみを評価しており、エンドツーエンドのETLパイプラインを生成するためのAIエージェントの評価において、大きなギャップを残している。
このギャップを埋めるために、AIエージェントがETLパイプラインを構築する能力を評価するように設計されたエンドツーエンドベンチマークであるETL-Benchを紹介します。
ELT-Benchは、さまざまなドメインにわたる835のソーステーブルと203のデータモデルを含む100のパイプラインで構成されている。
多様なデータソースの統合と一般的なデータツールの使用に関する現実的なシナリオをシミュレートすることで、ETL-Benchは複雑なデータエンジニアリングワークフローを扱うAIエージェントの能力を評価する。
AIエージェントはデータベースやデータツールと対話し、コードとSQLクエリを記述し、パイプラインステージ毎にオーケストレーションする必要がある。
ELT-Bench上の6つの人気のあるLarge Language Model(LLM)を用いて、Spider-AgentとSWE-Agentの2つの代表的なコードエージェントフレームワークを評価する。
最も優れたエージェントであるスパイダー・アジェント・クロード-3.7-ソネットは、正確にデータモデルの3.9%しか生成せず、1パイプラインあたりの平均コストは4.30ドルと89.3ステップである。
ELT-Benchの課題を実証し,ERTワークフローにおける手作業の軽減を目的とした,より高度なAIエージェントの必要性を強調した。
私たちのコードとデータはhttps://github.com/uiuc-kang-lab/ELT-Bench.comで公開されています。
関連論文リスト
- Multi-modal Agent Tuning: Building a VLM-Driven Agent for Efficient Tool Usage [75.76940471949366]
本稿では,マルチモーダルツール使用データを自動的に生成するマルチモーダルエージェントチューニング手法を提案する。
データ品質を維持するため、GPT-4oミニモデルにクエリ、ファイル、トラジェクトリを生成するよう促す。
T3-Agentは2つの人気のあるVLMの改良を一貫して達成している。
論文 参考訳(メタデータ) (2024-12-20T07:00:46Z) - WorkflowLLM: Enhancing Workflow Orchestration Capability of Large Language Models [105.46456444315693]
ワークフローオーケストレーションにおける大規模言語モデルの能力を高めるための,データ中心のフレームワークであるLLMを提案する。
最初は106,763のサンプルで大規模な微調整Benchを構築し、28のカテゴリにわたる83のアプリケーションから1,503のAPIをカバーしている。
LlamaLlamaは複雑なAPIをオーケストレーションする能力を示しながら、優れた一般化性能を実現している。
論文 参考訳(メタデータ) (2024-11-08T09:58:02Z) - ToolACE: Winning the Points of LLM Function Calling [139.07157814653638]
ToolACEは、正確で複雑で多様なツール学習データを生成するように設計された自動エージェントパイプラインである。
我々は、合成データに基づいてトレーニングされたモデルが、8Bパラメータだけで、バークレー・ファンクション・カリング・リーダーボード上で最先端のパフォーマンスを達成することを実証した。
論文 参考訳(メタデータ) (2024-09-02T03:19:56Z) - Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows? [73.81908518992161]
我々は、プロのデータサイエンスとエンジニアリングに焦点を当てた最初のマルチモーダルエージェントベンチマークであるSpider2-Vを紹介する。
Spider2-Vは、本物のコンピュータ環境における現実世界のタスクを特徴とし、20のエンタープライズレベルのプロフェッショナルアプリケーションを組み込んでいる。
これらのタスクは、エンタープライズデータソフトウェアシステムにおいて、コードを書き、GUIを管理することで、マルチモーダルエージェントがデータ関連のタスクを実行する能力を評価する。
論文 参考訳(メタデータ) (2024-07-15T17:54:37Z) - Instrumentation and Analysis of Native ML Pipelines via Logical Query Plans [3.2362171533623054]
私たちは、データサイエンティストが機械学習パイプラインを開発し、検証し、監視し、分析するのを支援するために、高度に自動化されたソフトウェアプラットフォームを構想しています。
一般的なライブラリに依存したMLパイプラインコードから"論理クエリプラン"を抽出する。
これらの計画に基づいて、パイプラインのセマンティクスとインスツルメンタを自動で推論し、MLパイプラインを書き換えて、データサイエンティストが手動でアノテートしたり、コードを書き換えたりすることなく、さまざまなユースケースを可能にします。
論文 参考訳(メタデータ) (2024-07-10T11:35:02Z) - AgentOhana: Design Unified Data and Training Pipeline for Effective Agent Learning [98.26836657967162]
textbfAgentOhanaは、さまざまなシナリオにまたがって、異なる環境からエージェントのトラジェクトリを集約する。
AIエージェント用に調整された大規模なアクションモデルである textbfxLAM-v0.1 は、さまざまなベンチマークで例外的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-23T18:56:26Z) - Accelerated Cloud for Artificial Intelligence (ACAI) [24.40451195277244]
我々は、エンドツーエンドのクラウドベースの機械学習プラットフォームであるAccelerated Cloud for AI (ACAI)を提案する。
ACAIは、インデックス付き、ラベル付き、検索可能なデータのクラウドストレージと、自動リソースプロビジョニング、ジョブスケジューリング、実験追跡を可能にする。
自動プロビジョン装置は1.7倍のスピードアップと39%のコスト削減を実現し,典型的なMLのユースケースにおいて,ML科学者の実験時間を20%短縮することを示した。
論文 参考訳(メタデータ) (2024-01-30T07:09:48Z) - Auto-Validate by-History: Auto-Program Data Quality Constraints to
Validate Recurring Data Pipelines [41.39496264168388]
データパイプラインは、ML(Machine-Learning)およびBI(Business-Intelligence)アプリケーションを動かすために、現代の企業で広く利用されている。
データ品質(DQ)の問題は、上流スキーマとデータドリフトが時間の経過とともに発生するため、繰り返しパイプラインに忍び込むことが多い。
本稿では,繰り返しパイプラインにおけるDQ問題を自動的に検出するオートバイヒストリー(AVH)を提案する。
論文 参考訳(メタデータ) (2023-06-04T17:53:30Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。