Fugu-MT 論文翻訳(概要): ELT-Bench: An End-to-End Benchmark for Evaluating AI Agents on ELT Pipelines

論文の概要: ELT-Bench: An End-to-End Benchmark for Evaluating AI Agents on ELT Pipelines

arxiv url: http://arxiv.org/abs/2504.04808v2
Date: Mon, 14 Apr 2025 19:46:56 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-25 06:47:34.711183
Title: ELT-Bench: An End-to-End Benchmark for Evaluating AI Agents on ELT Pipelines
Title（参考訳）: ELT-Bench: ELTパイプライン上でAIエージェントを評価するためのエンドツーエンドベンチマーク
Authors: Tengjun Jin, Yuxuan Zhu, Daniel Kang,
Abstract要約: ELT-BenchはAIエージェントがExtract-Load-Transformパイプラインを構築する能力を評価するためのエンドツーエンドベンチマークである。 ELT-Benchは、さまざまなドメインにわたる835のソーステーブルと203のデータモデルを含む100のパイプラインで構成されている。 ELT-Bench上の6つの人気のあるLarge Language Model(LLM)を用いて、Spider-AgentとSWE-Agentの2つの代表的なコードエージェントフレームワークを評価する。
参考スコア（独自算出の注目度）: 4.556817293680431
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Practitioners are increasingly turning to Extract-Load-Transform (ELT) pipelines with the widespread adoption of cloud data warehouses. However, designing these pipelines often involves significant manual work to ensure correctness. Recent advances in AI-based methods, which have shown strong capabilities in data tasks, such as text-to-SQL, present an opportunity to alleviate manual efforts in developing ELT pipelines. Unfortunately, current benchmarks in data engineering only evaluate isolated tasks, such as using data tools and writing data transformation queries, leaving a significant gap in evaluating AI agents for generating end-to-end ELT pipelines. To fill this gap, we introduce ELT-Bench, an end-to-end benchmark designed to assess the capabilities of AI agents to build ELT pipelines. ELT-Bench consists of 100 pipelines, including 835 source tables and 203 data models across various domains. By simulating realistic scenarios involving the integration of diverse data sources and the use of popular data tools, ELT-Bench evaluates AI agents' abilities in handling complex data engineering workflows. AI agents must interact with databases and data tools, write code and SQL queries, and orchestrate every pipeline stage. We evaluate two representative code agent frameworks, Spider-Agent and SWE-Agent, using six popular Large Language Models (LLMs) on ELT-Bench. The highest-performing agent, Spider-Agent Claude-3.7-Sonnet with extended thinking, correctly generates only 3.9% of data models, with an average cost of $4.30 and 89.3 steps per pipeline. Our experimental results demonstrate the challenges of ELT-Bench and highlight the need for a more advanced AI agent to reduce manual effort in ELT workflows. Our code and data are available at https://github.com/uiuc-kang-lab/ELT-Bench.
Abstract（参考訳）: クラウドデータウェアハウスの普及に伴い、エクストラクト・ロード・トランスフォーメーション(ELT)パイプラインへの移行が進んでいる。しかしながら、これらのパイプラインを設計するには、正確性を保証するための重要な手作業が伴うことが多い。 AIベースの手法の最近の進歩は、テキストからSQLのようなデータタスクに強力な能力を示しており、ETLパイプラインの開発における手作業の軽減の機会を与えている。残念ながら、データエンジニアリングの現在のベンチマークでは、データツールの使用やデータ変換クエリの記述など、独立したタスクのみを評価しており、エンドツーエンドのETLパイプラインを生成するためのAIエージェントの評価において、大きなギャップを残している。このギャップを埋めるために、AIエージェントがETLパイプラインを構築する能力を評価するように設計されたエンドツーエンドベンチマークであるETL-Benchを紹介します。 ELT-Benchは、さまざまなドメインにわたる835のソーステーブルと203のデータモデルを含む100のパイプラインで構成されている。多様なデータソースの統合と一般的なデータツールの使用に関する現実的なシナリオをシミュレートすることで、ETL-Benchは複雑なデータエンジニアリングワークフローを扱うAIエージェントの能力を評価する。 AIエージェントはデータベースやデータツールと対話し、コードとSQLクエリを記述し、パイプラインステージ毎にオーケストレーションする必要がある。 ELT-Bench上の6つの人気のあるLarge Language Model(LLM)を用いて、Spider-AgentとSWE-Agentの2つの代表的なコードエージェントフレームワークを評価する。最も優れたエージェントであるスパイダー・アジェント・クロード-3.7-ソネットは、正確にデータモデルの3.9%しか生成せず、1パイプラインあたりの平均コストは4.30ドルと89.3ステップである。 ELT-Benchの課題を実証し,ERTワークフローにおける手作業の軽減を目的とした,より高度なAIエージェントの必要性を強調した。私たちのコードとデータはhttps://github.com/uiuc-kang-lab/ELT-Bench.comで公開されています。

関連論文リスト

FlowETL: An Autonomous Example-Driven Pipeline for Data Engineering [1.3599496385950987]
FlowETLは、入力データセットの自動標準化と準備のために設計された、サンプルベースの自律パイプラインアーキテクチャである。 Planning Engineは、ペア化された入出力データセットを使用して変換計画を構築し、ワーカーがソースに適用する。結果は、さまざまなドメイン、ファイル構造、ファイルサイズからなる14のデータセットにまたがる有望な一般化能力を示している。
論文参考訳（メタデータ） (2025-07-30T21:46:22Z)
KramaBench: A Benchmark for AI Systems on Data-to-Insight Pipelines over Data Lakes [20.75018548918123]
104個の実世界のデータサイエンスパイプラインを手作業でキュレートしたベンチマークであるKRAMABENCHを紹介する。これらのパイプラインは、データ処理におけるAIシステムのエンドツーエンド機能をテストする。以上の結果から,既存のアウト・オブ・ボックスモデルでは,適切なデータサイエンスコード生成タスクを十分に解決できるが,既存のアウト・オブ・ボックスモデルでは不十分であることが示唆された。
論文参考訳（メタデータ） (2025-06-06T21:18:45Z)
LAM SIMULATOR: Advancing Data Generation for Large Action Model Training via Online Exploration and Trajectory Feedback [121.78866929908871]
AIエージェントのための大規模アクションモデル(LAM)は、素晴らしいポテンシャルを提供するが、高品質なトレーニングデータを必要とするため、課題に直面している。 LAM SIMULATORは,高品質なフィードバックによるエージェントタスクのオンライン探索を目的とした総合的なフレームワークである。本フレームワークは,動的タスククエリジェネレータ,広範囲なツールコレクション,および大規模言語モデル(LLM)エージェントがツールを呼び出し,リアルタイムフィードバックを受信できる対話型環境を備えている。
論文参考訳（メタデータ） (2025-06-02T22:36:02Z)
Text embedding models can be great data engineers [0.0]
テキスト埋め込みによる自動データエンジニアリングパイプラインであるADEPTを提案する。 ADEPTは、さまざまなデータセットセットにおいて、最も優れた既存のベンチマークよりも優れていることを示す。
論文参考訳（メタデータ） (2025-05-20T18:12:19Z)
PROMPTEVALS: A Dataset of Assertions and Guardrails for Custom Production Large Language Model Pipelines [0.8148009849453334]
大規模言語モデル(LLM)は、さまざまなドメインにまたがる特殊な実運用データ処理パイプラインに、ますます多くデプロイされている。これらのアプリケーションの信頼性を向上させるためには、パイプラインと一緒に動作するLCM出力のアサーションやガードレールを作成することが不可欠である。本稿では,2087のパイプラインプロンプトのデータセットであるPrompTEVALSについて,12623のアサーション基準で紹介する。
論文参考訳（メタデータ） (2025-04-20T21:04:23Z)
Multi-modal Agent Tuning: Building a VLM-Driven Agent for Efficient Tool Usage [75.76940471949366]
本稿では,マルチモーダルツール使用データを自動的に生成するマルチモーダルエージェントチューニング手法を提案する。データ品質を維持するため、GPT-4oミニモデルにクエリ、ファイル、トラジェクトリを生成するよう促す。 T3-Agentは2つの人気のあるVLMの改良を一貫して達成している。
論文参考訳（メタデータ） (2024-12-20T07:00:46Z)
WorkflowLLM: Enhancing Workflow Orchestration Capability of Large Language Models [105.46456444315693]
ワークフローオーケストレーションにおける大規模言語モデルの能力を高めるための,データ中心のフレームワークであるLLMを提案する。最初は106,763のサンプルで大規模な微調整Benchを構築し、28のカテゴリにわたる83のアプリケーションから1,503のAPIをカバーしている。 LlamaLlamaは複雑なAPIをオーケストレーションする能力を示しながら、優れた一般化性能を実現している。
論文参考訳（メタデータ） (2024-11-08T09:58:02Z)
ToolACE: Winning the Points of LLM Function Calling [139.07157814653638]
ToolACEは、正確で複雑で多様なツール学習データを生成するように設計された自動エージェントパイプラインである。我々は、合成データに基づいてトレーニングされたモデルが、8Bパラメータだけで、バークレー・ファンクション・カリング・リーダーボード上で最先端のパフォーマンスを達成することを実証した。
論文参考訳（メタデータ） (2024-09-02T03:19:56Z)
Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows? [73.81908518992161]
我々は、プロのデータサイエンスとエンジニアリングに焦点を当てた最初のマルチモーダルエージェントベンチマークであるSpider2-Vを紹介する。 Spider2-Vは、本物のコンピュータ環境における現実世界のタスクを特徴とし、20のエンタープライズレベルのプロフェッショナルアプリケーションを組み込んでいる。これらのタスクは、エンタープライズデータソフトウェアシステムにおいて、コードを書き、GUIを管理することで、マルチモーダルエージェントがデータ関連のタスクを実行する能力を評価する。
論文参考訳（メタデータ） (2024-07-15T17:54:37Z)
Instrumentation and Analysis of Native ML Pipelines via Logical Query Plans [3.2362171533623054]
私たちは、データサイエンティストが機械学習パイプラインを開発し、検証し、監視し、分析するのを支援するために、高度に自動化されたソフトウェアプラットフォームを構想しています。一般的なライブラリに依存したMLパイプラインコードから"論理クエリプラン"を抽出する。これらの計画に基づいて、パイプラインのセマンティクスとインスツルメンタを自動で推論し、MLパイプラインを書き換えて、データサイエンティストが手動でアノテートしたり、コードを書き換えたりすることなく、さまざまなユースケースを可能にします。
論文参考訳（メタデータ） (2024-07-10T11:35:02Z)
AgentOhana: Design Unified Data and Training Pipeline for Effective Agent Learning [98.26836657967162]
textbfAgentOhanaは、さまざまなシナリオにまたがって、異なる環境からエージェントのトラジェクトリを集約する。 AIエージェント用に調整された大規模なアクションモデルである textbfxLAM-v0.1 は、さまざまなベンチマークで例外的なパフォーマンスを示している。
論文参考訳（メタデータ） (2024-02-23T18:56:26Z)
Accelerated Cloud for Artificial Intelligence (ACAI) [24.40451195277244]
我々は、エンドツーエンドのクラウドベースの機械学習プラットフォームであるAccelerated Cloud for AI (ACAI)を提案する。 ACAIは、インデックス付き、ラベル付き、検索可能なデータのクラウドストレージと、自動リソースプロビジョニング、ジョブスケジューリング、実験追跡を可能にする。自動プロビジョン装置は1.7倍のスピードアップと39%のコスト削減を実現し,典型的なMLのユースケースにおいて,ML科学者の実験時間を20%短縮することを示した。
論文参考訳（メタデータ） (2024-01-30T07:09:48Z)
InfiAgent-DABench: Evaluating Agents on Data Analysis Tasks [84.7788065721689]
本稿では,データ解析タスクにおけるLSMに基づくエージェントの評価に特化して設計された最初のベンチマークであるInfiAgent-DABenchを紹介する。このベンチマークには52のCSVファイルから得られた257のデータ分析質問からなるデータセットであるDAEvalが含まれている。エージェントフレームワーク上に構築し,DABench 上で GPT-3.5 を3.9% 上回る特殊エージェント DAAgent を開発した。
論文参考訳（メタデータ） (2024-01-10T19:04:00Z)
MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文参考訳（メタデータ） (2023-10-05T04:06:12Z)
Auto-Validate by-History: Auto-Program Data Quality Constraints to Validate Recurring Data Pipelines [41.39496264168388]
データパイプラインは、ML(Machine-Learning)およびBI(Business-Intelligence)アプリケーションを動かすために、現代の企業で広く利用されている。データ品質(DQ)の問題は、上流スキーマとデータドリフトが時間の経過とともに発生するため、繰り返しパイプラインに忍び込むことが多い。本稿では,繰り返しパイプラインにおけるDQ問題を自動的に検出するオートバイヒストリー(AVH)を提案する。
論文参考訳（メタデータ） (2023-06-04T17:53:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。