論文の概要: ELT-Bench-Verified: Benchmark Quality Issues Underestimate AI Agent Capabilities
- arxiv url: http://arxiv.org/abs/2603.29399v2
- Date: Thu, 02 Apr 2026 17:59:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:09.263302
- Title: ELT-Bench-Verified: Benchmark Quality Issues Underestimate AI Agent Capabilities
- Title(参考訳): ELT-Bench-Verified: ベンチマーク品質の問題 - AIエージェントの能力の過小評価
- Authors: Christopher Zanoli, Andrea Giovannini, Tengjun Jin, Ana Klimovic, Yotam Perlitz,
- Abstract要約: Extract-Load-Transformパイプラインは、労働集約的なデータエンジニアリングタスクであり、AI自動化の高インパクトターゲットである。
エンドツーエンドのETLパイプライン構築のための最初のベンチマークであるETL-Benchでは、AIエージェントが最初に成功率を低くした。
これらの結果を再検討し,エージェント能力を著しく過小評価する要因を2つ同定した。
- 参考スコア(独自算出の注目度): 4.5258165293324515
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Constructing Extract-Load-Transform (ELT) pipelines is a labor-intensive data engineering task and a high-impact target for AI automation. On ELT-Bench, the first benchmark for end-to-end ELT pipeline construction, AI agents initially showed low success rates, suggesting they lacked practical utility. We revisit these results and identify two factors causing a substantial underestimation of agent capabilities. First, re-evaluating ELT-Bench with upgraded large language models reveals that the extraction and loading stage is largely solved, while transformation performance improves significantly. Second, we develop an Auditor-Corrector methodology that combines scalable LLM-driven root-cause analysis with rigorous human validation (inter-annotator agreement Fleiss' kappa = 0.85) to audit benchmark quality. Applying this to ELT-Bench uncovers that most failed transformation tasks contain benchmark-attributable errors -- including rigid evaluation scripts, ambiguous specifications, and incorrect ground truth -- that penalize correct agent outputs. Based on these findings, we construct ELT-Bench-Verified, a revised benchmark with refined evaluation logic and corrected ground truth. Re-evaluating on this version yields significant improvement attributable entirely to benchmark correction. Our results show that both rapid model improvement and benchmark quality issues contributed to underestimating agent capabilities. More broadly, our findings echo observations of pervasive annotation errors in text-to-SQL benchmarks, suggesting quality issues are systemic in data engineering evaluation. Systematic quality auditing should be standard practice for complex agentic tasks. We release ELT-Bench-Verified to provide a more reliable foundation for progress in AI-driven data engineering automation.
- Abstract(参考訳): Extract-Load-Transform(ELT)パイプラインの構築は、労働集約型データエンジニアリングタスクであり、AI自動化のための高インパクトターゲットである。
エンドツーエンドのETLパイプライン構築のための最初のベンチマークであるETL-Benchでは、AIエージェントが最初、成功率が低く、実用性に欠けていたことが示唆された。
これらの結果を再検討し,エージェント能力を著しく過小評価する要因を2つ同定した。
第一に,改良された大規模言語モデルを用いたERT-Benchの再評価により,抽出およびロードステージが大幅に解決され,変換性能が大幅に向上した。
第2に,拡張性LLM駆動根本原因分析と厳密な人間検証(Fleiss' kappa = 0.85)を組み合わせて,ベンチマーク品質の評価を行うオーディタ・コレクタ手法を開発した。
このことをETL-Benchに適用することで、ほとんどの失敗する変換タスクは、厳密な評価スクリプト、曖昧な仕様、不正な基底真理を含む、適切なエージェント出力をペナルライズするベンチマーク帰属的なエラーを含むことが判明した。
これらの結果に基づき,改良された評価論理と修正された土台真理のベンチマークであるELT-Bench-Verifiedを構築した。
このバージョンの再評価は、ベンチマークの修正に大きく貢献する。
その結果,モデル改善とベンチマーク品質の問題の両方が,エージェント能力の過小評価に寄与していることがわかった。
より広範に,テキスト・トゥ・SQLベンチマークにおける広範囲なアノテーションエラーの観察を反映し,データ工学的評価において品質の問題が体系的であることを示唆している。
システム品質監査は、複雑なエージェントタスクの標準的なプラクティスであるべきです。
ELT-Bench-Verifiedをリリースし、AI駆動のデータエンジニアリング自動化の進歩のための、より信頼性の高い基盤を提供します。
関連論文リスト
- PRIME: A Process-Outcome Alignment Benchmark for Verifiable Reasoning in Mathematics and Engineering [71.15346406323827]
本稿では,プロセス・アウトカム・アライメント・アライメント・検証における検証結果を評価するベンチマークであるPRIMEを紹介する。
現在の検証器は、しばしば導出欠陥を検出するのに失敗する。
本稿では,PRIMEで選択した検証手法を利用したプロセス認識型RLVRトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2026-02-12T04:45:01Z) - AACR-Bench: Evaluating Automatic Code Review with Holistic Repository-Level Context [10.769682566098695]
AACR-Benchは、複数のプログラミング言語にまたがる完全なクロスファイルコンテキストを提供する包括的なベンチマークである。
従来のデータセットとは異なり、AACR-Benchは潜伏する欠陥を明らかにするために"AIアシスト、エキスパート検証"のアノテーションパイプラインを使用している。
論文 参考訳(メタデータ) (2026-01-27T11:28:44Z) - DataGovBench: Benchmarking LLM Agents for Real-World Data Governance Workflows [22.16698382751559]
大規模言語モデル(LLM)は、ユーザの意図をコードに変換することによって、データガバナンスを自動化するための有望なソリューションとして登場した。
既存の自動データサイエンスのベンチマークでは、スニペットレベルのコーディングや高レベルの分析が強調されることが多い。
データGovBenchは、実際のケースのデータに基づいて構築された、現実世界のシナリオに基盤を置く150の多様なタスクを特徴とするベンチマークです。
論文 参考訳(メタデータ) (2025-12-04T03:25:12Z) - Automatic Building Code Review: A Case Study [6.530899637501737]
建設担当者は、プロジェクトのサイズと複雑さが増大するにつれて、労働集約的で、エラーを起こし、コストがかかる設計文書のレビューに直面します。
本研究では,BIMに基づくデータ抽出と自動検証を統合したエージェント駆動型フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-03T00:30:14Z) - Automatic Failure Attribution and Critical Step Prediction Method for Multi-Agent Systems Based on Causal Inference [8.823529310904162]
マルチエージェントシステム(MAS)は複雑なタスクの自動化に不可欠であるが、その実践的展開は障害帰属の課題によって妨げられている。
マルチグラニュラリティ因果推論に基づくMASのための最初の失敗帰属フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-10T15:22:00Z) - Automated Validation of LLM-based Evaluators for Software Engineering Artifacts [0.7548538278943616]
REFINE(Ranking Evaluators for FIne grained Nuanced Evaluation)は、大規模言語モデル(LLM)をベンチマークする自動化フレームワークである。
REFINEは、徐々に品質が低下したアーティファクトを自動的に合成するために、新しい生成技術を適用している。
それぞれの候補評価器の構成を、そのランクが期待された順序にどの程度近いかを測定することで定量化する。
論文 参考訳(メタデータ) (2025-08-04T18:52:01Z) - Establishing Best Practices for Building Rigorous Agentic Benchmarks [94.69724201080155]
多くのエージェントベンチマークがタスク設定や報酬設計に問題があることを示す。
このような問題は、エージェントのパフォーマンスを最大100%相対的に過小評価することにつながる可能性がある。
我々はベンチマーク構築経験から要約したガイドラインの集合であるAgentic Benchmark Checklist (ABC)を紹介した。
論文 参考訳(メタデータ) (2025-07-03T17:35:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。