論文の概要: DAComp: Benchmarking Data Agents across the Full Data Intelligence Lifecycle
- arxiv url: http://arxiv.org/abs/2512.04324v1
- Date: Wed, 03 Dec 2025 23:21:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:45.925212
- Title: DAComp: Benchmarking Data Agents across the Full Data Intelligence Lifecycle
- Title(参考訳): DAComp: 完全なデータインテリジェンスライフサイクルにおけるデータエージェントのベンチマーク
- Authors: Fangyu Lei, Jinxiang Meng, Yiming Huang, Junjie Zhao, Yitong Zhang, Jianwen Luo, Xin Zou, Ruiyi Yang, Wenbo Shi, Yan Gao, Shizhu He, Zuo Wang, Qian Liu, Yang Wang, Ke Wang, Jun Zhao, Kang Liu,
- Abstract要約: 実世界のエンタープライズデータインテリジェンスには、ソースを分析可能なテーブルに変換するデータエンジニアリングや、これらのテーブルを意思決定指向の洞察に変換するデータ分析が含まれる。
複雑な機能を反映した210タスクのベンチマークであるDACompを紹介します。
- 参考スコア(独自算出の注目度): 41.576417987200074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-world enterprise data intelligence workflows encompass data engineering that turns raw sources into analytical-ready tables and data analysis that convert those tables into decision-oriented insights. We introduce DAComp, a benchmark of 210 tasks that mirrors these complex workflows. Data engineering (DE) tasks require repository-level engineering on industrial schemas, including designing and building multi-stage SQL pipelines from scratch and evolving existing systems under evolving requirements. Data analysis (DA) tasks pose open-ended business problems that demand strategic planning, exploratory analysis through iterative coding, interpretation of intermediate results, and the synthesis of actionable recommendations. Engineering tasks are scored through execution-based, multi-metric evaluation. Open-ended tasks are assessed by a reliable, experimentally validated LLM-judge, which is guided by hierarchical, meticulously crafted rubrics. Our experiments reveal that even state-of-the-art agents falter on DAComp. Performance on DE tasks is particularly low, with success rates under 20%, exposing a critical bottleneck in holistic pipeline orchestration, not merely code generation. Scores on DA tasks also average below 40%, highlighting profound deficiencies in open-ended reasoning and demonstrating that engineering and analysis are distinct capabilities. By clearly diagnosing these limitations, DAComp provides a rigorous and realistic testbed to drive the development of truly capable autonomous data agents for enterprise settings. Our data and code are available at https://da-comp.github.io
- Abstract(参考訳): 実世界のエンタープライズデータインテリジェンスワークフローには、ソースを分析可能なテーブルに変換するデータエンジニアリングや、これらのテーブルを意思決定指向の洞察に変換するデータ分析が含まれる。
複雑なワークフローを反映した210タスクのベンチマークであるDACompを紹介します。
データエンジニアリング(DE)タスクは、スクラッチからマルチステージSQLパイプラインを設計、構築し、進化する要求の下で既存のシステムを進化させるなど、産業スキーマ上のリポジトリレベルのエンジニアリングを必要とする。
データ分析(DA)タスクは、戦略的計画、反復的コーディングによる探索的分析、中間結果の解釈、実行可能なレコメンデーションの合成といった、オープンなビジネス上の問題を引き起こす。
エンジニアリングタスクは、実行ベースでマルチメトリックな評価によって評価される。
オープンエンドタスクは信頼性があり、実験的に検証されたLSM-judgeによって評価される。
実験の結果,最先端のエージェントでさえDACompに干渉していることがわかった。
DEタスクのパフォーマンスは特に低く、成功率は20%以下であり、単なるコード生成ではなく、全体的パイプラインオーケストレーションにおいて重要なボトルネックを露呈している。
DAタスクのスコアは平均40%以下で、オープンエンド推論の重大な欠陥を強調し、エンジニアリングと分析が別個の能力であることを示す。
これらの制限を明確に診断することにより、DACompは、エンタープライズ設定のための真に有能な自律データエージェントの開発を促進するために、厳格で現実的なテストベッドを提供する。
私たちのデータとコードはhttps://da-comp.github.ioで公開されています。
関連論文リスト
- CoDA: Agentic Systems for Collaborative Data Visualization [57.270599188947294]
深層研究はデータ分析に革命をもたらしたが、データサイエンティストは依然として手作業による視覚化にかなりの時間を費やしている。
単純なシングルエージェントシステムやマルチエージェントシステムを含む既存のアプローチは、しばしばタスクを単純化する。
本稿では,メタデータ分析,タスク計画,コード生成,自己回帰に特殊なLLMエージェントを利用するマルチエージェントシステムであるCoDAを紹介する。
論文 参考訳(メタデータ) (2025-10-03T17:30:16Z) - Data Agent: A Holistic Architecture for Orchestrating Data+AI Ecosystems [8.816332263275305]
従来のData+AIシステムは、システムパイプラインのオーケストレーションに人間の専門家に大きく依存しています。
既存のData+AIシステムは、セマンティック理解、推論、計画の能力に制限がある。
データエージェント(Data Agent) - データ+AIエコシステムのオーケストレーションを目的とした包括的なアーキテクチャ。
論文 参考訳(メタデータ) (2025-07-02T11:04:49Z) - DABstep: Data Agent Benchmark for Multi-step Reasoning [2.6709582216950767]
DABstepは、現実的なマルチステップデータ分析タスクでAIエージェントを評価するための新しいベンチマークである。
ファイナンシャル・アナリティクス・プラットフォームから派生した450以上の現実世界の課題で構成されている。
Dabstepは、自律的なデータ分析の研究を加速するために、公開のリーダーボードとツールキットと共にリリースされた。
論文 参考訳(メタデータ) (2025-06-30T10:49:21Z) - MMTU: A Massive Multi-Task Table Understanding and Reasoning Benchmark [51.30875219634243]
MMTUは、25の現実世界のテーブルタスクに30万以上の質問がある大規模なベンチマークである。
MMTUは、専門家レベルで実際のテーブルを理解し、推論し、操作できるモデルを包括的に評価するように設計されている。
MMTUはテーブル理解、推論、コーディングといった、今日のフロンティアモデルにとって困難なスキルの組み合わせを必要としています。
論文 参考訳(メタデータ) (2025-06-05T21:05:03Z) - DatawiseAgent: A Notebook-Centric LLM Agent Framework for Adaptive and Robust Data Science Automation [10.390461679868197]
我々は、適応的で堅牢なデータサイエンス自動化のためのノートブック中心の大規模言語モデル(LLM)エージェントフレームワークであるDatawiseAgentを紹介する。
人間のデータサイエンティストが計算ノートブックでどのように機能するかに触発されたDatawiseAgentは、統一された相互作用表現とマルチステージアーキテクチャを導入した。
論文 参考訳(メタデータ) (2025-03-10T08:32:33Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - CMDBench: A Benchmark for Coarse-to-fine Multimodal Data Discovery in Compound AI Systems [10.71630696651595]
知識集約的なタスクを達成するエージェントとしてLLMを使用する複合AIシステム(CAS)は、データベースやAIコミュニティにおいて大きな関心を集めている。
マルチモーダルデータソースのサイロは、そのタスクを達成するための適切なデータソースを特定するのを困難にしている。
我々はエンタープライズデータプラットフォームの複雑さをモデル化したベンチマークであるCMDBenchを提案する。
論文 参考訳(メタデータ) (2024-06-02T01:10:41Z) - DACO: Towards Application-Driven and Comprehensive Data Analysis via Code Generation [83.30006900263744]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。
LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。
我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文 参考訳(メタデータ) (2024-03-04T22:47:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。