論文の概要: DSAEval: Evaluating Data Science Agents on a Wide Range of Real-World Data Science Problems
- arxiv url: http://arxiv.org/abs/2601.13591v1
- Date: Tue, 20 Jan 2026 04:44:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.155447
- Title: DSAEval: Evaluating Data Science Agents on a Wide Range of Real-World Data Science Problems
- Title(参考訳): DSAEval: リアルタイムデータサイエンス問題におけるデータサイエンスエージェントの評価
- Authors: Maojun Sun, Yifei Xie, Yue Wu, Ruijian Han, Binyan Jiang, Defeng Sun, Yancheng Yuan, Jian Huang,
- Abstract要約: DSAEvalは、285の多様なデータセットから得られた641の現実世界のデータサイエンス問題からなるベンチマークである。
DSAEvalには,(1)テキストや視覚を含む複数のモードからの観察をエージェントが解釈できるマルチモーダル環境知覚,(2)実世界のデータサイエンスプロジェクトの反復的・累積的性質を反映するマルチクエリインタラクション,(3)推論,コード,結果の全体的評価を提供するマルチ次元評価の3つの特徴がある。
- 参考スコア(独自算出の注目度): 21.193573505360266
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent LLM-based data agents aim to automate data science tasks ranging from data analysis to deep learning. However, the open-ended nature of real-world data science problems, which often span multiple taxonomies and lack standard answers, poses a significant challenge for evaluation. To address this, we introduce DSAEval, a benchmark comprising 641 real-world data science problems grounded in 285 diverse datasets, covering both structured and unstructured data (e.g., vision and text). DSAEval incorporates three distinctive features: (1) Multimodal Environment Perception, which enables agents to interpret observations from multiple modalities including text and vision; (2) Multi-Query Interactions, which mirror the iterative and cumulative nature of real-world data science projects; and (3) Multi-Dimensional Evaluation, which provides a holistic assessment across reasoning, code, and results. We systematically evaluate 11 advanced agentic LLMs using DSAEval. Our results show that Claude-Sonnet-4.5 achieves the strongest overall performance, GPT-5.2 is the most efficient, and MiMo-V2-Flash is the most cost-effective. We further demonstrate that multimodal perception consistently improves performance on vision-related tasks, with gains ranging from 2.04% to 11.30%. Overall, while current data science agents perform well on structured data and routine data anlysis workflows, substantial challenges remain in unstructured domains. Finally, we offer critical insights and outline future research directions to advance the development of data science agents.
- Abstract(参考訳): 最近のLLMベースのデータエージェントは、データ分析からディープラーニングまで、データサイエンスタスクを自動化することを目的としている。
しかし、実世界のデータサイエンス問題のオープンな性質は、しばしば複数の分類学にまたがり標準回答が欠如しているため、評価にとって大きな課題となっている。
DSAEvalは、285の多様なデータセットをベースとした641の現実世界のデータサイエンス問題からなるベンチマークで、構造化データと非構造化データ(例えば、ビジョンとテキスト)の両方をカバーする。
DSAEvalには,(1)テキストや視覚を含む複数のモードからの観察をエージェントが解釈できるマルチモーダル環境知覚,(2)実世界のデータサイエンスプロジェクトの反復的・累積的性質を反映するマルチクエリインタラクション,(3)推論,コード,結果の全体的評価を提供するマルチ次元評価の3つの特徴がある。
DSAEvalを用いて11種類の高度エージェントLSMを系統的に評価した。
以上の結果から,Claude-Sonnet-4.5が最も性能が優れ,GPT-5.2が最も効率が良く,MiMo-V2-Flashが最もコスト効率が高いことがわかった。
さらに、マルチモーダル認識は、2.04%から11.30%の範囲で、視覚関連タスクのパフォーマンスを継続的に改善することを示した。
全体として、現在のデータサイエンスエージェントは構造化データと通常のデータ分析ワークフローでうまく機能するが、非構造化ドメインでは大きな課題が残っている。
最後に、重要な洞察を提供し、データサイエンスエージェントの開発を進めるための今後の研究の方向性を概説する。
関連論文リスト
- Scaling Generalist Data-Analytic Agents [95.05161133349242]
DataMindは、汎用データ分析エージェントを構築するために設計されたスケーラブルなデータ合成およびエージェントトレーニングレシピである。
DataMindは、オープンソースのデータ分析エージェントを構築する上で重要な3つの課題に取り組む。
論文 参考訳(メタデータ) (2025-09-29T17:23:08Z) - DSBC : Data Science task Benchmarking with Context engineering [0.0]
データサイエンスエージェントとの実際のユーザインタラクションを反映するベンチマークを導入する。
3つのアプローチで3つの大規模言語モデル(LLM)を評価する。
論文 参考訳(メタデータ) (2025-07-31T08:32:37Z) - DSBench: How Far Are Data Science Agents from Becoming Data Science Experts? [58.330879414174476]
現実的なタスクでデータサイエンスエージェントを評価するためのベンチマークであるDSBenchを紹介する。
このベンチマークには、466のデータ分析タスクと、EloquenceとKaggleのコンペからソースされた74のデータモデリングタスクが含まれている。
現状のLLM, LVLM, エージェントを評価したところ, 最高のエージェントはデータ解析タスクの34.12%しか解決できず, RPG(Relative Performance Gap)は34.74%であった。
論文 参考訳(メタデータ) (2024-09-12T02:08:00Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
本稿では,72の科学分野をカバーするNature Communicationsの記事からまとめられた包括的データセットについて述べる。
2つのベンチマークタスク(図のキャプションと複数選択)で19のプロプライエタリモデルとオープンソースモデルを評価し,人手による注釈を行った。
タスク固有データを用いた細調整Qwen2-VL-7Bは、GPT-4oや人間の専門家でさえも、マルチチョイス評価において優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。