論文の概要: Benchmarking AI Performance on End-to-End Data Science Projects
- arxiv url: http://arxiv.org/abs/2602.14284v1
- Date: Sun, 15 Feb 2026 19:16:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:49.93662
- Title: Benchmarking AI Performance on End-to-End Data Science Projects
- Title(参考訳): エンドツーエンドデータサイエンスプロジェクトにおけるAIパフォーマンスのベンチマーク
- Authors: Evelyn Hughes, Rohan Alexander,
- Abstract要約: 我々は40のエンドツーエンドデータサイエンスプロジェクトのベンチマークを作成し、関連する粗末な評価を行った。
これらを使用して、生成AIモデルによって生成されたデータサイエンスプロジェクトを体系的に評価する、自動グレーティングパイプラインを構築します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data science is an integrated workflow of technical, analytical, communication, and ethical skills, but current AI benchmarks focus mostly on constituent parts. We test whether AI models can generate end-to-end data science projects. To do this we create a benchmark of 40 end-to-end data science projects with associated rubric evaluations. We use these to build an automated grading pipeline that systematically evaluates the data science projects produced by generative AI models. We find the extent to which generative AI models can complete end-to-end data science projects varies considerably by model. Most recent models did well on structured tasks, but there were considerable differences on tasks that needed judgment. These findings suggest that while AI models could approximate entry-level data scientists on routine tasks, they require verification.
- Abstract(参考訳): データサイエンスは、技術的、分析的、コミュニケーション、倫理的スキルの統合ワークフローであるが、現在のAIベンチマークは主に構成部品に焦点を当てている。
AIモデルがエンドツーエンドのデータサイエンスプロジェクトを生成するかどうかをテストする。
これを行うために、40のエンドツーエンドデータサイエンスプロジェクトのベンチマークを作成し、関連する粗末な評価を行います。
これらを使用して、生成AIモデルによって生成されたデータサイエンスプロジェクトを体系的に評価する、自動グレーティングパイプラインを構築します。
生成AIモデルがエンドツーエンドのデータサイエンスプロジェクトを完成させる程度は、モデルによって大きく異なります。
最近のモデルは構造化されたタスクでうまく機能したが、判断を必要とするタスクにはかなりの違いがあった。
これらの結果は、AIモデルはルーチンタスクでエントリーレベルのデータサイエンティストを近似できるが、検証が必要であることを示唆している。
関連論文リスト
- AI, Humans, and Data Science: Optimizing Roles Across Workflows and the Workforce [0.0]
我々は、分析、生成、エージェントAIの可能性と限界を考慮し、データサイエンティストを増強したり、伝統的に人間のアナリストや研究者によってなされたタスクを引き受ける。
従来の調査分析が問題になったのは、統計ソフトウェアの使用が簡単になったことで、研究者が完全に理解できなかった分析を行えなくなった時だった。
論文 参考訳(メタデータ) (2025-07-15T17:59:06Z) - DSBench: How Far Are Data Science Agents from Becoming Data Science Experts? [58.330879414174476]
現実的なタスクでデータサイエンスエージェントを評価するためのベンチマークであるDSBenchを紹介する。
このベンチマークには、466のデータ分析タスクと、EloquenceとKaggleのコンペからソースされた74のデータモデリングタスクが含まれている。
現状のLLM, LVLM, エージェントを評価したところ, 最高のエージェントはデータ解析タスクの34.12%しか解決できず, RPG(Relative Performance Gap)は34.74%であった。
論文 参考訳(メタデータ) (2024-09-12T02:08:00Z) - What About the Data? A Mapping Study on Data Engineering for AI Systems [0.0]
AIシステムのためのデータ準備方法を知っているデータエンジニアの必要性はますます高まっている。
2019年1月から2023年6月までの間に25の関連論文を発見し、AIデータエンジニアリング活動について説明した。
本稿では,AIのデータ工学に関する知識の体系について概観する。
論文 参考訳(メタデータ) (2024-02-07T16:31:58Z) - Data-centric Artificial Intelligence: A Survey [47.24049907785989]
近年、AIにおけるデータの役割は大幅に拡大し、データ中心AIという新たな概念が生まれた。
本稿では,データ中心型AIの必要性について論じ,続いて3つの一般的なデータ中心型目標の全体像を考察する。
これは、データライフサイクルのさまざまな段階にわたるタスクのグローバルなビューを提供する、初めての総合的な調査である、と私たちは信じています。
論文 参考訳(メタデータ) (2023-03-17T17:44:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。