論文の概要: DSBC : Data Science task Benchmarking with Context engineering
- arxiv url: http://arxiv.org/abs/2507.23336v1
- Date: Thu, 31 Jul 2025 08:32:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:09.321073
- Title: DSBC : Data Science task Benchmarking with Context engineering
- Title(参考訳): DSBC : コンテキスト工学を用いたデータサイエンスタスクベンチマーク
- Authors: Ram Mohan Rao Kadiyala, Siddhant Gupta, Jebish Purbey, Giulio Martini, Suman Debnath, Hamza Farooq,
- Abstract要約: データサイエンスエージェントとの実際のユーザインタラクションを反映するベンチマークを導入する。
3つのアプローチで3つの大規模言語モデル(LLM)を評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advances in large language models (LLMs) have significantly impacted data science workflows, giving rise to specialized data science agents designed to automate analytical tasks. Despite rapid adoption, systematic benchmarks evaluating the efficacy and limitations of these agents remain scarce. In this paper, we introduce a comprehensive benchmark specifically crafted to reflect real-world user interactions with data science agents by observing usage of our commercial applications. We evaluate three LLMs: Claude-4.0-Sonnet, Gemini-2.5-Flash, and OpenAI-o4-Mini across three approaches: zero-shot with context engineering, multi-step with context engineering, and with SmolAgent. Our benchmark assesses performance across a diverse set of eight data science task categories, additionally exploring the sensitivity of models to common prompting issues, such as data leakage and slightly ambiguous instructions. We further investigate the influence of temperature parameters on overall and task-specific outcomes for each model and approach. Our findings reveal distinct performance disparities among the evaluated models and methodologies, highlighting critical factors that affect practical deployment. The benchmark dataset and evaluation framework introduced herein aim to provide a foundation for future research of more robust and effective data science agents.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩はデータサイエンスのワークフローに大きな影響を与え、分析作業を自動化するように設計された専門データサイエンスエージェントが誕生した。
急速に採用されているにもかかわらず、これらのエージェントの有効性と限界を評価する体系的なベンチマークはほとんど残っていない。
本稿では,実世界のユーザとデータサイエンスエージェントとのインタラクションを反映した総合的なベンチマークを,商用アプリケーションの利用状況を観察して紹介する。
我々は3つのLCM(Claude-4.0-Sonnet、Gemini-2.5-Flash、OpenAI-o4-Mini)を、文脈工学のゼロショット、文脈工学のマルチステップ、SmolAgentの3つのアプローチで評価した。
我々のベンチマークは8つのデータサイエンスタスクカテゴリの多様なセットのパフォーマンスを評価し、データ漏洩やわずかにあいまいな指示といった一般的な問題に対するモデルの感度を探索する。
さらに、各モデルとアプローチの全体およびタスク固有の結果に対する温度パラメータの影響について検討する。
本研究は, 評価モデルと方法論の相違点を明らかにし, 実用化に影響を及ぼす重要な要因を明らかにした。
ここで導入されたベンチマークデータセットと評価フレームワークは、より堅牢で効果的なデータサイエンスエージェントの研究のための基盤を提供することを目的としている。
関連論文リスト
- Why Do Open-Source LLMs Struggle with Data Analysis? A Systematic Empirical Study [55.09905978813599]
データ理解、コード生成、戦略的計画という3つの側面にわたるモデルを評価します。
我々はこれらの知見を活用してデータ合成手法を開発し、オープンソースのLCMの分析的推論能力の大幅な改善を実証した。
論文 参考訳(メタデータ) (2025-06-24T17:04:23Z) - AssistedDS: Benchmarking How External Domain Knowledge Assists LLMs in Automated Data Science [44.18533574465929]
AssistedDSは、大規模言語モデルがドメイン知識をどのように扱うかを評価するために設計されたベンチマークである。
我々は、最先端のLLMを、有害なドメイン知識を識別し、有効に適用する能力に基づいて評価する。
我々の結果は、専門家の知識を批判的に評価し活用する現在のモデルの能力に、かなりのギャップがあることを示します。
論文 参考訳(メタデータ) (2025-05-25T05:50:21Z) - DSBench: How Far Are Data Science Agents from Becoming Data Science Experts? [58.330879414174476]
現実的なタスクでデータサイエンスエージェントを評価するためのベンチマークであるDSBenchを紹介する。
このベンチマークには、466のデータ分析タスクと、EloquenceとKaggleのコンペからソースされた74のデータモデリングタスクが含まれている。
現状のLLM, LVLM, エージェントを評価したところ, 最高のエージェントはデータ解析タスクの34.12%しか解決できず, RPG(Relative Performance Gap)は34.74%であった。
論文 参考訳(メタデータ) (2024-09-12T02:08:00Z) - BLADE: Benchmarking Language Model Agents for Data-Driven Science [18.577658530714505]
プランニング、メモリ、コード実行機能を備えたLMベースのエージェントは、データ駆動科学をサポートする可能性がある。
本稿では,エージェントの多面的アプローチを自動的に評価するベンチマークBLADEについて述べる。
論文 参考訳(メタデータ) (2024-08-19T02:59:35Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
本稿では,72の科学分野をカバーするNature Communicationsの記事からまとめられた包括的データセットについて述べる。
2つのベンチマークタスク(図のキャプションと複数選択)で19のプロプライエタリモデルとオープンソースモデルを評価し,人手による注釈を行った。
タスク固有データを用いた細調整Qwen2-VL-7Bは、GPT-4oや人間の専門家でさえも、マルチチョイス評価において優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。