Fugu-MT 論文翻訳(概要): DataSciBench: An LLM Agent Benchmark for Data Science

論文の概要: DataSciBench: An LLM Agent Benchmark for Data Science

arxiv url: http://arxiv.org/abs/2502.13897v1
Date: Wed, 19 Feb 2025 17:31:51 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-20 20:12:10.039518
Title: DataSciBench: An LLM Agent Benchmark for Data Science
Title（参考訳）: DataSciBench: データサイエンスのためのLLMエージェントベンチマーク
Authors: Dan Zhang, Sining Zhoubian, Min Cai, Fengzu Li, Lekang Yang, Wei Wang, Tianjiao Dong, Ziniu Hu, Jie Tang, Yisong Yue,
Abstract要約: DataSciBenchは、データサイエンスにおけるLarge Language Model(LLM)の機能を評価するためのベンチマークである。我々は、グラウンド・真実(GT)を生成し、評価指標を検証するための半自動パイプラインを開発した。我々は、各コード実行結果を評価する革新的なTask-Function-Codeフレームワークを提案する。
参考スコア（独自算出の注目度）: 33.3811507234528
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper presents DataSciBench, a comprehensive benchmark for evaluating Large Language Model (LLM) capabilities in data science. Recent related benchmarks have primarily focused on single tasks, easily obtainable ground truth, and straightforward evaluation metrics, which limits the scope of tasks that can be evaluated. In contrast, DataSciBench is constructed based on a more comprehensive and curated collection of natural and challenging prompts for uncertain ground truth and evaluation metrics. We develop a semi-automated pipeline for generating ground truth (GT) and validating evaluation metrics. This pipeline utilizes and implements an LLM-based self-consistency and human verification strategy to produce accurate GT by leveraging collected prompts, predefined task types, and aggregate functions (metrics). Furthermore, we propose an innovative Task - Function - Code (TFC) framework to assess each code execution outcome based on precisely defined metrics and programmatic rules. Our experimental framework involves testing 6 API-based models, 8 open-source general models, and 9 open-source code generation models using the diverse set of prompts we have gathered. This approach aims to provide a more comprehensive and rigorous evaluation of LLMs in data science, revealing their strengths and weaknesses. Experimental results demonstrate that API-based models outperform open-sourced models on all metrics and Deepseek-Coder-33B-Instruct achieves the highest score among open-sourced models. We release all code and data at https://github.com/THUDM/DataSciBench.
Abstract（参考訳）: 本稿では,データサイエンスにおける大規模言語モデル(LLM)機能を評価するための総合ベンチマークであるDataSciBenchを提案する。最近のベンチマークでは、主に単一タスク、容易に入手可能な基底真理、評価可能なタスクの範囲を制限する単純な評価指標に焦点が当てられている。それとは対照的に、DataSciBenchは、より包括的でキュレートされた自然的かつ挑戦的なプロンプトのコレクションに基づいて構築されている。我々は、グラウンド・真実(GT)を生成し、評価指標を検証するための半自動パイプラインを開発した。このパイプラインは、収集されたプロンプト、予め定義されたタスクタイプ、集約関数(メトリック)を活用することで、LCMベースの自己整合性と人間の検証戦略を利用して正確なGTを生成する。さらに、正確に定義されたメトリクスとプログラムルールに基づいて、各コードの実行結果を評価する革新的なタスク-関数-コード(TFC)フレームワークを提案する。実験フレームワークでは,6つのAPIベースのモデル,8つのオープンソース汎用モデル,9つのオープンソースコード生成モデルを,さまざまなプロンプトを使ってテストしています。このアプローチは、データサイエンスにおけるLSMのより包括的で厳密な評価を提供することを目的としており、その強みと弱点を明らかにしている。実験の結果,すべてのメトリクスにおいて,APIベースのモデルはオープンソースモデルよりも優れており,Deepseek-Coder-33B-Instructはオープンソースモデルの中で最も高いスコアを得た。すべてのコードとデータはhttps://github.com/THUDM/DataSciBench.orgで公開しています。

関連論文リスト

The LLM Data Auditor: A Metric-oriented Survey on Quality and Trustworthiness in Evaluating Synthetic Data [25.926467401802046]
大規模言語モデル(LLM)は、様々なモダリティにまたがるデータを生成する強力なツールとして登場した。本稿では,2次元から合成データを評価するためのフレームワークを提案する。
論文参考訳（メタデータ） (2026-01-25T06:40:25Z)
IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文参考訳（メタデータ） (2025-05-23T09:37:52Z)
AIRepr: An Analyst-Inspector Framework for Evaluating Reproducibility of LLMs in Data Science [5.064778712920176]
大規模言語モデル(LLM)は、実行可能なコード生成を通じてデータ分析を自動化するために、ますます使われるようになっている。 LLM 生成データ解析の $itRepr$oducibility を自動的に評価し,改善するための $itA$nalyst - $itI$nspector フレームワークである $itAIRepr を提示する。
論文参考訳（メタデータ） (2025-02-23T01:15:50Z)
A Systematic Approach for Assessing Large Language Models' Test Case Generation Capability [0.8287206589886879]
大規模言語モデル (LLM) を評価するために,制御フロー構造と可変利用構成 (GBCV) から生成したベンチマークを提案する。基本的な制御フロー構造と変数使用量を活用することで、GBCVは、単純なプログラムから複雑なプログラムの範囲を作成する柔軟なフレームワークを提供する。以上の結果から,GPT-4oは複雑なプログラム構造において優れた性能を示し,全てのモデルが単純な条件下で境界値を効果的に検出するが,算術計算では問題に直面することが示唆された。
論文参考訳（メタデータ） (2025-02-05T03:51:44Z)
Can Models Help Us Create Better Models? Evaluating LLMs as Data Scientists [41.94295877935867]
データサイエンスにおける最も知識集約的な課題の1つに取り組むために設計された,大規模言語モデルのベンチマークを示す。提案手法のFeatEngは,LLMの幅広い能力を安価かつ効率的に評価できることを実証する。
論文参考訳（メタデータ） (2024-10-30T17:59:01Z)
Efficacy of Synthetic Data as a Benchmark [3.2968976262860408]
大規模言語モデル(LLM)による合成データ生成の有効性について検討する。実験の結果, 単純なタスクに対して, 合成データは様々な手法の性能を効果的に捉えることができるが, 名前付きエンティティ認識のような複雑なタスクでは不十分であることがわかった。我々は、ベンチマークデータの生成とタスクの実行の両方に同じLLMを使用した場合のバイアスを評価するバイアス係数と呼ばれる新しい指標を提案する。
論文参考訳（メタデータ） (2024-09-18T13:20:23Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文参考訳（メタデータ） (2024-07-01T18:58:22Z)
DCA-Bench: A Benchmark for Dataset Curation Agents [9.60250892491588]
隠れたデータセットの品質問題を検知する大規模言語モデルの能力を測定するために,データセットキュレーションエージェントベンチマークであるDCA-Benchを提案する。具体的には、テストベッドとして8つのオープンデータセットプラットフォームから、さまざまな実世界のデータセット品質の問題を収集します。提案したベンチマークは、単に問題解決を行うのではなく、問題発見におけるLLMの能力を測定するためのテストベッドとしても機能する。
論文参考訳（メタデータ） (2024-06-11T14:02:23Z)
Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。 SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文参考訳（メタデータ） (2024-01-02T18:53:13Z)
On the Evaluation and Refinement of Vision-Language Instruction Tuning Datasets [71.54954966652286]
VLIT(Vision-Language Instruction-Tuning)データセットの評価を試みる。各データセットから高いSQのサンプルを収集し,新しいデータセットREVO-LIONを構築した。注目すべきは、完全なデータの半分でなくても、REVO-LIONでトレーニングされたモデルは、単にすべてのVLITデータセットを追加するのに匹敵するパフォーマンスを達成することができることだ。
論文参考訳（メタデータ） (2023-10-10T13:01:38Z)
MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文参考訳（メタデータ） (2023-08-25T01:41:04Z)
From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文参考訳（メタデータ） (2023-08-23T09:45:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。