論文の概要: DS-Bench: A Realistic Benchmark for Data Science Code Generation
- arxiv url: http://arxiv.org/abs/2505.15621v1
- Date: Wed, 21 May 2025 15:11:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.721463
- Title: DS-Bench: A Realistic Benchmark for Data Science Code Generation
- Title(参考訳): DS-Bench: データサイエンスコード生成のための現実的なベンチマーク
- Authors: Shuyin Ouyang, Dong Huang, Jingwen Guo, Zeyu Sun, Qihao Zhu, Jie M. Zhang,
- Abstract要約: 我々は、複雑で現実的なデータサイエンスコード生成タスクにおいて、大規模言語モデル(LLM)を評価するために設計された新しいベンチマークであるDS-benchを紹介する。
DS-benchは、広く使用されている10のPythonデータサイエンスライブラリでGitHubからソースされた1,000の慎重に構築された問題で構成されている。
- 参考スコア(独自算出の注目度): 16.227266086218425
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: We introduce DS-bench, a new benchmark designed to evaluate large language models (LLMs) on complicated and realistic data science code generation tasks. DS-bench consists of 1,000 carefully constructed problems sourced from realistic problems from GitHub across ten widely used Python data science libraries. Compared to the current state-of-the-art benchmark DS-1000, DS-bench offers a more challenging and representative testbed, longer code solutions, more comprehensive data science libraries, clearer and better structured problem descriptions, and stronger test suites. To construct the DS-bench, we develop a robust pipeline that combines task scope selection, code construction, test case generation, and problem description synthesis. The process is paired with rigorous manual editing to ensure alignment and enhance evaluation reliability. Experimental result shows that DS-bench exhibits robust scaling behavior, where larger models systematically outperform smaller ones, validating its ability to distinguish model capabilities. The best LLM we test, GPT-4o, has a pass@1 of 0.202, indicating that LLMs still have a large room to improve for realistic data science code generation tasks. We believe DS-bench will serve as a rigorous and trustworthy foundation for advancing LLM-based data science programming.
- Abstract(参考訳): 我々は、複雑で現実的なデータサイエンスコード生成タスクにおいて、大規模言語モデル(LLM)を評価するために設計された新しいベンチマークであるDS-benchを紹介する。
DS-benchは、広く使用されている10のPythonデータサイエンスライブラリにわたるGitHubの現実的な問題から生まれた、慎重に構築された1000の問題で構成されている。
現在の最先端のベンチマークDS-1000と比較すると、DS-benchはより挑戦的で代表的なテストベッド、より長いコードソリューション、より包括的なデータサイエンスライブラリ、より明確でより構造化された問題記述、より強力なテストスイートを提供する。
DSベンチを構築するために,タスクスコープの選択,コード構成,テストケース生成,問題記述合成を組み合わせたロバストパイプラインを開発した。
このプロセスは厳密な手作業による編集と組み合わせられ、アライメントの確保と評価信頼性の向上が図られる。
実験の結果、DS-benchは、より大規模なモデルが体系的により小さなモデルより優れており、モデルの能力を識別する能力が検証される、堅牢なスケーリング挙動を示すことが示された。
我々がテストした最高のLCMであるGPT-4oはパス@1で0.202であり、LCMは依然としてリアルなデータサイエンスコード生成タスクに改善の余地があることを示している。
DS-benchは、LSMベースのデータサイエンスプログラミングを進めるための厳格で信頼できる基盤となると信じています。
関連論文リスト
- OpenCodeInstruct: A Large-scale Instruction Tuning Dataset for Code LLMs [62.68905180014956]
我々は,500万の多様なサンプルからなる最大オープンアクセス命令チューニングデータセットであるOpenCodeInstructを紹介した。
各サンプルには、プログラミング質問、ソリューション、テストケース、実行フィードバック、LLM生成の品質評価が含まれている。
LLaMAやQwenなど,さまざまなベースモデルを,データセットを使用して複数のスケール(1B+,3B+,7B+)にわたって微調整します。
論文 参考訳(メタデータ) (2025-04-05T02:52:16Z) - Why Stop at One Error? Benchmarking LLMs as Data Science Code Debuggers for Multi-Hop and Multi-Bug Errors [13.332407319448803]
我々は、マルチホップエラートレースとマルチバグ検出におけるLCMの体系的評価のための最初のベンチマークであるData Science Benchmarkを紹介する。
DSDBenchには,711の因果エラーペアとランタイムエラーメッセージを備えた,1,117のアノテーション付きサンプルが含まれている。
DSDBench上での最先端LCMの評価は、大きな性能差を示した。
論文 参考訳(メタデータ) (2025-03-28T12:46:54Z) - UnitCoder: Scalable Iterative Code Synthesis with Unit Test Guidance [65.01483640267885]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示してきたが、コード生成は依然として大きな課題である。
私たちは、モデル生成ユニットテストを活用してコード生成プロセスのガイドと検証を行う、システマティックパイプラインであるUnitCoderを紹介します。
我々の研究は、モデル生成単体テストを利用して、事前学習コーパスから高品質なコードデータの合成を誘導するスケーラブルなアプローチを提案する。
論文 参考訳(メタデータ) (2025-02-17T05:37:02Z) - DA-Code: Agent Data Science Code Generation Benchmark for Large Language Models [36.266383541354294]
まず、DA-Code内のタスクは本質的に困難で、従来のコード生成タスクとは分離されています。
次に、DA-Codeの例は、すべて実データと多種多様なデータに基づいており、幅広い複雑なデータラングリングと分析タスクをカバーしている。
第三に、これらの課題を解決するためには、複雑なデータサイエンスプログラミング言語を使用し、複雑なデータ処理を実行し、答えを導出する必要がある。
論文 参考訳(メタデータ) (2024-10-09T18:00:05Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - CoCoST: Automatic Complex Code Generation with Online Searching and Correctness Testing [51.00909683314142]
大規模言語モデルは、自然言語記述を実行可能なコードに変換することによって、コード生成能力に革命をもたらした。
CoCoSTフレームワークは、オンライン検索によって複雑なコード生成を強化する。
CoCoSTはDS-1000とClassEvalデータセットの厳密な実験によって検証される。
論文 参考訳(メタデータ) (2024-03-20T13:33:55Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - DS-1000: A Natural and Reliable Benchmark for Data Science Code
Generation [70.96868419971756]
DS-1000は7つのPythonライブラリにまたがる1000のデータサイエンス問題のあるコード生成ベンチマークである。
まず、StackOverflowからそれらを収集して以来の、多様で現実的で実践的なユースケースを反映しています。
第2に、私たちの自動評価は非常に具体的(信頼性)です -- 評価が受け入れているすべてのCodex予測ソリューションに対して、そのわずか1.8%が間違っています。
論文 参考訳(メタデータ) (2022-11-18T17:20:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。