Fugu-MT 論文翻訳(概要): DA-Code: Agent Data Science Code Generation Benchmark for Large Language Models

論文の概要: DA-Code: Agent Data Science Code Generation Benchmark for Large Language Models

arxiv url: http://arxiv.org/abs/2410.07331v2
Date: Fri, 11 Oct 2024 00:53:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-31 20:56:57.468981
Title: DA-Code: Agent Data Science Code Generation Benchmark for Large Language Models
Title（参考訳）: DA-Code:大規模言語モデルのためのエージェントデータサイエンスコード生成ベンチマーク
Authors: Yiming Huang, Jianwen Luo, Yan Yu, Yitong Zhang, Fangyu Lei, Yifan Wei, Shizhu He, Lifu Huang, Xiao Liu, Jun Zhao, Kang Liu,
Abstract要約: まず、DA-Code内のタスクは本質的に困難で、従来のコード生成タスクとは分離されています。次に、DA-Codeの例は、すべて実データと多種多様なデータに基づいており、幅広い複雑なデータラングリングと分析タスクをカバーしている。第三に、これらの課題を解決するためには、複雑なデータサイエンスプログラミング言語を使用し、複雑なデータ処理を実行し、答えを導出する必要がある。
参考スコア（独自算出の注目度）: 36.266383541354294
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce DA-Code, a code generation benchmark specifically designed to assess LLMs on agent-based data science tasks. This benchmark features three core elements: First, the tasks within DA-Code are inherently challenging, setting them apart from traditional code generation tasks and demanding advanced coding skills in grounding and planning. Second, examples in DA-Code are all based on real and diverse data, covering a wide range of complex data wrangling and analytics tasks. Third, to solve the tasks, the models must utilize complex data science programming languages, to perform intricate data processing and derive the answers. We set up the benchmark in a controllable and executable environment that aligns with real-world data analysis scenarios and is scalable. The annotators meticulously design the evaluation suite to ensure the accuracy and robustness of the evaluation. We develop the DA-Agent baseline. Experiments show that although the baseline performs better than other existing frameworks, using the current best LLMs achieves only 30.5% accuracy, leaving ample room for improvement. We release our benchmark at https://da-code-bench.github.io.
Abstract（参考訳）: 本稿では,エージェントベースのデータサイエンスタスク上でのLCMの評価に特化して設計されたコード生成ベンチマークであるDA-Codeを紹介する。まず、DA-Code内のタスクは本質的に困難で、従来のコード生成タスクとは分離され、基礎と計画において高度なコーディングスキルが要求されます。次に、DA-Codeの例は、すべて実データと多種多様なデータに基づいており、幅広い複雑なデータラングリングと分析タスクをカバーしている。第三に、これらの課題を解決するためには、複雑なデータサイエンスプログラミング言語を使用し、複雑なデータ処理を実行し、答えを導出する必要がある。私たちは、実世界のデータ分析シナリオと整合し、スケーラブルな、制御可能で実行可能な環境にベンチマークをセットアップしました。アノテーションは評価スイートを慎重に設計し、評価の精度と堅牢性を確保する。我々はDA-Agentベースラインを開発する。実験によると、ベースラインは他の既存のフレームワークよりも優れているが、現在の最高のLCMを使用すると、わずか30.5%の精度しか得られず、改善の余地は十分にある。ベンチマークはhttps://da-code-bench.github.io.comで公開しています。

関連論文リスト

CodeSense: a Real-World Benchmark and Dataset for Code Semantic Reasoning [20.06743818187144]
私たちはCodeSenseという,一連のきめ細かいコード推論タスクを利用できる最初のベンチマークを提案しています。この結果から,モデルが微粒な推論処理を行う場合の性能差が明らかとなった。当社の作業では,詳細なSE推論タスクに対して,真理を簡単に収集することのできる実行トレースフレームワークとツールセットを作成しました。
論文参考訳（メタデータ） (2025-05-31T23:32:01Z)
DataSciBench: An LLM Agent Benchmark for Data Science [33.3811507234528]
DataSciBenchは、データサイエンスにおけるLarge Language Model(LLM)の機能を評価するためのベンチマークである。我々は、グラウンド・真実(GT)を生成し、評価指標を検証するための半自動パイプラインを開発した。我々は、各コード実行結果を評価する革新的なTask-Function-Codeフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-19T17:31:51Z)
UnitCoder: Scalable Iterative Code Synthesis with Unit Test Guidance [65.01483640267885]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示してきたが、コード生成は依然として大きな課題である。私たちは、モデル生成ユニットテストを活用してコード生成プロセスのガイドと検証を行う、システマティックパイプラインであるUnitCoderを紹介します。我々の研究は、モデル生成単体テストを利用して、事前学習コーパスから高品質なコードデータの合成を誘導するスケーラブルなアプローチを提案する。
論文参考訳（メタデータ） (2025-02-17T05:37:02Z)
Evaluation of Code LLMs on Geospatial Code Generation [1.6834474847800562]
大規模言語モデル(LLM)は、データサイエンスと機械学習アプリケーションのためのPythonコードを生成することができる。本稿では,空間的タスクの選択に基づいて,コード生成モデルの評価ベンチマークを構築した。我々のデータセットは、地理空間的コーディングタスクを高精度に解決できる新しいモデルの開発に貢献することを期待している。
論文参考訳（メタデータ） (2024-10-06T20:34:03Z)
Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。 Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文参考訳（メタデータ） (2024-10-02T09:11:10Z)
DSBench: How Far Are Data Science Agents to Becoming Data Science Experts? [58.330879414174476]
現実的なタスクでデータサイエンスエージェントを評価するためのベンチマークであるDSBenchを紹介する。このベンチマークには、466のデータ分析タスクと、EloquenceとKaggleのコンペからソースされた74のデータモデリングタスクが含まれている。現状のLLM, LVLM, エージェントを評価したところ, 最高のエージェントはデータ解析タスクの34.12%しか解決できず, RPG(Relative Performance Gap)は34.74%であった。
論文参考訳（メタデータ） (2024-09-12T02:08:00Z)
How Do Your Code LLMs Perform? Empowering Code Instruction Tuning with High-Quality Data [26.836532205017104]
多くのデータセットが深刻なデータ漏洩に悩まされていることが分かりました。この発見は、どのデータセットが真に高品質なコード命令データであるかを識別する、という新しい課題を明らかにしている。我々は、LLaMA3から微調整されたモデルのファミリーであるXCoderを紹介する。
論文参考訳（メタデータ） (2024-09-05T17:46:30Z)
DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文参考訳（メタデータ） (2024-07-01T18:58:22Z)
DACO: Towards Application-Driven and Comprehensive Data Analysis via Code Generation [83.30006900263744]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。 LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文参考訳（メタデータ） (2024-03-04T22:47:58Z)
LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文参考訳（メタデータ） (2023-11-25T02:45:50Z)
Empirical Study on Transformer-based Techniques for Software Engineering [12.973997150227198]
既存の文献をレビューし、異なるタスクに対するモデルアーキテクチャの適合性について検討し、異なるデータセット上でのモデルの一般化能力について考察する。文献調査で確認した,最もターゲットにされたソフトウェアエンジニアリングタスクのトップ4 – コードの要約,バグ修正,バグ検出,コード検索 – に対して,実験を実施しています。
論文参考訳（メタデータ） (2023-09-30T14:45:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。