Fugu-MT 論文翻訳(概要): Why Stop at One Error? Benchmarking LLMs as Data Science Code Debuggers for Multi-Hop and Multi-Bug Errors

論文の概要: Why Stop at One Error? Benchmarking LLMs as Data Science Code Debuggers for Multi-Hop and Multi-Bug Errors

arxiv url: http://arxiv.org/abs/2503.22388v1
Date: Fri, 28 Mar 2025 12:46:54 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-31 19:09:59.688184
Title: Why Stop at One Error? Benchmarking LLMs as Data Science Code Debuggers for Multi-Hop and Multi-Bug Errors
Title（参考訳）: なぜ1つのエラーで止まるのか?マルチホップとマルチバグエラーのためのデータサイエンスコードデバッガとしてLLMをベンチマークする
Authors: Zhiyu Yang, Shuo Wang, Yukun Yan, Yang Deng,
Abstract要約: DSDBench: Data Science Benchmarkを紹介します。マルチホップエラートレースとマルチバグ検出におけるLCMの体系的評価のための最初のベンチマークである。これには、711の因果エラーペアとランタイムエラーメッセージを備えた1,117の注釈付きサンプルが含まれている。
参考スコア（独自算出の注目度）: 13.332407319448803
License: http://creativecommons.org/licenses/by/4.0/
Abstract: LLMs are transforming software development, yet current code generation and code repair benchmarks mainly assess syntactic and functional correctness in simple, single-error cases. LLMs' capabilities to autonomously find and fix runtime logical errors in complex data science code remain largely unexplored. To address this gap, we introduce DSDBench: the Data Science Debugging Benchmark, the first benchmark for systematic evaluation of LLMs on multi-hop error tracing and multi-bug detection in data science code debugging. DSDBench adapts datasets from existing data science task benchmarks, such as DABench and MatPlotBench, featuring realistic data science debugging tasks with automatically synthesized multi-hop, multi-bug code snippets. DSDBench includes 1,117 annotated samples with 741 cause-effect error pairs and runtime error messages. Evaluations of state-of-the-art LLMs on DSDBench show significant performance gaps, highlighting challenges in debugging logical runtime errors in data science code. DSDBench offers a crucial resource to evaluate and improve LLMs' debugging and reasoning capabilities, enabling more reliable AI-assisted data science in the future.DSDBench is publicly available at https://github.com/KevinCL16/DSDBench.
Abstract（参考訳）: LLMはソフトウェア開発を変革していますが、現在のコード生成とコード修復ベンチマークは、単純な単一エラーケースにおける構文的および機能的正しさを主に評価しています。複雑なデータサイエンスコードの実行時の論理的エラーを自律的に発見および修正するLLMの能力は、ほとんど探索されていないままである。データサイエンスデバッグベンチマーク(Data Science Debugging Benchmark)は、データサイエンスコードのデバッグにおいて、マルチホップエラートレースとマルチバグ検出に関するLCMを体系的に評価するための最初のベンチマークである。 DSDBenchは、DABenchやMatPlotBenchといった既存のデータサイエンスタスクベンチマークのデータセットに適応し、自動で合成されたマルチホップ、マルチバグコードスニペットを備えた現実的なデータサイエンスデバッグタスクを特徴付ける。 DSDBenchには,711の因果エラーペアとランタイムエラーメッセージを備えた,1,117のアノテーション付きサンプルが含まれている。 DSDBenchにおける最先端のLCMの評価は、データサイエンスコードの論理的ランタイムエラーをデバッグする際の課題を浮き彫りにしている。 DSDBenchはLLMのデバッグと推論機能の評価と改善のための重要なリソースを提供する。将来、より信頼性の高いAI支援データサイエンスを可能にする。DSDBenchはhttps://github.com/KevinCL16/DSDBenchで公開されている。

関連論文リスト

InspectCoder: Dynamic Analysis-Enabled Self Repair through interactive LLM-Debugger Collaboration [71.18377595277018]
大きな言語モデル(LLM)は、診断が難しい複雑なロジックエラーを伴うバグの多いコードを生成することが多い。対話型デバッガ制御による動的解析を LLM に委ねる初のエージェントプログラム修復システムである InspectCoder を提案する。
論文参考訳（メタデータ） (2025-10-21T06:26:29Z)
RepoDebug: Repository-Level Multi-Task and Multi-Language Debugging Evaluation of Large Language Models [49.83481415540291]
LLM(Large Language Models)は、コードのデバッグに非常に熟練している。本稿ではマルチタスクおよび多言語リポジトリレベルのコードデバッグデータセットであるRepo Debugを紹介する。最高のパフォーマンスモデルである Claude 3.5 Sonnect は,リポジトリレベルのデバッグでは依然としてうまく動作しない。
論文参考訳（メタデータ） (2025-09-04T10:13:21Z)
DSCodeBench: A Realistic Benchmark for Data Science Code Generation [16.227266086218425]
DSCodeBenchは、複雑で現実的なデータサイエンスコード生成タスクにおいて、大きな言語モデル(LLM)を評価するために設計された新しいベンチマークである。広く使用されている10のPythonデータサイエンスライブラリにまたがって、GitHubからソースされた1,000の慎重に構築された問題で構成されている。現在の最先端ベンチマークDS-1000と比較すると、DSCodeBenchはより困難で代表的なテストベッドを提供する。
論文参考訳（メタデータ） (2025-05-21T15:11:26Z)
OpenCodeInstruct: A Large-scale Instruction Tuning Dataset for Code LLMs [62.68905180014956]
我々は,500万の多様なサンプルからなる最大オープンアクセス命令チューニングデータセットであるOpenCodeInstructを紹介した。各サンプルには、プログラミング質問、ソリューション、テストケース、実行フィードバック、LLM生成の品質評価が含まれている。 LLaMAやQwenなど,さまざまなベースモデルを,データセットを使用して複数のスケール(1B+,3B+,7B+)にわたって微調整します。
論文参考訳（メタデータ） (2025-04-05T02:52:16Z)
Teaching Your Models to Understand Code via Focal Preference Alignment [70.71693365502212]
既存の手法では、テストケースの成功率に基づいてn個の候補解が評価される。このアプローチは、特定のエラーを特定するのではなく、失敗するコードブロック全体を整列するので、意味のあるエラーと訂正の関係を捉えるのに必要な粒度が欠けている。我々は、人間の反復デバッグを模倣してコードLLMを洗練させる新しい優先順位調整フレームワークであるTarget-DPOを提案する。
論文参考訳（メタデータ） (2025-03-04T16:56:34Z)
SpecTool: A Benchmark for Characterizing Errors in Tool-Use LLMs [77.79172008184415]
SpecToolは、ツール使用タスクのLLM出力のエラーパターンを特定するための新しいベンチマークである。もっとも顕著なLCMでも,これらの誤りパターンが出力に現れることを示す。 SPECTOOLの分析と洞察を使って、エラー軽減戦略をガイドすることができる。
論文参考訳（メタデータ） (2024-11-20T18:56:22Z)
BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.936320820180875]
大規模言語モデル(LLM)は、様々な領域でますます重要になっている。 BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。 BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
論文参考訳（メタデータ） (2024-10-01T15:11:24Z)
Fixing Function-Level Code Generation Errors for Foundation Large Language Models [6.137340149146578]
生成エラーに関する実証的研究を行い、その原因の分析を行い、19種類のエラー原因を導出する。私たちの経験的分析では、これらの3つの原因が直接修正可能であることが示されています。本稿では,この3種類のエラーを3段階のプロセスで処理するLlmFix法を提案する。
論文参考訳（メタデータ） (2024-09-01T09:40:15Z)
COAST: Enhancing the Code Debugging Ability of LLMs through Communicative Agent Based Data Synthesis [29.667170755786508]
大規模言語モデルの能力を評価するためのベンチマークであるEVALを紹介する。我々は,マルチエージェントシステムを用いて高品質な学習データを生成する,コミュニケーティブエージェントベースのデータ合成フレームワークを提案する。以上の結果から,COAST生成データは人為的・GPT-4生成データよりも優れていた。
論文参考訳（メタデータ） (2024-08-09T11:35:44Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文参考訳（メタデータ） (2024-06-25T04:27:53Z)
MEIC: Re-thinking RTL Debug Automation using LLMs [18.964523115622928]
本研究は,新しいフレームワーク,Make each Iteration Count(MEIC)を紹介する。 MEICは、構文と関数のエラーを識別し、修正するのに適している。フレームワークを評価するため、178の共通RTLプログラミングエラーからなるオープンソースデータセットを提供する。
論文参考訳（メタデータ） (2024-05-10T22:32:39Z)
LDB: A Large Language Model Debugger via Verifying Runtime Execution Step-by-step [35.76881887942524]
大規模言語モデル(LLM)はコード生成の大きな進歩を導いている。本研究では,Large Language Model Debugger (LDB)を紹介する。 LDBはプログラムを基本ブロックに分割し、実行中の各ブロックの後に中間変数の値を追跡する。
論文参考訳（メタデータ） (2024-02-25T00:56:27Z)
DebugBench: Evaluating Debugging Capability of Large Language Models [80.73121177868357]
DebugBench - LLM(Large Language Models)のベンチマーク。 C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。ゼロショットシナリオで2つの商用および4つのオープンソースモデルを評価する。
論文参考訳（メタデータ） (2024-01-09T15:46:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。