論文の概要: MLDebugging: Towards Benchmarking Code Debugging Across Multi-Library Scenarios
- arxiv url: http://arxiv.org/abs/2506.13824v1
- Date: Sun, 15 Jun 2025 13:02:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.171767
- Title: MLDebugging: Towards Benchmarking Code Debugging Across Multi-Library Scenarios
- Title(参考訳): MLデバッグ: マルチライブラリシナリオ間のコードのデバッグのベンチマークを目指す
- Authors: Jinyang Huang, Xiachong Feng, Qiguang Chen, Hanjie Zhao, Zihui Cheng, Jiesong Bai, Jingxuan Zhou, Min Li, Libo Qin,
- Abstract要約: マルチライブラリPythonコードの課題を評価するために設計されたベンチマークを導入する。
具体的には、ML Debuggingは126の異なるPythonライブラリを含み、幅広いマルチライブラリコードの問題をカバーしている。
メインストリームのオープンソース LLM とクローズドソース LLM の両方を用いて,ML デバッグの徹底的な評価を行う。
- 参考スコア(独自算出の注目度): 12.394473121581843
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code debugging is a crucial task in software engineering, which attracts increasing attention. While remarkable success has been made in the era of large language models (LLMs), current research still focuses on the simple no-library or single-library setting, ignoring the complex multi-library scenario in real-world applications. To address this limitation, we make the first attempt to introduce MLDebugging (Multi-Library Debugging), a comprehensive benchmark designed to assess debugging challenges within multi-library Python code. Specifically, MLDebugging encompasses 126 distinct Python libraries, covering a wide range of multi-library code issues, categorized into seven distinct types. Furthermore, we conduct a thorough evaluation of MLDebugging using both mainstream open-source and closed-source LLMs and highlight that current LLMs still struggle to correctly perform code debugging across multi-library scenarios. We hope this work can uncover the potential of LLMs in multi-library debugging scenario and offer insights for future research.
- Abstract(参考訳): コードデバッグは、ソフトウェアエンジニアリングにおいて重要なタスクであり、注目を集めています。
大規模言語モデル (LLMs) の時代において顕著な成功を収めたものの、現在の研究は、現実世界のアプリケーションにおける複雑なマルチライブラリシナリオを無視しながら、単純なノンライブラリや単一ライブラリ設定に焦点を当てている。
この制限に対処するため、マルチライブラリPythonコードのデバッグ課題を評価するために設計された包括的なベンチマークであるMLDebugging (Multi-Library Debugging)を導入するための最初の試みを行う。
具体的には、MLDebuggingは126の異なるPythonライブラリを含み、幅広いマルチライブラリのコード問題を含み、7つの異なるタイプに分類される。
さらに、MLDebuggingを主流のオープンソースとクローズドソースの両方のLLMを使用して徹底的に評価し、現在のLLMでは、マルチライブラリシナリオでコードデバッグを正しく実行するのに依然として苦労している点を強調します。
本研究は,複数ライブラリデバッグシナリオにおけるLCMの可能性を明らかにするとともに,今後の研究への洞察を期待する。
関連論文リスト
- MdEval: Massively Multilingual Code Debugging [37.48700033342978]
18のプログラミング言語の3.6Kテストサンプルを含む,最初の大規模多言語デバッグベンチマークを提案する。
本稿では, MDEVAL-INSTRUCT 命令コーパスを導入し, 正しい多言語クエリとソリューションにバグを注入する。
MDEVALにおける実験により,オープンソースモデルとクローズドソースLLM間の顕著な性能差が明らかになった。
論文 参考訳(メタデータ) (2024-11-04T17:36:40Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z) - LDB: A Large Language Model Debugger via Verifying Runtime Execution Step-by-step [35.76881887942524]
大規模言語モデル(LLM)はコード生成の大きな進歩を導いている。
本研究では,Large Language Model Debugger (LDB)を紹介する。
LDBはプログラムを基本ブロックに分割し、実行中の各ブロックの後に中間変数の値を追跡する。
論文 参考訳(メタデータ) (2024-02-25T00:56:27Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - Evaluating In-Context Learning of Libraries for Code Generation [35.57902679044737]
大規模言語モデル(LLM)は高いレベルのコード生成と理解能力を示す。
近年の研究では、大規模プロプライエタリなLLMがデモから新しいライブラリの使用法を学習できることが示されている。
論文 参考訳(メタデータ) (2023-11-16T07:37:25Z) - Inference with Reference: Lossless Acceleration of Large Language Models [97.04200102556551]
LLMAは、参照によるLarge Language Model (LLM)推論を高速化するアクセラレータである。
LLMによる復号結果と実世界の多くのシナリオで利用できる参照との間には、多くの同一のテキストが存在していることが観察の動機となっている。
論文 参考訳(メタデータ) (2023-04-10T09:55:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。