論文の概要: Enhancing the Code Debugging Ability of LLMs via Communicative Agent Based Data Refinement
- arxiv url: http://arxiv.org/abs/2408.05006v1
- Date: Fri, 9 Aug 2024 11:35:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-12 15:56:59.532295
- Title: Enhancing the Code Debugging Ability of LLMs via Communicative Agent Based Data Refinement
- Title(参考訳): コミュニケーションエージェントに基づくデータリファインメントによるLLMのコードデバッグ能力向上
- Authors: Weiqing Yang, Hanbin Wang, Zhenghao Liu, Xinze Li, Yukun Yan, Shuo Wang, Yu Gu, Minghe Yu, Zhiyuan Liu, Ge Yu,
- Abstract要約: 本稿ではまず,大規模言語モデル(LLM)のデバッグ能力を評価するためのベンチマークであるEVALを紹介する。
Masterは、教師付き微調整のための定義されたタスクに従って洗練されたコードデータを生成する。
最後に、Code Learnerは、批評家として機能し、解決できない発生した問題を予約する。
- 参考スコア(独自算出の注目度): 29.667170755786508
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Debugging is a vital aspect of software development, yet the debugging capabilities of Large Language Models (LLMs) remain largely unexplored. This paper first introduces DEBUGEVAL, a comprehensive benchmark designed to evaluate the debugging capabilities of LLMs. DEBUGEVAL collects data from existing high-quality datasets and designs four different tasks to evaluate the debugging effectiveness, including BUG Localization, BUG Identification, Code Review, and Code Repair. Additionally, to enhance the code debugging ability of LLMs, this paper proposes a CoMmunicative Agent BaSed DaTa REfinement FRamework (MASTER), which generates the refined code debugging data for supervised finetuning. Specifically, MASTER employs the Code Quizzer to generate refined data according to the defined tasks of DEBUGEVAL. Then the Code Learner acts as a critic and reserves the generated problems that it can not solve. Finally, the Code Teacher provides a detailed Chain-of-Thought based solution to deal with the generated problem. We collect the synthesized data and finetune the Code Learner to enhance the debugging ability and conduct the NeuDebugger model. Our experiments evaluate various LLMs and NeuDebugger in the zero-shot setting on DEBUGEVAL. Experimental results demonstrate that these 7B-scale LLMs have weaker debugging capabilities, even these code-oriented LLMs. On the contrary, these larger models (over 70B) show convincing debugging ability. Our further analyses illustrate that MASTER is an effective method to enhance the code debugging ability by synthesizing data for Supervised Fine-Tuning (SFT) LLMs.
- Abstract(参考訳): デバッグはソフトウェア開発の重要な側面であるが、Large Language Models (LLMs) のデバッグ機能は、ほとんど探索されていないままである。
本稿ではまず,LLMのデバッグ機能を評価するための総合的なベンチマークであるDEBUGEVALを紹介する。
DEBUGEVALは、既存の高品質データセットからデータを収集し、BUGローカライゼーション、BUG識別、コードレビュー、コード修復など、デバッグの有効性を評価する4つの異なるタスクを設計する。
さらに,LLMのコードデバッグ能力を高めるために,教師付き微調整のための洗練されたコードデバッグデータを生成するCoMmunicative Agent Based DaTa Refinement FRamework (MASTER)を提案する。
具体的には、DBUGEVALの定義したタスクに従って洗練されたデータを生成するために、Code Quizzerを使用している。
その後、Code Learnerは批評家として行動し、解決できない発生した問題を予約する。
最後に、Code Teacherは、生成された問題に対処するための詳細なChain-of-Thoughtベースのソリューションを提供する。
我々は合成データを収集し、Code Learnerを微調整し、デバッグ能力を高め、NeuDebuggerモデルを実行します。
実験では, DEBUGEVAL のゼロショット設定における様々な LLM と NeuDebugger の評価を行った。
実験結果から,これらの 7B スケール LLM は,コード指向 LLM よりもデバッグ能力が弱いことが示された。
それとは対照的に、これらのより大きなモデル(70B以上)は、説得力のあるデバッグ機能を示している。
さらに,MASTERは,SFT (Supervised Fine-Tuning) LLM) のデータ合成により,コードデバッグ能力を向上する有効な手法であることを示す。
関連論文リスト
- OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [70.72097493954067]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。
オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。
トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文 参考訳(メタデータ) (2024-11-07T17:47:25Z) - RGD: Multi-LLM Based Agent Debugger via Refinement and Generation Guidance [0.6062751776009752]
大規模言語モデル(LLM)は、コード生成タスクにおいて驚くべきポテンシャルを示しています。
LLMはタスク記述に基づいてコードを生成することができるが、精度は限られている。
コード生成と自動デバッグのためのLLMエージェントの新しいアーキテクチャ:Refinement and Guidancebug (RGD)を紹介する。
RGDはコード生成タスクを複数のステップに分割し、より明確なワークフローを確保し、自己回帰とフィードバックに基づいた反復的なコード改善を可能にする。
論文 参考訳(メタデータ) (2024-10-02T05:07:02Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - AlchemistCoder: Harmonizing and Eliciting Code Capability by Hindsight Tuning on Multi-source Data [64.69872638349922]
本稿では、マルチソースデータに微調整されたコード生成と一般化機能を備えたコードLLMのシリーズであるAlchemistCoderを紹介する。
本稿では,データ構築過程を微調整データに組み込んで,命令の進化,データフィルタリング,コードレビューなどのコード理解タスクを提案する。
論文 参考訳(メタデータ) (2024-05-29T16:57:33Z) - Chain of Targeted Verification Questions to Improve the Reliability of Code Generated by LLMs [10.510325069289324]
LLMが生成するコードの信頼性向上を目的とした自己補充手法を提案する。
当社のアプローチは,初期コード内の潜在的なバグを特定するために,対象とする検証質問(VQ)に基づいています。
本手法は,LLMをターゲットとするVQと初期コードで再プロンプトすることで,潜在的なバグの修復を試みる。
論文 参考訳(メタデータ) (2024-05-22T19:02:50Z) - AI-powered Code Review with LLMs: Early Results [10.37036924997437]
本稿では,Large Language Model (LLM) ベースのモデルを用いて,ソフトウェアの品質と効率を改善する新しい手法を提案する。
提案するLLMベースのAIエージェントモデルは,大規模コードリポジトリ上でトレーニングされている。
コードの臭いを検出し、潜在的なバグを特定し、改善の提案を提供し、コードを最適化することを目的としている。
論文 参考訳(メタデータ) (2024-04-29T08:27:50Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - Leveraging Print Debugging to Improve Code Generation in Large Language
Models [63.63160583432348]
大規模言語モデル(LLM)はコード生成タスクにおいて大きな進歩を遂げた。
しかし、複雑なデータ構造やアルゴリズムによるプログラミング問題に対処する彼らのパフォーマンスは、依然として準最適である。
そこで本稿では,LLM のデバッグを "print debugging" 手法でガイドする,コンテキスト内学習手法を提案する。
論文 参考訳(メタデータ) (2024-01-10T18:37:59Z) - DebugBench: Evaluating Debugging Capability of Large Language Models [80.73121177868357]
DebugBench - LLM(Large Language Models)のベンチマーク。
C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。
ゼロショットシナリオで2つの商用および4つのオープンソースモデルを評価する。
論文 参考訳(メタデータ) (2024-01-09T15:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。