論文の概要: Enhancing the Code Debugging Ability of LLMs via Communicative Agent Based Data Refinement
- arxiv url: http://arxiv.org/abs/2408.05006v1
- Date: Fri, 9 Aug 2024 11:35:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-12 15:56:59.532295
- Title: Enhancing the Code Debugging Ability of LLMs via Communicative Agent Based Data Refinement
- Title(参考訳): コミュニケーションエージェントに基づくデータリファインメントによるLLMのコードデバッグ能力向上
- Authors: Weiqing Yang, Hanbin Wang, Zhenghao Liu, Xinze Li, Yukun Yan, Shuo Wang, Yu Gu, Minghe Yu, Zhiyuan Liu, Ge Yu,
- Abstract要約: 本稿ではまず,大規模言語モデル(LLM)のデバッグ能力を評価するためのベンチマークであるEVALを紹介する。
Masterは、教師付き微調整のための定義されたタスクに従って洗練されたコードデータを生成する。
最後に、Code Learnerは、批評家として機能し、解決できない発生した問題を予約する。
- 参考スコア(独自算出の注目度): 29.667170755786508
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Debugging is a vital aspect of software development, yet the debugging capabilities of Large Language Models (LLMs) remain largely unexplored. This paper first introduces DEBUGEVAL, a comprehensive benchmark designed to evaluate the debugging capabilities of LLMs. DEBUGEVAL collects data from existing high-quality datasets and designs four different tasks to evaluate the debugging effectiveness, including BUG Localization, BUG Identification, Code Review, and Code Repair. Additionally, to enhance the code debugging ability of LLMs, this paper proposes a CoMmunicative Agent BaSed DaTa REfinement FRamework (MASTER), which generates the refined code debugging data for supervised finetuning. Specifically, MASTER employs the Code Quizzer to generate refined data according to the defined tasks of DEBUGEVAL. Then the Code Learner acts as a critic and reserves the generated problems that it can not solve. Finally, the Code Teacher provides a detailed Chain-of-Thought based solution to deal with the generated problem. We collect the synthesized data and finetune the Code Learner to enhance the debugging ability and conduct the NeuDebugger model. Our experiments evaluate various LLMs and NeuDebugger in the zero-shot setting on DEBUGEVAL. Experimental results demonstrate that these 7B-scale LLMs have weaker debugging capabilities, even these code-oriented LLMs. On the contrary, these larger models (over 70B) show convincing debugging ability. Our further analyses illustrate that MASTER is an effective method to enhance the code debugging ability by synthesizing data for Supervised Fine-Tuning (SFT) LLMs.
- Abstract(参考訳): デバッグはソフトウェア開発の重要な側面であるが、Large Language Models (LLMs) のデバッグ機能は、ほとんど探索されていないままである。
本稿ではまず,LLMのデバッグ機能を評価するための総合的なベンチマークであるDEBUGEVALを紹介する。
DEBUGEVALは、既存の高品質データセットからデータを収集し、BUGローカライゼーション、BUG識別、コードレビュー、コード修復など、デバッグの有効性を評価する4つの異なるタスクを設計する。
さらに,LLMのコードデバッグ能力を高めるために,教師付き微調整のための洗練されたコードデバッグデータを生成するCoMmunicative Agent Based DaTa Refinement FRamework (MASTER)を提案する。
具体的には、DBUGEVALの定義したタスクに従って洗練されたデータを生成するために、Code Quizzerを使用している。
その後、Code Learnerは批評家として行動し、解決できない発生した問題を予約する。
最後に、Code Teacherは、生成された問題に対処するための詳細なChain-of-Thoughtベースのソリューションを提供する。
我々は合成データを収集し、Code Learnerを微調整し、デバッグ能力を高め、NeuDebuggerモデルを実行します。
実験では, DEBUGEVAL のゼロショット設定における様々な LLM と NeuDebugger の評価を行った。
実験結果から,これらの 7B スケール LLM は,コード指向 LLM よりもデバッグ能力が弱いことが示された。
それとは対照的に、これらのより大きなモデル(70B以上)は、説得力のあるデバッグ機能を示している。
さらに,MASTERは,SFT (Supervised Fine-Tuning) LLM) のデータ合成により,コードデバッグ能力を向上する有効な手法であることを示す。
関連論文リスト
- UnitCoder: Scalable Iterative Code Synthesis with Unit Test Guidance [65.01483640267885]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示してきたが、コード生成は依然として大きな課題である。
私たちは、モデル生成ユニットテストを活用してコード生成プロセスのガイドと検証を行う、システマティックパイプラインであるUnitCoderを紹介します。
我々の研究は、モデル生成単体テストを利用して、事前学習コーパスから高品質なコードデータの合成を誘導するスケーラブルなアプローチを提案する。
論文 参考訳(メタデータ) (2025-02-17T05:37:02Z) - Leveraging Metamemory Mechanisms for Enhanced Data-Free Code Generation in LLMs [44.80420740455364]
M2WFは、大規模言語モデルのワンタイムコード生成を改善するためのフレームワークである。
従来の方法とは異なり、キュレートされたデータへの依存を最小限に抑え、さまざまなコーディングシナリオに適応する。
コードとフレームワークはGitHubとHuggingFaceで公開されている。
論文 参考訳(メタデータ) (2025-01-14T07:16:43Z) - Prompting and Fine-tuning Large Language Models for Automated Code Review Comment Generation [5.6001617185032595]
プログラムデータと自然言語データの両方で事前訓練された大きな言語モデルは、コード指向のタスクでうまく機能する傾向にある。
我々は,パラメータ効率,量子化低ランクのオープンソースLarge Language Model (LLM) をコンシューマグレードハードウェア上で微調整し,レビューコメント生成を改善する。
論文 参考訳(メタデータ) (2024-11-15T12:01:38Z) - OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [70.72097493954067]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。
オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。
トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文 参考訳(メタデータ) (2024-11-07T17:47:25Z) - RGD: Multi-LLM Based Agent Debugger via Refinement and Generation Guidance [0.6062751776009752]
大規模言語モデル(LLM)は、コード生成タスクにおいて驚くべきポテンシャルを示しています。
LLMはタスク記述に基づいてコードを生成することができるが、精度は限られている。
コード生成と自動デバッグのためのLLMエージェントの新しいアーキテクチャ:Refinement and Guidancebug (RGD)を紹介する。
RGDはコード生成タスクを複数のステップに分割し、より明確なワークフローを確保し、自己回帰とフィードバックに基づいた反復的なコード改善を可能にする。
論文 参考訳(メタデータ) (2024-10-02T05:07:02Z) - Case2Code: Scalable Synthetic Data for Code Generation [105.89741089673575]
大規模言語モデル(LLM)は、コード生成において顕著なブレークスルーを示している。
最近の研究は、いくつかの強力なLLMによって生成された合成データをトレーニングすることで、コードLLMを改善している。
プログラムの表現性と正確性を利用したtextbfCase2Code タスクを提案する。
論文 参考訳(メタデータ) (2024-07-17T11:35:00Z) - Code Less, Align More: Efficient LLM Fine-tuning for Code Generation with Data Pruning [4.975728472540823]
各種クラスタリングとプルーニングのメトリクスを統合して、生成されたコードの正確性や機能を損なうことなく、トレーニングデータを選択的に削減する手法を提案する。
実験により,これらのプルーニング戦略は,必要な計算資源を削減するだけでなく,全体的な品質コード生成を向上することが示された。
論文 参考訳(メタデータ) (2024-07-06T10:30:43Z) - AlchemistCoder: Harmonizing and Eliciting Code Capability by Hindsight Tuning on Multi-source Data [64.69872638349922]
本稿では、マルチソースデータに微調整されたコード生成と一般化機能を備えたコードLLMのシリーズであるAlchemistCoderを紹介する。
本稿では,データ構築過程を微調整データに組み込んで,命令の進化,データフィルタリング,コードレビューなどのコード理解タスクを提案する。
論文 参考訳(メタデータ) (2024-05-29T16:57:33Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - DebugBench: Evaluating Debugging Capability of Large Language Models [80.73121177868357]
DebugBench - LLM(Large Language Models)のベンチマーク。
C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。
ゼロショットシナリオで2つの商用および4つのオープンソースモデルを評価する。
論文 参考訳(メタデータ) (2024-01-09T15:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。