論文の概要: Revisit Self-Debugging with Self-Generated Tests for Code Generation
- arxiv url: http://arxiv.org/abs/2501.12793v1
- Date: Wed, 22 Jan 2025 10:54:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 16:53:48.395729
- Title: Revisit Self-Debugging with Self-Generated Tests for Code Generation
- Title(参考訳): コード生成のための自己生成テストによる自己デバッグの再検討
- Authors: Xiancai Chen, Zhengwei Tao, Kechi Zhang, Changzhi Zhou, Wanli Gu, Yuanpeng He, Mengdi Zhang, Xunliang Cai, Haiyan Zhao, Zhi Jin,
- Abstract要約: 自己生成テストによる自己改善は、有望なソリューションだが、その限界と現実的な可能性を十分に探求することができない。
プロセスにはポストエグゼクティブとインエグゼクティブ自己老化という2つのパラダイムを提案する。
実行後の自己老化は基本的な問題に苦しむが、自己生成テストによって生じるバイアスのため、競合する問題の改善の可能性を示す。
- 参考スコア(独自算出の注目度): 18.643472696246686
- License:
- Abstract: Large language models (LLMs) have shown significant advancements in code generation, but still face challenges on tasks beyond their basic capabilities. Recently, the notion of self-debugging has been proposed to boost the performance of code generation by leveraging execution feedback from tests. Despite its promise, the availability of high-quality tests in real-world scenarios is limited. In this context, self-debugging with self-generated tests is a promising solution but lacks a full exploration of its limitations and practical potential. Therefore, we investigate its efficacy on diverse programming problems. To deepen our understanding, we propose two distinct paradigms for the process: post-execution and in-execution self-debugging. Within the scope of self-contained Python programming tasks, we find that post-execution self-debugging struggles on basic problems but shows potential for improvement on competitive ones, due to the bias introduced by self-generated tests. On the other hand, in-execution self-debugging enables LLMs to mitigate the bias by solely leveraging intermediate states during execution, thereby enhancing code generation.
- Abstract(参考訳): 大規模言語モデル(LLM)はコード生成の大幅な進歩を示しているが、基本的な機能以上の課題に直面している。
近年、自己デバッグの概念は、テストの実行フィードバックを活用することで、コード生成のパフォーマンスを向上させるために提案されている。
その約束にもかかわらず、現実世界のシナリオで高品質なテストが利用できることは限られている。
この文脈では、自己生成テストによる自己デバッグは、有望なソリューションであるが、その制限と実用的な可能性について完全な調査は欠如している。
そこで本研究では,多様なプログラミング問題に対する有効性について検討する。
我々の理解を深めるために、私たちはプロセスの異なるパラダイムとして、ポストエグゼクティブとインエグゼクティブ自己デバッグを提案します。
自己完結型Pythonプログラミングタスクの範囲内では、実行後の自己デバッグは基本的な問題に苦戦するが、自己生成テストによってもたらされるバイアスのため、競合するタスクの改善の可能性を示す。
一方、実行中の自己デバッグにより、LCMは実行中の中間状態のみを活用することでバイアスを軽減することができ、コード生成が向上する。
関連論文リスト
- ASTER: Natural and Multi-language Unit Test Generation with LLMs [6.259245181881262]
静的解析を組み込んだジェネリックパイプラインを記述し,コンパイル可能な高カバレッジテストケースの生成においてLCMをガイドする。
コードカバレッジとテスト自然性の観点から,生成したテストの品質を評価するための実証的研究を行った。
論文 参考訳(メタデータ) (2024-09-04T21:46:18Z) - DOCE: Finding the Sweet Spot for Execution-Based Code Generation [69.5305729627198]
本稿では,候補生成,$n$-best再ランク,最小ベイズリスク(MBR)復号化,自己老化などを含む包括的フレームワークを提案する。
本研究は,実行ベースメソッドの重要性と,実行ベースメソッドと実行フリーメソッドとの差を明らかにする。
論文 参考訳(メタデータ) (2024-08-25T07:10:36Z) - Effective Large Language Model Debugging with Best-first Tree Search [27.68711322875045]
大きな言語モデル(LLM)は、コード生成タスクの約束を示す。
LLMはバグの発見と修正を一貫して行うことはできない。
本研究では,LLMが自己回帰と探索によってコードをデバッグするアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-07-26T19:26:00Z) - Re-ReST: Reflection-Reinforced Self-Training for Language Agents [101.22559705696885]
言語エージェントにおける自己学習は、エージェント自体から監督を生成することができる。
リフレクション強化自己学習(Reflection-Reinforced Self-Training, Re-ReST)は, テキストレフレクタを用いて低品質な試料を精製する。
論文 参考訳(メタデータ) (2024-06-03T16:21:38Z) - NExT: Teaching Large Language Models to Reason about Code Execution [50.93581376646064]
大規模言語モデル(LLM)のコードは通常、プログラムの表面テキスト形式に基づいて訓練される。
NExTは,プログラムの実行トレースを検査し,実行時の動作を判断する手法である。
論文 参考訳(メタデータ) (2024-04-23T01:46:32Z) - Test-Driven Development for Code Generation [0.850206009406913]
大きな言語モデル(LLM)は、問題ステートメントから直接コードスニペットを生成する重要な機能を示している。
本稿では,テスト駆動開発(TDD)をAI支援コード生成プロセスに組み込む方法について検討する。
論文 参考訳(メタデータ) (2024-02-21T04:10:12Z) - A Static Evaluation of Code Completion by Large Language Models [65.18008807383816]
単純なプログラミング問題に対するモデル生成コードの機能的正当性を評価するために,実行ベースベンチマークが提案されている。
プログラムを実行せずにエラーを検出するlinterのような静的解析ツールは、コード生成モデルを評価するために十分に研究されていない。
抽象構文木を利用して,Pythonのコード補完における静的エラーを定量化する静的評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-05T19:23:34Z) - Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。
本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文 参考訳(メタデータ) (2023-04-11T10:43:43Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。