論文の概要: Large Language Model Guided Self-Debugging Code Generation
- arxiv url: http://arxiv.org/abs/2502.02928v1
- Date: Wed, 05 Feb 2025 06:43:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 14:29:09.336055
- Title: Large Language Model Guided Self-Debugging Code Generation
- Title(参考訳): 大規模言語モデルによる自己デバッグコード生成
- Authors: Muntasir Adnan, Zhiwei Xu, Carlos C. N. Kuhn,
- Abstract要約: PyCapsuleはPythonコード生成の新しいフレームワークである。
プロンプト推論、反復的なエラー処理、ケーステストなどが特徴である。
HumanEvalで最大5.7%、HumanEval-ETで最大10.3%、BigCodeBenchで最大24.4%を達成している。
- 参考スコア(独自算出の注目度): 2.816120626533879
- License:
- Abstract: Automated code generation is gaining significant importance in intelligent computer programming and system deployment. However, current approaches often face challenges in computational efficiency and lack robust mechanisms for code parsing and error correction. In this work, we propose a novel framework, PyCapsule, with a simple yet effective two-agent pipeline and efficient self-debugging modules for Python code generation. PyCapsule features sophisticated prompt inference, iterative error handling, and case testing, ensuring high generation stability, safety, and correctness. Empirically, PyCapsule achieves up to 5.7% improvement of success rate on HumanEval, 10.3% on HumanEval-ET, and 24.4% on BigCodeBench compared to the state-of-art methods. We also observe a decrease in normalized success rate given more self-debugging attempts, potentially affected by limited and noisy error feedback in retention. PyCapsule demonstrates broader impacts on advancing lightweight and efficient code generation for artificial intelligence systems.
- Abstract(参考訳): 自動化されたコード生成は、インテリジェントなコンピュータプログラミングとシステムデプロイメントにおいて重要な重要性を増している。
しかし、現在のアプローチは、しばしば計算効率の課題に直面し、コード解析と誤り訂正のための堅牢なメカニズムが欠如している。
そこで本研究では,Pythonコード生成のための,シンプルながら効果的な2エージェントパイプラインと効率的な自己デバッグモジュールを備えた新しいフレームワークであるPyCapsuleを提案する。
PyCapsuleは、高度なプロンプト推論、反復的なエラーハンドリング、ケーステストを備え、高ジェネレーション安定性、安全性、正確性を保証する。
PyCapsuleは、HumanEvalで最大5.7%、HumanEval-ETで10.3%、BigCodeBenchで24.4%を達成している。
また,自己デバッグによる正常化の成功率の低下も観察した。
PyCapsuleは、人工知能システムのための軽量で効率的なコード生成の進歩に対する広範な影響を実証している。
関連論文リスト
- Revisit Self-Debugging with Self-Generated Tests for Code Generation [18.643472696246686]
自己生成テストによる自己改善は、有望なソリューションだが、その限界と現実的な可能性を十分に探求することができない。
プロセスにはポストエグゼクティブとインエグゼクティブ自己老化という2つのパラダイムを提案する。
実行後の自己老化は基本的な問題に苦しむが、自己生成テストによって生じるバイアスのため、競合する問題の改善の可能性を示す。
論文 参考訳(メタデータ) (2025-01-22T10:54:19Z) - Intelligent Green Efficiency for Intrusion Detection [0.0]
本稿では,AIの性能向上のための異なるプログラミング言語と特徴選択(FS)手法の評価を行う。
実験はRandom Forest、XGBoost、LightGBM、Multi-Layer Perceptron、Long Short-Term Memoryの5つのMLモデルを用いて行われた。
その結果、FSは検出精度を損なうことなくAIモデルの計算効率を向上させる重要な役割を担っていることが示された。
論文 参考訳(メタデータ) (2024-11-11T15:01:55Z) - DeVAIC: A Tool for Security Assessment of AI-generated Code [5.383910843560784]
DeVAIC (Detection of Vulnerabilities in AI Generated Code)は、AI生成のPythonコードのセキュリティを評価するツールである。
論文 参考訳(メタデータ) (2024-04-11T08:27:23Z) - Camouflage is all you need: Evaluating and Enhancing Language Model
Robustness Against Camouflage Adversarial Attacks [53.87300498478744]
自然言語処理(NLP)における敵攻撃の意義
本研究は、脆弱性評価とレジリエンス向上という2つの異なる段階において、この課題を体系的に探求する。
結果として、パフォーマンスとロバスト性の間のトレードオフが示唆され、いくつかのモデルは、ロバスト性を確保しながら、同様のパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-02-15T10:58:22Z) - Uncertainty-aware Parameter-Efficient Self-training for Semi-supervised
Language Understanding [38.11411155621616]
我々は,主に半教師あり学習の手法として,自己学習について研究している。
我々は,新しい不確かさを意識した自己学習フレームワークであるUPETを紹介する。
UPETは性能と効率の面で大幅に向上したことを示す。
論文 参考訳(メタデータ) (2023-10-19T02:18:29Z) - Dynamic Transformers Provide a False Sense of Efficiency [75.39702559746533]
マルチエグジットモデルは、計算の節約を早期出口から得るため、効率と精度をトレードオフする。
本稿では,マルチエグジットモデルの効率を抑えるために特別に最適化された,シンプルで効果的なアタック・フレームワークであるITAを提案する。
GLUEベンチマークの実験により、Pameは様々なマルチエクイットモデルの効率向上を平均80%削減できることが示された。
論文 参考訳(メタデータ) (2023-05-20T16:41:48Z) - Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。
本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文 参考訳(メタデータ) (2023-04-11T10:43:43Z) - NAPG: Non-Autoregressive Program Generation for Hybrid Tabular-Textual
Question Answering [52.10214317661547]
現在の数値推論法はプログラムシーケンスを自己回帰的にデコードする。
プログラム生成の精度は、デコードステップがエラー伝搬によって展開されるにつれて急激に低下する。
本稿では,非自己回帰型プログラム生成フレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-07T11:25:21Z) - Fault-Aware Neural Code Rankers [64.41888054066861]
サンプルプログラムの正しさを予測できる故障認識型ニューラルネットワークローダを提案する。
我々のフォールト・アウェア・ローダは、様々なコード生成モデルのpass@1精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-06-04T22:01:05Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。