Fugu-MT 論文翻訳(概要): Large Language Model Guided Self-Debugging Code Generation

論文の概要: Large Language Model Guided Self-Debugging Code Generation

arxiv url: http://arxiv.org/abs/2502.02928v1
Date: Wed, 05 Feb 2025 06:43:40 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-06 16:28:50.995524
Title: Large Language Model Guided Self-Debugging Code Generation
Title（参考訳）: 大規模言語モデルによる自己デバッグコード生成
Authors: Muntasir Adnan, Zhiwei Xu, Carlos C. N. Kuhn,
Abstract要約: PyCapsuleはPythonコード生成の新しいフレームワークである。プロンプト推論、反復的なエラー処理、ケーステストなどが特徴である。 HumanEvalで最大5.7%、HumanEval-ETで最大10.3%、BigCodeBenchで最大24.4%を達成している。
参考スコア（独自算出の注目度）: 2.816120626533879
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Automated code generation is gaining significant importance in intelligent computer programming and system deployment. However, current approaches often face challenges in computational efficiency and lack robust mechanisms for code parsing and error correction. In this work, we propose a novel framework, PyCapsule, with a simple yet effective two-agent pipeline and efficient self-debugging modules for Python code generation. PyCapsule features sophisticated prompt inference, iterative error handling, and case testing, ensuring high generation stability, safety, and correctness. Empirically, PyCapsule achieves up to 5.7% improvement of success rate on HumanEval, 10.3% on HumanEval-ET, and 24.4% on BigCodeBench compared to the state-of-art methods. We also observe a decrease in normalized success rate given more self-debugging attempts, potentially affected by limited and noisy error feedback in retention. PyCapsule demonstrates broader impacts on advancing lightweight and efficient code generation for artificial intelligence systems.
Abstract（参考訳）: 自動化されたコード生成は、インテリジェントなコンピュータプログラミングとシステムデプロイメントにおいて重要な重要性を増している。しかし、現在のアプローチは、しばしば計算効率の課題に直面し、コード解析と誤り訂正のための堅牢なメカニズムが欠如している。そこで本研究では,Pythonコード生成のための,シンプルながら効果的な2エージェントパイプラインと効率的な自己デバッグモジュールを備えた新しいフレームワークであるPyCapsuleを提案する。 PyCapsuleは、高度なプロンプト推論、反復的なエラーハンドリング、ケーステストを備え、高ジェネレーション安定性、安全性、正確性を保証する。 PyCapsuleは、HumanEvalで最大5.7%、HumanEval-ETで10.3%、BigCodeBenchで24.4%を達成している。また,自己デバッグによる正常化の成功率の低下も観察した。 PyCapsuleは、人工知能システムのための軽量で効率的なコード生成の進歩に対する広範な影響を実証している。

関連論文リスト

MalCodeAI: Autonomous Vulnerability Detection and Remediation via Language Agnostic Code Reasoning [0.0]
MalCodeAIは、自律的なコードセキュリティ分析と修復のための言語に依存しないパイプラインである。コード分解と意味推論をQwen2.5-Coder-3B-Instructモデルで組み合わせる。 MalCodeAIは、レッドハットスタイルのエクスプロイトトレース、CVSSベースのリスクスコアリング、ゼロショットの一般化をサポートし、複雑なゼロデイ脆弱性を検出する。
論文参考訳（メタデータ） (2025-07-15T01:25:04Z)
A Fast, Reliable, and Secure Programming Language for LLM Agents with Code Actions [28.01600045250939]
我々はQuasarと呼ばれるコードアクションのためのプログラミング言語を提案する。 LLMはPythonのサブセットでコードを書くことができ、自動的にQuasarに変換される。 Quasarアクションを持つLLMは高いパフォーマンスを維持し、可能な限り実行時間を42%削減する。
論文参考訳（メタデータ） (2025-06-13T20:11:22Z)
Pychop: Emulating Low-Precision Arithmetic in Numerical Methods and Neural Networks [0.0]
低精度算術は、より効率的な計算とメモリとエネルギー消費の削減を可能にし、ディープラーニングに革命をもたらした。我々はPychopライブラリを開発し、Pythonでカスタマイズ可能な浮動小数点形式と包括的な丸めモードをサポートする。本稿では,Pychopの設計,実装,検証,実用化の総合的な解説を行う。
論文参考訳（メタデータ） (2025-04-10T15:12:29Z)
Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文参考訳（メタデータ） (2025-02-20T18:32:19Z)
Intelligent Green Efficiency for Intrusion Detection [0.0]
本稿では,AIの性能向上のための異なるプログラミング言語と特徴選択(FS)手法の評価を行う。実験はRandom Forest、XGBoost、LightGBM、Multi-Layer Perceptron、Long Short-Term Memoryの5つのMLモデルを用いて行われた。その結果、FSは検出精度を損なうことなくAIモデルの計算効率を向上させる重要な役割を担っていることが示された。
論文参考訳（メタデータ） (2024-11-11T15:01:55Z)
Low-Cost Language Models: Survey and Performance Evaluation on Python Code Generation [0.0]
大規模言語モデル(LLM)は多くの自然言語処理(NLP)タスクで一般的な選択肢となっている。 LLMの相当な計算とメモリ要件は、限られたリソースを持つユーザーにはアクセスできないことが多い。本稿では,資源集約型LLMの代替となる,非常に低コストなモデルに焦点をあてる。
論文参考訳（メタデータ） (2024-04-17T08:16:48Z)
DeVAIC: A Tool for Security Assessment of AI-generated Code [5.383910843560784]
DeVAIC (Detection of Vulnerabilities in AI Generated Code)は、AI生成のPythonコードのセキュリティを評価するツールである。
論文参考訳（メタデータ） (2024-04-11T08:27:23Z)
Camouflage is all you need: Evaluating and Enhancing Language Model Robustness Against Camouflage Adversarial Attacks [53.87300498478744]
自然言語処理(NLP)における敵攻撃の意義本研究は、脆弱性評価とレジリエンス向上という2つの異なる段階において、この課題を体系的に探求する。結果として、パフォーマンスとロバスト性の間のトレードオフが示唆され、いくつかのモデルは、ロバスト性を確保しながら、同様のパフォーマンスを維持している。
論文参考訳（メタデータ） (2024-02-15T10:58:22Z)
Uncertainty-aware Parameter-Efficient Self-training for Semi-supervised Language Understanding [38.11411155621616]
我々は,主に半教師あり学習の手法として,自己学習について研究している。我々は,新しい不確かさを意識した自己学習フレームワークであるUPETを紹介する。 UPETは性能と効率の面で大幅に向上したことを示す。
論文参考訳（メタデータ） (2023-10-19T02:18:29Z)
Dynamic Transformers Provide a False Sense of Efficiency [75.39702559746533]
マルチエグジットモデルは、計算の節約を早期出口から得るため、効率と精度をトレードオフする。本稿では,マルチエグジットモデルの効率を抑えるために特別に最適化された,シンプルで効果的なアタック・フレームワークであるITAを提案する。 GLUEベンチマークの実験により、Pameは様々なマルチエクイットモデルの効率向上を平均80%削減できることが示された。
論文参考訳（メタデータ） (2023-05-20T16:41:48Z)
Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文参考訳（メタデータ） (2023-04-11T10:43:43Z)
NAPG: Non-Autoregressive Program Generation for Hybrid Tabular-Textual Question Answering [52.10214317661547]
現在の数値推論法はプログラムシーケンスを自己回帰的にデコードする。プログラム生成の精度は、デコードステップがエラー伝搬によって展開されるにつれて急激に低下する。本稿では,非自己回帰型プログラム生成フレームワークを提案する。
論文参考訳（メタデータ） (2022-11-07T11:25:21Z)
Fault-Aware Neural Code Rankers [64.41888054066861]
サンプルプログラムの正しさを予測できる故障認識型ニューラルネットワークローダを提案する。我々のフォールト・アウェア・ローダは、様々なコード生成モデルのpass@1精度を大幅に向上させることができる。
論文参考訳（メタデータ） (2022-06-04T22:01:05Z)
Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。私たちのベンチマークには1万の問題が含まれています。 GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文参考訳（メタデータ） (2021-05-20T17:58:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。