Fugu-MT 論文翻訳(概要): Self-Edit: Fault-Aware Code Editor for Code Generation

論文の概要: Self-Edit: Fault-Aware Code Editor for Code Generation

arxiv url: http://arxiv.org/abs/2305.04087v1
Date: Sat, 6 May 2023 16:12:19 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-09 17:38:09.442590
Title: Self-Edit: Fault-Aware Code Editor for Code Generation
Title（参考訳）: 自己編集:コード生成のためのフォールトアウェアコードエディタ
Authors: Kechi Zhang, Zhuo Li, Jia Li, Ge Li, Zhi Jin
Abstract要約: 大規模言語モデル(LLM)は、競合するプログラミングタスクのコードを生成する素晴らしい能力を示している。本稿では,LLMから生成したコードの実行結果を利用してコード品質を向上させるジェネレーション・アンド・エジット手法を提案する。
参考スコア（独自算出の注目度）: 35.99257569050048
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have demonstrated an impressive ability to generate codes on competitive programming tasks. However, with limited sample numbers, LLMs still suffer from poor accuracy. Inspired by the process of human programming, we propose a generate-and-edit approach that utilizes execution results of the generated code from LLMs to improve the code quality on the competitive programming task. We execute the generated code on the example test case provided in the question and wrap execution results into a supplementary comment. Utilizing this comment as guidance, our fault-aware code editor is employed to correct errors in the generated code. We perform extensive evaluations across two competitive programming datasets with nine different LLMs. Compared to directly generating from LLMs, our approach can improve the average of pass@1 by 89\% on APPS-dev, 31\% on APPS-test, and 48\% on HumanEval over nine popular code generation LLMs with parameter sizes ranging from 110M to 175B. Compared to other post-processing methods, our method demonstrates superior accuracy and efficiency.
Abstract（参考訳）: 大規模言語モデル(LLM)は、競合するプログラミングタスクのコードを生成する素晴らしい能力を示している。しかし、サンプル数が限られているため、LLMは依然として精度が低い。人間のプログラミングのプロセスに触発されて,LLMから生成されたコードの実行結果を利用して,競合するプログラミングタスクにおけるコード品質を改善する。質問に含まれるサンプルテストケースで生成されたコードを実行し、実行結果を補足コメントにラップします。このコメントをガイダンスとして利用し,フォールトアウェアコードエディタを用いて生成したコードのエラーを訂正する。我々は、9つの異なるLLMを持つ2つの競合プログラミングデータセットに対して広範な評価を行う。 LLMの直接生成と比較すると、パラメータサイズが110Mから175Bの9つの人気のあるコード生成LLMに対して、APPS-devでは89倍、APPS-testでは31倍、HumanEvalでは48倍の改善が可能である。本手法は他の後処理法と比較して精度と効率が優れる。

関連論文リスト

BigCodeArena: Unveiling More Reliable Human Preferences in Code Generation via Execution [68.95247403447051]
BigCodeArenaは、包括的でオンザフライな実行環境を背景とした、コード生成のためのオープンなヒューマン評価プラットフォームである。 10の言語と8種類の実行環境にまたがる10のLLMで14,000以上の生のコード中心の会話セッションを収集しました。 BigCodeRewardでは、4700件の会話を後処理し、報酬モデルと人間の好みの一貫性を評価した。
論文参考訳（メタデータ） (2025-10-09T18:01:47Z)
IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。 IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文参考訳（メタデータ） (2025-07-30T08:08:48Z)
PerfCodeGen: Improving Performance of LLM Generated Code with Execution Feedback [78.89596149768458]
大規模言語モデル(LLM)は、ソフトウェア開発タスクを支援するために広く採用されている。 LLM生成コードの性能を向上させるトレーニングフリーフレームワークPerfCodeGenを提案する。
論文参考訳（メタデータ） (2024-11-18T06:22:38Z)
ROCODE: Integrating Backtracking Mechanism and Program Analysis in Large Language Models for Code Generation [31.363781211927947]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。 LLMはコード生成時にエラーの蓄積に影響を受けやすい。コード生成のためのLLMにバックトラック機構とプログラム解析を統合したROCODEを提案する。
論文参考訳（メタデータ） (2024-11-11T16:39:13Z)
AIME: AI System Optimization via Multiple LLM Evaluators [79.03422337674664]
AIME は複数の LLM を利用した評価プロトコルであり、それぞれが独立した基準で評価を生成し、結合を通してそれらを結合する。コード生成タスクにおける AIME のベースラインメソッドのパフォーマンスは,LeetCodeHard と HumanEval データセットの単一 LLM 評価プロトコルよりも最大 62% 高いエラー検出率,最大 16% 高い成功率で向上している。
論文参考訳（メタデータ） (2024-10-04T04:03:24Z)
zsLLMCode: An Effective Approach for Code Embedding via LLM with Zero-Shot Learning [6.976968804436321]
本稿では,大言語モデル(LLM)と文埋め込みモデルを用いて,新たなゼロショット手法であるzsLLMCodeを提案する。その結果,最先端の教師なしアプローチに対する提案手法の有効性と優位性を実証した。
論文参考訳（メタデータ） (2024-09-23T01:03:15Z)
Automated Prompt Engineering for Cost-Effective Code Generation Using Evolutionary Algorithm [8.009881267479189]
大規模言語モデルでは、様々なソフトウェア開発タスク、特にコード生成での利用が増加している。進化的プロンプト・エンジニアリング・フォー・コード(EPiC)という代替手法を提案する。 EPiCは軽量な進化的アルゴリズムを使用して、オリジナルのプロンプトを改良したバージョンに洗練し、高品質なコードを生成する。最先端(SOTA)のコード生成エージェントに対する評価では、EPiCはパス@kの最大6%の改善を達成できるだけでなく、ベースラインよりも2～10倍コスト効率が高いことが示されている。
論文参考訳（メタデータ） (2024-08-20T21:15:36Z)
A Performance Study of LLM-Generated Code on Leetcode [1.747820331822631]
本研究では,Large Language Models (LLM) によるコード生成の効率性を評価する。モデル温度や成功率などの要因とコード性能への影響を考慮し、18個のLLMを比較した。 LLMは、人間によって書かれたコードよりも平均的に、より効率的なコードを生成することができる。
論文参考訳（メタデータ） (2024-07-31T13:10:03Z)
Case2Code: Scalable Synthetic Data for Code Generation [105.89741089673575]
大規模言語モデル(LLM)は、コード生成において顕著なブレークスルーを示している。最近の研究は、いくつかの強力なLLMによって生成された合成データをトレーニングすることで、コードLLMを改善している。プログラムの表現性と正確性を利用したtextbfCase2Code タスクを提案する。
論文参考訳（メタデータ） (2024-07-17T11:35:00Z)
Chain of Targeted Verification Questions to Improve the Reliability of Code Generated by LLMs [10.510325069289324]
LLMが生成するコードの信頼性向上を目的とした自己補充手法を提案する。当社のアプローチは,初期コード内の潜在的なバグを特定するために,対象とする検証質問(VQ)に基づいています。本手法は,LLMをターゲットとするVQと初期コードで再プロンプトすることで,潜在的なバグの修復を試みる。
論文参考訳（メタデータ） (2024-05-22T19:02:50Z)
On Evaluating the Efficiency of Source Code Generated by LLMs [31.8121544062256]
より効率的なコードは、LCM支援プログラミングで完了したプログラムやソフトウェアの性能と実行効率を向上させる。まず,HumanEval と MBPP の2つのベンチマークで LLM が生成したコードの有効性を評価する。そして,オンライン審査プラットフォームLeetCodeから,より難しい評価を行うために,一連のプログラミング問題を選択する。
論文参考訳（メタデータ） (2024-04-09T05:59:39Z)
Exploring Data-Efficient Adaptation of Large Language Models for Code Generation [64.5583894165813]
コード生成のための誤り駆動学習を用いたデータ効率向上のための新しい適応手法DEEDを提案する。実験により、他の主流の微調整手法と比較して、DEEDは訓練データが少なく、優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-02-29T16:09:02Z)
Assured LLM-Based Software Engineering [51.003878077888686]
この記事では,2024年4月15日にポルトガルのリスボンで開催された International Workshop on Interpretability, Robustness, and Benchmarking in Neural Software Engineering で,Mark Harman 氏による基調講演の内容の概要を紹介する。
論文参考訳（メタデータ） (2024-02-06T20:38:46Z)
StepCoder: Improve Code Generation with Reinforcement Learning from Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。 CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。 FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文参考訳（メタデータ） (2024-02-02T13:14:31Z)
LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。 LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文参考訳（メタデータ） (2023-02-16T18:23:22Z)
Fault-Aware Neural Code Rankers [64.41888054066861]
サンプルプログラムの正しさを予測できる故障認識型ニューラルネットワークローダを提案する。我々のフォールト・アウェア・ローダは、様々なコード生成モデルのpass@1精度を大幅に向上させることができる。
論文参考訳（メタデータ） (2022-06-04T22:01:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。