Fugu-MT 論文翻訳(概要): LLMLOOP: Improving LLM-Generated Code and Tests through Automated Iterative Feedback Loops

論文の概要: LLMLOOP: Improving LLM-Generated Code and Tests through Automated Iterative Feedback Loops

arxiv url: http://arxiv.org/abs/2603.23613v1
Date: Tue, 24 Mar 2026 18:01:14 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-26 21:06:10.97427
Title: LLMLOOP: Improving LLM-Generated Code and Tests through Automated Iterative Feedback Loops
Title（参考訳）: LLMLOOP: 反復フィードバックループによるLLM生成コードとテストの改善
Authors: Ravin Ravi, Dylan Bradshaw, Stefano Ruberto, Gunel Jahangirova, Valerio Terragni,
Abstract要約: 大きな言語モデル(LLM)は、ソースコードの生成において顕著なパフォーマンスを示している。しかし、生成されたコードは、しばしばコンパイルエラーや間違ったコードのような問題を起こします。本稿では,ソースコードとテストケースの両方の洗練を自動化するフレームワークであるLLMLOOPについて述べる。
参考スコア（独自算出の注目度）: 4.056039458255759
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) are showing remarkable performance in generating source code, yet the generated code often has issues like compilation errors or incorrect code. Researchers and developers often face wasted effort in implementing checks and refining LLM-generated code, frequently duplicating their efforts. This paper presents LLMLOOP, a framework that automates the refinement of both source code and test cases produced by LLMs. LLMLOOP employs five iterative loops: resolving compilation errors, addressing static analysis issues, fixing test case failures, and improving test quality through mutation analysis. These loops ensure the generation of high-quality test cases that serve as both a validation mechanism and a regression test suite for the generated code. We evaluated LLMLOOP on HUMANEVAL-X, a recent benchmark of programming tasks. Results demonstrate the tool's effectiveness in refining LLM-generated outputs.
Abstract（参考訳）: 大規模な言語モデル(LLM)は、ソースコードの生成において顕著なパフォーマンスを示しているが、生成されたコードは、コンパイルエラーや間違ったコードのような問題が多い。研究者や開発者は、しばしばチェックの実装やLLM生成コードの精錬に費やされた労力に直面し、しばしばその労力を重複させた。本稿では,LLMLOOPについて述べる。LLMLOOPは,LLMが生成するソースコードとテストケースの両方を改良するフレームワークである。 LLMLOOPでは、コンパイルエラーの解決、静的解析の問題への対処、テストケースの障害の修正、突然変異解析によるテスト品質の向上という、5つの反復ループが採用されている。これらのループは、バリデーションメカニズムと生成されたコードの回帰テストスイートの両方として機能する高品質なテストケースの生成を保証する。 LLMLOOPをHUMANEVAL-X上で評価した。その結果, LLM生成出力の精製におけるツールの有効性が示された。

関連論文リスト

Efficient Real-time Refinement of Language Model Text Generation [65.1937138219008]
大規模言語モデル(LLM)は、幅広い自然言語タスクにおいて顕著な性能を示している。重要な課題は、時に事実的に誤った答えを生じさせることである。本稿では,LLM出力の検証と改善の効率化を目的とした新しい手法であるStreaming-VRを提案する。
論文参考訳（メタデータ） (2025-01-14T03:59:48Z)
ROCODE: Integrating Backtracking Mechanism and Program Analysis in Large Language Models for Code Generation [31.363781211927947]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。 LLMはコード生成時にエラーの蓄積に影響を受けやすい。コード生成のためのLLMにバックトラック機構とプログラム解析を統合したROCODEを提案する。
論文参考訳（メタデータ） (2024-11-11T16:39:13Z)
Automatic Generation of Benchmarks and Reliable LLM Judgment for Code Tasks [0.8274693573069442]
この研究は、自動生成されたベンチマークを利用して、LaaJの実装を生成および評価する方法論を導入する。ベンチマークは、LaaJの開発と検証と、LaaJを使用してLLMコード関連ソリューションの検証とテストの両方に使用される。私たちのアプローチは、高品質なコードタスクソリューションの作成を可能にします。
論文参考訳（メタデータ） (2024-10-28T14:34:36Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [92.62952504133926]
本研究は,3つの一般的なベンチマーク上で,3つの主要なクローズドソースLLMと6つの人気のあるオープンソースLLMの性能評価を行った。間違ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析した。本稿では,自己批判を導入し,LLMが生成したコードに対する批判と修正を可能にする,新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
Towards Understanding the Characteristics of Code Generation Errors Made by Large Language Models [10.519984835232359]
大規模言語モデル(LLM)はコード生成において前例のない機能を示している。我々は,HumanEvalデータセット上の6つの代表的なLCMに対して,コード生成エラーの詳細な解析を行った。 LLMによるコード生成エラーの発見と修正には,いくつかの課題が浮かび上がっている。
論文参考訳（メタデータ） (2024-06-13T01:29:52Z)
StepCoder: Improve Code Generation with Reinforcement Learning from Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。 CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。 FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文参考訳（メタデータ） (2024-02-02T13:14:31Z)
Coarse-Tuning Models of Code with Reinforcement Learning Feedback [0.0]
コード上で事前訓練されたLarge Language Models (LLM) が、プログラム合成の主流のアプローチとして登場した。コードの品質を評価する接地関数からのフィードバックを用いて、強化学習により事前学習したLLMをさらに訓練するRCCFを提案する。
論文参考訳（メタデータ） (2023-05-25T22:09:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。