Fugu-MT 論文翻訳(概要): RGD: Multi-LLM Based Agent Debugger via Refinement and Generation Guidance

論文の概要: RGD: Multi-LLM Based Agent Debugger via Refinement and Generation Guidance

arxiv url: http://arxiv.org/abs/2410.01242v2
Date: Thu, 3 Oct 2024 13:12:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-04 22:18:46.967593
Title: RGD: Multi-LLM Based Agent Debugger via Refinement and Generation Guidance
Title（参考訳）: RGD:マルチLLMベースのエージェントデバッガ
Authors: Haolin Jin, Zechao Sun, Huaming Chen,
Abstract要約: 大規模言語モデル(LLM)は、コード生成タスクにおいて驚くべきポテンシャルを示しています。 LLMはタスク記述に基づいてコードを生成することができるが、精度は限られている。コード生成と自動デバッグのためのLLMエージェントの新しいアーキテクチャ:Refinement and Guidancebug (RGD)を紹介する。 RGDはコード生成タスクを複数のステップに分割し、より明確なワークフローを確保し、自己回帰とフィードバックに基づいた反復的なコード改善を可能にする。
参考スコア（独自算出の注目度）: 0.6062751776009752
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have shown incredible potential in code generation tasks, and recent research in prompt engineering have enhanced LLMs' understanding of textual information. However, ensuring the accuracy of generated code often requires extensive testing and validation by programmers. While LLMs can typically generate code based on task descriptions, their accuracy remains limited, especially for complex tasks that require a deeper understanding of both the problem statement and the code generation process. This limitation is primarily due to the LLMs' need to simultaneously comprehend text and generate syntactically and semantically correct code, without having the capability to automatically refine the code. In real-world software development, programmers rarely produce flawless code in a single attempt based on the task description alone, they rely on iterative feedback and debugging to refine their programs. Inspired by this process, we introduce a novel architecture of LLM-based agents for code generation and automatic debugging: Refinement and Guidance Debugging (RGD). The RGD framework is a multi-LLM-based agent debugger that leverages three distinct LLM agents-Guide Agent, Debug Agent, and Feedback Agent. RGD decomposes the code generation task into multiple steps, ensuring a clearer workflow and enabling iterative code refinement based on self-reflection and feedback. Experimental results demonstrate that RGD exhibits remarkable code generation capabilities, achieving state-of-the-art performance with a 9.8% improvement on the HumanEval dataset and a 16.2% improvement on the MBPP dataset compared to the state-of-the-art approaches and traditional direct prompting approaches. We highlight the effectiveness of the RGD framework in enhancing LLMs' ability to generate and refine code autonomously.
Abstract（参考訳）: 大規模言語モデル(LLM)は、コード生成タスクにおいて驚くべきポテンシャルを示しており、最近のインシデントエンジニアリングの研究により、LLMのテキスト情報に対する理解が強化されている。しかし、生成されたコードの正確性を保証するには、プログラマによる広範なテストと検証が必要であることが多い。 LLMは通常、タスク記述に基づいてコードを生成するが、その正確性は限定的であり、特に問題ステートメントとコード生成プロセスの両方をより深く理解する必要がある複雑なタスクに対してである。この制限は主に、LLMがテキストを同時に理解し、構文的に、意味的に正しいコードを生成する必要があるためである。現実世界のソフトウェア開発では、プログラマはタスク記述だけで1回の試行で欠陥のないコードを生成することはめったにない。このプロセスに触発されて、コード生成と自動デバッグのためのLLMベースのエージェントの新しいアーキテクチャ、Refinement and Guidance Debugging (RGD)を紹介した。 RGDフレームワークはマルチLLMベースのエージェントデバッガで、3つの異なるLLMエージェント-Guide Agent、Debug Agent、Feedback Agentを利用する。 RGDはコード生成タスクを複数のステップに分割し、より明確なワークフローを確保し、自己回帰とフィードバックに基づいた反復的なコード改善を可能にする。実験の結果、RGDは優れたコード生成能力を示し、HumanEvalデータセットを9.8%改善し、MBPPデータセットを16.2%改善した。コードを自動生成・洗練するLLMの能力向上におけるRGDフレームワークの有効性を強調した。

関連論文リスト

From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence [150.3696990310269]
大規模言語モデル(LLM)は、自然言語記述を直接関数コードに変換することによって、自動ソフトウェア開発を変革した。コードLLMに関する総合的な合成と実践的ガイド(一連の解析および探索実験)を提供する。一般LLM(GPT-4, Claude, LLaMA)とコード特殊化LLM(StarCoder, Code LLaMA, DeepSeek-Coder, QwenCoder)のコード機能の解析を行う。
論文参考訳（メタデータ） (2025-11-23T17:09:34Z)
DebugTA: An LLM-Based Agent for Simplifying Debugging and Teaching in Programming Education [32.673843958049254]
プログラミングと指導(DT)タスクでは、学生は誤ったコードを修正する支援を受ける。 DebugTA, 標準コード検索専用ツール, 参照コード調整用変数置換, リアルタイムコード解析用外部コンパイラを提案する。 DebugTAは、計算コストを大幅に削減しつつ、教育効率を継続的に改善することを示す。
論文参考訳（メタデータ） (2025-10-13T07:17:18Z)
A Survey on Code Generation with LLM-based Agents [61.474191493322415]
大規模言語モデル(LLM)を利用したコード生成エージェントは、ソフトウェア開発パラダイムに革命をもたらしている。 LLMは3つのコア特徴によって特徴づけられる。本稿では,LLMに基づくコード生成エージェントの分野を体系的に調査する。
論文参考訳（メタデータ） (2025-07-31T18:17:36Z)
IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。 IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文参考訳（メタデータ） (2025-07-30T08:08:48Z)
Augmenting Large Language Models with Static Code Analysis for Automated Code Quality Improvements [0.36832029288386137]
本研究では,大規模言語モデル(LLM)をソフトウェア開発に組み込んだコード問題検出と修正自動化について検討した。静的コード分析フレームワークは、大規模なソフトウェアプロジェクトの中でバグや脆弱性、コードの臭いなどの問題を検出する。検索拡張世代(RAG)は、リビジョンの関連性と精度を高めるために実装される。
論文参考訳（メタデータ） (2025-06-12T03:39:25Z)
Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文参考訳（メタデータ） (2025-05-28T17:57:47Z)
CodeIF: Benchmarking the Instruction-Following Capabilities of Large Language Models for Code Generation [24.090719826360342]
我々は、コード生成シナリオ内でタスク指向の命令に従うために、LLM(Large Language Models)の能力を評価するために設計された最初のベンチマークであるCodeIFを紹介する。我々はLLMによる広範囲な実験を行い、これらの課題の要求を満たす上での強みと限界を分析した。
論文参考訳（メタデータ） (2025-02-26T14:19:49Z)
Guided Code Generation with LLMs: A Multi-Agent Framework for Complex Code Tasks [1.9198713957364215]
大規模言語モデル(LLM)は、コード生成タスクにおいて顕著な機能を示している。複雑な、長いコンテキストプログラミングの課題に対処する上で、それらは重大な制限に直面します。「案内コード生成のための新しいエージェント・フレームワーク」について紹介する。
論文参考訳（メタデータ） (2025-01-11T19:21:53Z)
Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。 In-Context Learning (ICL) など。効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。下流タスクへのLLM。我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文参考訳（メタデータ） (2024-09-30T10:48:20Z)
Enhancing the Code Debugging Ability of LLMs via Communicative Agent Based Data Refinement [29.667170755786508]
本稿ではまず,大規模言語モデル(LLM)のデバッグ能力を評価するためのベンチマークであるEVALを紹介する。 Masterは、教師付き微調整のための定義されたタスクに従って洗練されたコードデータを生成する。最後に、Code Learnerは、批評家として機能し、解決できない発生した問題を予約する。
論文参考訳（メタデータ） (2024-08-09T11:35:44Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
Validating LLM-Generated Programs with Metamorphic Prompt Testing [8.785973653167112]
大規模言語モデル(LLM)は、ソフトウェア開発ライフサイクルにますます統合されています。本稿では,これらの課題に対処するため,メタモルフィック・プロンプト・テストと呼ばれる新しい手法を提案する。我々のHumanEvalに対する評価は,GPT-4が生成する誤プログラムの75%を,偽陽性率8.6%で検出できることを示す。
論文参考訳（メタデータ） (2024-06-11T00:40:17Z)
AlchemistCoder: Harmonizing and Eliciting Code Capability by Hindsight Tuning on Multi-source Data [64.69872638349922]
本稿では、マルチソースデータに微調整されたコード生成と一般化機能を備えたコードLLMのシリーズであるAlchemistCoderを紹介する。本稿では,データ構築過程を微調整データに組み込んで,命令の進化,データフィルタリング,コードレビューなどのコード理解タスクを提案する。
論文参考訳（メタデータ） (2024-05-29T16:57:33Z)
CodeIP: A Grammar-Guided Multi-Bit Watermark for Large Language Models of Code [56.019447113206006]
大規模言語モデル(LLM)はコード生成において顕著な進歩を遂げた。 CodeIPは、新しいマルチビット透かし技術で、出所の詳細を保存するために追加情報を埋め込む。 5つのプログラミング言語にまたがる実世界のデータセットで実施された実験は、CodeIPの有効性を実証している。
論文参考訳（メタデータ） (2024-04-24T04:25:04Z)
StepCoder: Improve Code Generation with Reinforcement Learning from Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。 CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。 FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文参考訳（メタデータ） (2024-02-02T13:14:31Z)
If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練されるコードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文参考訳（メタデータ） (2024-01-01T16:51:20Z)
Bridging Code Semantic and LLMs: Semantic Chain-of-Thought Prompting for Code Generation [22.219645213202178]
本稿では,SeCoT というコードの意味情報を抽出する "Semantic Chain-of-Thought" 手法を提案する。本研究では,SeCoTが最先端の性能を実現し,大規模モデルやコード生成の可能性を大幅に向上させることを示す。
論文参考訳（メタデータ） (2023-10-16T05:09:58Z)
Benchmarking and Explaining Large Language Model-based Code Generation: A Causality-Centric Approach [12.214585409361126]
大規模言語モデル(LLM)ベースのコード生成は複雑で強力なブラックボックスモデルである。本稿では,プロンプトと生成されたコードの因果グラフに基づく新しい表現を提案する。我々は,12以上の迅速な調整戦略で3つの人気のあるLCMを研究することで,我々のフレームワークが提供できる洞察について説明する。
論文参考訳（メタデータ） (2023-10-10T14:56:26Z)
Test-Case-Driven Programming Understanding in Large Language Models for Better Code Generation [15.166827643436346]
muFiXは、大きな言語モデル(LLM)のコード生成性能を改善する新しいプロンプト技術である。まず、テストケース分析を利用して仕様の理解を得、自己改善プロセスを可能にする。 muFiXはさらに、提供された理解と実際の理解の間のギャップを減らす方向に向けた仕様理解を修正している。
論文参考訳（メタデータ） (2023-09-28T02:58:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。