Fugu-MT 論文翻訳(概要): CODESIM: Multi-Agent Code Generation and Problem Solving through Simulation-Driven Planning and Debugging

論文の概要: CODESIM: Multi-Agent Code Generation and Problem Solving through Simulation-Driven Planning and Debugging

arxiv url: http://arxiv.org/abs/2502.05664v1
Date: Sat, 08 Feb 2025 18:43:59 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-11 18:57:50.13824
Title: CODESIM: Multi-Agent Code Generation and Problem Solving through Simulation-Driven Planning and Debugging
Title（参考訳）: CODESIM: シミュレーション駆動計画とデバッグによるマルチエージェントコード生成と問題解決
Authors: Md. Ashraful Islam, Mohammed Eunus Ali, Md Rizwan Parvez,
Abstract要約: 我々は,新しいマルチエージェントコード生成フレームワークであるCodeSimを紹介する。人間が視覚シミュレーションを通じてアルゴリズムの理解を検証すると、CodeSimは一意に計画検証の手法を特徴付ける。我々のフレームワークは、新しい最先端の結果を達成する(HumanEval 95.1%、MBPP 90.7%、APPS 22%、CodeContests 29.1%)。
参考スコア（独自算出の注目度）: 3.3856216159724983
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have made significant strides in code generation and problem solving. Current approaches employ external tool-based iterative debuggers that use compiler or other tool-based runtime feedback to refine coarse programs generated by various methods. However, the effectiveness of these approaches heavily relies on the quality of the initial code generation, which remains an open challenge. In this paper, we introduce CodeSim, a novel multi-agent code generation framework that comprehensively addresses the stages of program synthesis-planning, coding, and debugging-through a human-like perception approach. As human verifies their understanding of any algorithms through visual simulation, CodeSim uniquely features a method of plan verification and internal debugging through the step-by-step simulation of input/output. Extensive experiments across seven challenging competitive problem-solving and program synthesis benchmarks demonstrate CodeSim's remarkable code generation capabilities. Our framework achieves new state-of-the-art (pass@1) results-(HumanEval 95.1%, MBPP 90.7%, APPS 22%, and CodeContests 29.1%). Furthermore, our method shows potential for even greater enhancement when cascaded with external debuggers. To facilitate further research and development in this area, we have open-sourced our framework in this link (https://kagnlp.github.io/codesim.github.io/).
Abstract（参考訳）: 大規模言語モデル(LLM)はコード生成と問題解決に大きく貢献している。現在のアプローチでは、外部ツールベースの反復デバッガを使用して、コンパイラや他のツールベースのランタイムフィードバックを使用して、さまざまなメソッドによって生成された粗いプログラムを洗練している。しかしながら、これらのアプローチの有効性は初期コード生成の品質に大きく依存しています。本稿では,プログラム合成計画,コーディング,デバッギングの段階を包括的に解決する,新しいマルチエージェントコード生成フレームワークであるCodeSimを紹介する。人間が視覚シミュレーションを通じてアルゴリズムの理解を検証すると、CodeSimは入力/出力のステップバイステップシミュレーションを通じて、プラン検証と内部デバッグの方法を特徴付ける。競争力のある7つの問題解決とプログラム合成ベンチマークにわたる大規模な実験は、CodeSimの驚くべきコード生成能力を示している。我々のフレームワークは、新しい最先端(pass@1)結果を達成する(HumanEval 95.1%、MBPP 90.7%、APPS 22%、CodeContests 29.1%)。さらに,本手法は,外部デバッガを組み込んだ場合のさらなる拡張の可能性を示す。この分野のさらなる研究と開発を促進するため、私たちはこのリンクでフレームワークをオープンソース化しました(https://kagnlp.github.io/codesim.github.io/)。

関連論文リスト

KodCode: A Diverse, Challenging, and Verifiable Synthetic Dataset for Coding [49.56049319037421]
KodCodeは、高品質で検証可能なトレーニングデータを取得するという永続的な課題に対処する、合成データセットである。自己検証手順によって体系的に検証される質問解決テスト三つ子を含む。このパイプラインは大規模で堅牢で多様なコーディングデータセットを生成する。
論文参考訳（メタデータ） (2025-03-04T19:17:36Z)
Language Models for Code Optimization: Survey, Challenges and Future Directions [7.928856221466083]
ディープニューラルネットワーク(DNN)上に構築された言語モデル(LM)は、先日、ソフトウェアエンジニアリングタスクにおいて、画期的な効果を実証した。本研究は、この急速に発展する分野において、研究者と実践者の両方に実行可能な洞察と参照を提供することを目的としている。
論文参考訳（メタデータ） (2025-01-02T14:20:36Z)
CodeTree: Agent-guided Tree Search for Code Generation with Large Language Models [106.11371409170818]
大規模言語モデル(LLM)は、生成されたコードを自己定義し、自律的に改善する機能を持つエージェントとして機能する。コード生成プロセスの異なる段階における探索空間を効率的に探索するLLMエージェントのためのフレームワークであるCodeTreeを提案する。具体的には、異なるコーディング戦略を明示的に探求し、対応するコーディングソリューションを生成し、その後、ソリューションを洗練するために統合されたツリー構造を採用しました。
論文参考訳（メタデータ） (2024-11-07T00:09:54Z)
RGD: Multi-LLM Based Agent Debugger via Refinement and Generation Guidance [0.6062751776009752]
大規模言語モデル(LLM)は、コード生成タスクにおいて驚くべきポテンシャルを示しています。 LLMはタスク記述に基づいてコードを生成することができるが、精度は限られている。コード生成と自動デバッグのためのLLMエージェントの新しいアーキテクチャ:Refinement and Guidancebug (RGD)を紹介する。 RGDはコード生成タスクを複数のステップに分割し、より明確なワークフローを確保し、自己回帰とフィードバックに基づいた反復的なコード改善を可能にする。
論文参考訳（メタデータ） (2024-10-02T05:07:02Z)
Learning to Reason via Program Generation, Emulation, and Search [33.11955431589091]
言語モデル(LM)によるプログラム合成は、多くの推論能力を解放した。すべての推論タスクは、コードとして容易に表現できるわけではない。例えば、常識的推論、道徳的意思決定、皮肉な理解を含むタスクである。我々は,プログラム合成スキルをこのようなタスクに拡張するために,コード生成とエミュレートされた実行(CoGEX)を提案する。
論文参考訳（メタデータ） (2024-05-25T19:40:50Z)
MapCoder: Multi-Agent Code Generation for Competitive Problem Solving [3.3856216159724983]
マルチエージェントプロンプトを利用したコード生成タスクに新たなアプローチを導入する。私たちのフレームワークであるMapCoderは、プログラム合成の段階をエミュレートするために設計された4つのLLMエージェントで構成されています。我々の手法は、様々なプログラミング言語で一貫して優れた性能を提供する。
論文参考訳（メタデータ） (2024-05-18T22:10:15Z)
StepCoder: Improve Code Generation with Reinforcement Learning from Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。 CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。 FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文参考訳（メタデータ） (2024-02-02T13:14:31Z)
Learning Performance-Improving Code Edits [107.21538852090208]
本稿では,大規模言語モデル(LLM)を高レベルプログラム最適化に適用するためのフレームワークを提案する。まず、競争力のある77,000以上のC++プログラミングサブミッションペアによる、人間のプログラマによるパフォーマンス改善編集のデータセットをキュレートする。提案手法は,検索をベースとした少数ショットプロンプトとチェーン・オブ・シンクレットを提案し,その微調整には,自己再生に基づく性能条件付き生成と合成データ拡張が含まれる。
論文参考訳（メタデータ） (2023-02-15T18:59:21Z)
Execution-based Code Generation using Deep Reinforcement Learning [8.085533911328577]
PPOCoderは、事前訓練されたPLモデルとプロキシポリシー最適化を組み合わせた、コード生成のための新しいフレームワークである。 PPOCoderは、外部コード固有の知識をモデル最適化プロセスにシームレスに統合する。 PPOCoderはタスクに依存しない、モデルに依存しないフレームワークで、さまざまなコード生成タスクやPLで使用できます。
論文参考訳（メタデータ） (2023-01-31T18:02:26Z)
NAPG: Non-Autoregressive Program Generation for Hybrid Tabular-Textual Question Answering [52.10214317661547]
現在の数値推論法はプログラムシーケンスを自己回帰的にデコードする。プログラム生成の精度は、デコードステップがエラー伝搬によって展開されるにつれて急激に低下する。本稿では,非自己回帰型プログラム生成フレームワークを提案する。
論文参考訳（メタデータ） (2022-11-07T11:25:21Z)
Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。私たちのベンチマークには1万の問題が含まれています。 GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文参考訳（メタデータ） (2021-05-20T17:58:42Z)
A User's Guide to Calibrating Robotics Simulators [54.85241102329546]
本稿では,シミュレーションで学習したモデルやポリシーを現実世界に伝達することを目的とした,様々なアルゴリズムの研究のためのベンチマークとフレームワークを提案する。我々は、様々なアルゴリズムの性能に関する洞察を特徴付け、提供するために、広く知られたシミュレーション環境の実験を行う。我々の分析は、この分野の実践者にとって有用であり、sim-to-realアルゴリズムの動作と主特性について、より深い選択をすることができる。
論文参考訳（メタデータ） (2020-11-17T22:24:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。