Fugu-MT 論文翻訳(概要): AdaCoder: An Adaptive Planning and Multi-Agent Framework for Function-Level Code Generation

論文の概要: AdaCoder: An Adaptive Planning and Multi-Agent Framework for Function-Level Code Generation

arxiv url: http://arxiv.org/abs/2504.04220v1
Date: Sat, 05 Apr 2025 16:14:01 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-16 05:12:39.159624
Title: AdaCoder: An Adaptive Planning and Multi-Agent Framework for Function-Level Code Generation
Title（参考訳）: AdaCoder: 関数レベルコード生成のためのアダプティブプランニングとマルチエージェントフレームワーク
Authors: Yueheng Zhu, Chao Liu, Xuan He, Xiaoxue Ren, Zhongxin Liu, Ruwei Pan, Hongyu Zhang,
Abstract要約: 典型的なマルチエージェントフレームワークは、LLM(Large Language Model)ベースのエージェントで構成されている。 AdaCoderは、関数レベルのコード生成のための新しい適応型プランニング、マルチエージェントフレームワークである。
参考スコア（独自算出の注目度）: 17.020112052995334
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, researchers have proposed many multi-agent frameworks for function-level code generation, which aim to improve software development productivity by automatically generating function-level source code based on task descriptions. A typical multi-agent framework consists of Large Language Model (LLM)-based agents that are responsible for task planning, code generation, testing, debugging, etc. Studies have shown that existing multi-agent code generation frameworks perform well on ChatGPT. However, their generalizability across other foundation LLMs remains unexplored systematically. In this paper, we report an empirical study on the generalizability of four state-of-the-art multi-agent code generation frameworks across six open-source LLMs with varying parameter sizes, architectures, and performance levels. Our study reveals the unstable generalizability of existing frameworks on diverse foundation LLMs. Based on the findings obtained from the empirical study, we propose AdaCoder, a novel adaptive planning, multi-agent framework for function-level code generation. AdaCoder has two phases. Phase-1 is an initial code generation step without planning, which uses an LLM-based coding agent and a script-based testing agent to unleash LLM's native power, identify cases beyond LLM's power, and determine the errors hindering execution. Phase-2 adds a rule-based debugging agent and an LLM-based planning agent for iterative code generation with planning. Our evaluation shows that AdaCoder achieves higher generalizability on diverse LLMs. Compared to the best baseline MapCoder, AdaCoder is on average 27.69% higher in Pass@1, 16 times faster in inference, and 12 times lower in token consumption.
Abstract（参考訳）: 近年,タスク記述に基づく関数レベルのソースコードの自動生成によるソフトウェア開発生産性の向上を目的とした,関数レベルのコード生成のための多エージェントフレームワークが多数提案されている。典型的なマルチエージェントフレームワークは、タスク計画、コード生成、テスト、デバッグなどを担当するLarge Language Model(LLM)ベースのエージェントで構成される。既存のマルチエージェントコード生成フレームワークがChatGPT上でうまく機能していることが研究で示されている。しかし、それらの一般化性は他の基礎的 LLM にまたがっても体系的に研究されていない。本稿では,パラメータサイズ,アーキテクチャ,性能の異なる6つのオープンソースLCMを対象とした,最先端のマルチエージェントコード生成フレームワークの汎用性に関する実証的研究を報告する。本研究は,多様な基盤 LLM 上での既存のフレームワークの不安定な一般化性を明らかにする。実証実験から得られた知見に基づいて,関数レベルのコード生成のための新しい適応計画型マルチエージェントフレームワークであるAdaCoderを提案する。 AdaCoderには2つのフェーズがある。フェーズ1は、LSMベースのコーディングエージェントとスクリプトベースのテストエージェントを使用して、LSMのネイティブパワーを解放し、LSMのパワーを超えるケースを特定し、実行を妨げるエラーを判定する計画のない初期コード生成ステップである。フェーズ2では、ルールベースのデバッグエージェントと、計画を伴う反復コード生成のためのLLMベースの計画エージェントが追加されている。評価の結果,AdaCoder は多種多様な LLM に対して高い一般化性が得られることがわかった。最高のベースラインMapCoderと比較して、AdaCoderはPass@1では平均27.69%、推論では16倍、トークン消費では12倍である。

関連論文リスト

Evaluating Large Language Models on Non-Code Software Engineering Tasks [4.381476817430934]
大規模言語モデル(LLM)は、コード理解と生成において顕著な能力を示している。ソフトウェア工学言語理解(SELU)と呼ばれる最初の包括的なベンチマークを提示する。 SELUは、分類、回帰、名前付きエンティティ認識(NER)とマスケッド言語モデリング(MLM)のターゲットをカバーし、さまざまなソースからデータを引き出す。
論文参考訳（メタデータ） (2025-06-12T15:52:32Z)
AGENTIF: Benchmarking Instruction Following of Large Language Models in Agentic Scenarios [51.46347732659174]
LLM(Large Language Models)は、現実世界のエージェントアプリケーションにおいて高度な機能を示す。 AgentIFは、エージェントシナリオでLLM命令に従う能力を体系的に評価する最初のベンチマークである。
論文参考訳（メタデータ） (2025-05-22T17:31:10Z)
CodeIF: Benchmarking the Instruction-Following Capabilities of Large Language Models for Code Generation [24.090719826360342]
我々は、コード生成シナリオ内でタスク指向の命令に従うために、LLM(Large Language Models)の能力を評価するために設計された最初のベンチマークであるCodeIFを紹介する。我々はLLMによる広範囲な実験を行い、これらの課題の要求を満たす上での強みと限界を分析した。
論文参考訳（メタデータ） (2025-02-26T14:19:49Z)
CodeCoR: An LLM-Based Self-Reflective Multi-Agent Framework for Code Generation [10.048098631259876]
コード生成は、自然言語で書かれた要求を自動的に満たすコードを生成することを目的としている。 ChatGPTのような大きな言語モデル(LLM)は、生成されたコードの構文的および意味論的正確性を保証するのに失敗する。我々は,各エージェントとそのコラボレーションの有効性を評価する,自己表現型マルチエージェントフレームワークであるCodeCoRを提案する。
論文参考訳（メタデータ） (2025-01-14T03:21:10Z)
Top General Performance = Top Domain Performance? DomainCodeBench: A Multi-domain Code Generation Benchmark [38.14474956762422]
DomainCodeBenchは、12のソフトウェアアプリケーションドメインと15のプログラミング言語にわたる大規模言語モデル(LLM)を評価するために設計されたベンチマークである。トップ・ジェネラル・ドメイン・モデルは特定のアプリケーション・ドメインで一貫して排他的でないことが分かりました。ドメイン固有の知識による拡張プロンプトは、パフォーマンスを約38.17%向上させる。
論文参考訳（メタデータ） (2024-12-24T17:56:08Z)
OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [76.59316249991657]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文参考訳（メタデータ） (2024-11-07T17:47:25Z)
Crystal: Illuminating LLM Abilities on Language and Code [58.5467653736537]
本稿では,自然言語と符号化機能の統合性を高めるための事前学習戦略を提案する。結果のモデルであるCrystalは、両方のドメインで顕著な能力を示します。
論文参考訳（メタデータ） (2024-11-06T10:28:46Z)
RGD: Multi-LLM Based Agent Debugger via Refinement and Generation Guidance [0.6062751776009752]
大規模言語モデル(LLM)は、コード生成タスクにおいて驚くべきポテンシャルを示しています。 LLMはタスク記述に基づいてコードを生成することができるが、精度は限られている。コード生成と自動デバッグのためのLLMエージェントの新しいアーキテクチャ:Refinement and Guidancebug (RGD)を紹介する。 RGDはコード生成タスクを複数のステップに分割し、より明確なワークフローを確保し、自己回帰とフィードバックに基づいた反復的なコード改善を可能にする。
論文参考訳（メタデータ） (2024-10-02T05:07:02Z)
A Pair Programming Framework for Code Generation via Multi-Plan Exploration and Feedback-Driven Refinement [24.25119206488625]
PairCoderは、コードを生成するための大規模言語モデル(LLM)のための新しいフレームワークである。ハイレベルな計画のためのナビゲータエージェントと、特定の実装のためのドライバエージェントの2つのコラボレーティブエージェントが組み込まれている。ドライバは、Navigatorの指示に従って、初期コード生成、コードテスト、改善を行う。
論文参考訳（メタデータ） (2024-09-08T07:22:19Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。 InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文参考訳（メタデータ） (2024-03-11T02:06:30Z)
If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練されるコードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文参考訳（メタデータ） (2024-01-01T16:51:20Z)
ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。 LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文参考訳（メタデータ） (2023-11-16T12:03:21Z)
CodeChain: Towards Modular Code Generation Through Chain of Self-revisions with Representative Sub-modules [51.82044734879657]
我々は,自己修正の連鎖を通じてモジュール化されたコード生成を誘発する,新しい推論フレームワークであるCodeChainを提案する。 CodeChainは、生成したソリューションのモジュール性と正確性の両方を大幅に向上させ、APPSで35%、CodeContestsで76%の相対パス@1の改善を実現しています。
論文参考訳（メタデータ） (2023-10-13T10:17:48Z)
CodeT5+: Open Code Large Language Models for Code Understanding and Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。 CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文参考訳（メタデータ） (2023-05-13T14:23:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。