論文の概要: AgentForge: Execution-Grounded Multi-Agent LLM Framework for Autonomous Software Engineering
- arxiv url: http://arxiv.org/abs/2604.13120v1
- Date: Mon, 13 Apr 2026 13:51:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.209643
- Title: AgentForge: Execution-Grounded Multi-Agent LLM Framework for Autonomous Software Engineering
- Title(参考訳): AgentForge: 自律ソフトウェアエンジニアリングのための実行集約型マルチエージェントLLMフレームワーク
- Authors: Rajesh Kumar, Waqar Ali, Junaid Ahmed, Najma Imtiaz Ali, Shaban Usman,
- Abstract要約: 第一級原理として実行基盤検証を導入する。
我々はこの原理をマルチエージェントフレームワークである AgentFORGE でインスタンス化する。
AgentFORGEtokenはSWE-BENCH Lite上で40.0%の解像度を達成する。
- 参考スコア(独自算出の注目度): 3.2126925586839623
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models generate plausible code but cannot verify correctness. Existing multi-agent systems simulate execution or leave verification optional. We introduce execution-grounded verification as a first-class principle: every code change must survive sandboxed execution before propagation. We instantiate this principle in AGENTFORGE, a multi-agent framework where Planner, Coder, Tester, Debugger, and Critic agents coordinate through shared memory and a mandatory Docker sandbox. We formalize software engineering with LLMs as an iterative decision process over repository states, where execution feedback provides a stronger supervision signal than next-token likelihood. AGENTFORGE achieves 40.0\% resolution on SWE-BENCH Lite, outperforming single-agent baselines by 26--28 points. Ablations confirm that execution feedback and role decomposition each independently drive performance. The framework is open-source at https://github.com/raja21068/AutoCodeAI.
- Abstract(参考訳): 大規模言語モデルは可塑性コードを生成するが、正確性は検証できない。
既存のマルチエージェントシステムは、実行をシミュレートしたり、検証を任意にしておく。
すべてのコード変更は、伝播の前にサンドボックス化された実行を生き残らなければならない。
私たちはこの原則を、Planner、Coder、Tester、Debugger、Criticエージェントが共有メモリと強制的なDockerサンドボックスを介して協調するマルチエージェントフレームワークであるAgentFORGEでインスタンス化する。
我々は,LLMによるソフトウェア工学をリポジトリ状態に対する反復的決定プロセスとして定式化し,実行フィードバックは次の確率よりも強い監視信号を提供する。
AgentFORGEはSWE-BENCH Liteで40.0\%の解像度を実現し、シングルエージェントベースラインを26--28ポイント上回る。
アブレーションは、実行フィードバックとロールの分解がそれぞれ独立してパフォーマンスを向上することを確認した。
このフレームワークはhttps://github.com/raja21068/AutoCodeAIでオープンソース化されている。
関連論文リスト
- KAIJU: An Executive Kernel for Intent-Gated Execution of LLM Agents [5.931389072124715]
ReActを使用した大規模言語モデルに基づくツールコール自律エージェントには3つの制限がある。
最近の作業は、計画と実行を分離する方向に進んでいるが、各ケースモデルでは、実行メカニズムと結合され続けている。
LLMエージェントのシステムレベルの抽象化を導入し,実行エージェントを推論層から分離する。
論文 参考訳(メタデータ) (2026-03-31T21:38:28Z) - AgentFactory: A Self-Evolving Framework Through Executable Subagent Accumulation and Reuse [14.413401094877122]
LLMに基づくエージェントの自己進化に関する最近の研究は、主にテキストのプロンプトやリフレクションとして成功した経験を記録している。
本稿では,タスクソリューションを実行可能なサブエージェントコードとして保存する,新たな自己進化パラダイムであるAgentFactoryを提案する。
保存されたサブエージェントは、標準化されたドキュメントを備えた純粋なPythonコードであり、任意のPython対応システム間で移植性を実現する。
論文 参考訳(メタデータ) (2026-03-18T17:58:25Z) - ISO-Bench: Can Coding Agents Optimize Real-World Inference Workloads? [0.8749675983608171]
実世界の推論タスクでその能力をテストするためのコーディングエージェントのベンチマークであるISO-Benchを紹介する。
統合プルリクエストから54のタスクをキュレートし、測定可能なパフォーマンスを改善しました。
論文 参考訳(メタデータ) (2026-02-23T08:37:53Z) - AgentSys: Secure and Dynamic LLM Agents Through Explicit Hierarchical Memory Management [47.49917373646469]
既存の防御は肥大した記憶を与えられたまま扱い、回復力を維持することに集中する。
我々は、明示的なメモリ管理を通じて間接的なインジェクションを防御するフレームワークであるAgentSysを紹介する。
論文 参考訳(メタデータ) (2026-02-07T06:28:51Z) - DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems [48.971606069204825]
DoVerは、大規模言語モデル(LLM)ベースのマルチエージェントシステムのための介入駆動デバッグフレームワークである。
ターゲットの介入を通じて、アクティブな検証によって仮説生成を増強する。
DoVerは失敗試験の18~28%を成功させ、最大16%のマイルストーンを達成し、失敗仮説の30~60%を検証または否定する。
論文 参考訳(メタデータ) (2025-12-07T09:23:48Z) - Self-Abstraction from Grounded Experience for Plan-Guided Policy Refinement [61.35824395228412]
大規模言語モデル(LLM)ベースのエージェントは、ソフトウェア工学のタスクに取り組むためにますます使われています。
エージェントが自身のタスク実行から学習することを可能にするフレームワークであるSAGE(Self-Abstraction from Grounded Experience)を提案する。
論文 参考訳(メタデータ) (2025-11-08T08:49:38Z) - Where LLM Agents Fail and How They can Learn From Failures [62.196870049524364]
大規模言語モデル(LLM)エージェントは、複雑なマルチステップタスクの解決において有望であることを示す。
単一ルート原因エラーがその後の決定を通じて伝播する、障害のカスケードに対する脆弱性を増幅する。
現在のシステムは、モジュール的で体系的な方法でエージェントエラーを包括的に理解できるフレームワークを欠いている。
AgentErrorTaxonomyは、メモリ、リフレクション、計画、アクション、システムレベルの操作にまたがる障害モードのモジュール分類である。
論文 参考訳(メタデータ) (2025-09-29T18:20:27Z) - CodeAgents: A Token-Efficient Framework for Codified Multi-Agent Reasoning in LLMs [16.234259194402163]
マルチエージェント推論を符号化し、マルチエージェントシステムにおける構造化されたトークン効率の計画を可能にするプロンプトフレームワークであるCodeAgentsを紹介する。
その結果, 計画性能は一貫した改善がみられ, 基本となる自然言語よりも3~36ポイントの絶対的な向上が見られた。
論文 参考訳(メタデータ) (2025-07-04T02:20:19Z) - FlowReasoner: Reinforcing Query-Level Meta-Agents [63.602173107171076]
本稿では,クエリレベルのマルチエージェントシステムの設計を自動化するために,FlowReasonerというクエリレベルのメタエージェントを提案する。
私たちの中核的な考え方は、外部の実行フィードバックを通じて推論ベースのメタエージェントをインセンティブ化することです。
論文 参考訳(メタデータ) (2025-04-21T17:35:42Z) - A Unified Debugging Approach via LLM-Based Multi-Agent Synergy [39.11825182386288]
FixAgentはマルチエージェントのシナジーによる統合デバッグのためのエンドツーエンドフレームワークである。
1.25$times$ 2.56$times$レポレベルのベンチマークであるDefects4Jのバグを修正した。
論文 参考訳(メタデータ) (2024-04-26T04:55:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。