論文の概要: Effective Strategies for Asynchronous Software Engineering Agents
- arxiv url: http://arxiv.org/abs/2603.21489v1
- Date: Mon, 23 Mar 2026 02:26:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.444021
- Title: Effective Strategies for Asynchronous Software Engineering Agents
- Title(参考訳): 非同期ソフトウェアエンジニアリングエージェントのための効果的な戦略
- Authors: Jiayi Geng, Graham Neubig,
- Abstract要約: 本稿では,集中型タスクデリゲート,非同期実行,独立したワークスペースという,3つのSWEプリミティブに根ざした構造化マルチエージェント協調パラダイムを導入する。
CAIDは,紙再生タスク(PaperBench)では26.7%,Pythonライブラリ開発タスクでは14.3%,単一エージェントベースラインでは26.7%の精度向上を実現している。
- 参考スコア(独自算出の注目度): 52.76455094324273
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI agents have become increasingly capable at isolated software engineering (SWE) tasks such as resolving issues on Github. Yet long-horizon tasks involving multiple interdependent subtasks still pose challenges both with respect to accuracy, and with respect to timely completion. A natural approach to solving these long-horizon tasks in a timely manner is asynchronous multi-agent collaboration, where multiple agents work on different parts of the task at the same time. But effective application of multi-agent systems has proven surprisingly difficult: concurrent edits by multiple agents interfere with each other, dependencies are difficult to synchronize, and combining partial progress into a coherent whole is challenging. On the other hand, human developers have long relied on mature collaboration infrastructure to manage these challenges in large software projects. Inspired by these collaboration primitives, we introduce Centralized Asynchronous Isolated Delegation (CAID), a structured multi-agent coordination paradigm grounded in three core SWE primitives: centralized task delegation, asynchronous execution, and isolated workspaces. CAID constructs dependency-aware task plans through a central manager, executes subtasks concurrently in isolated workspaces, and consolidates progress via structured integration with executable test-based verification. In empirical evaluation, we find that CAID improves accuracy over single-agent baselines by 26.7% absolute on paper reproduction tasks (PaperBench) and 14.3% on Python library development tasks (Commit0). Through systematic analysis, we find that branch-and-merge is a central coordination mechanism for multi-agent collaboration, and that SWE primitives such as git worktree, git commit, and git merge enable it to be realized in a reliable and executable manner.
- Abstract(参考訳): AIエージェントはGithubの問題解決など、分離されたソフトウェアエンジニアリング(SWE)タスクの能力がますます高まっている。
しかし、複数の相互依存サブタスクを含む長期的なタスクは、精度とタイムリーな完了の両方に関して、依然として課題を提起している。
これらの長期タスクをタイムリーに解決するための自然なアプローチは、非同期なマルチエージェントコラボレーションであり、複数のエージェントが同時にタスクの異なる部分で作業する。
しかし、マルチエージェントシステムの効果的な適用は驚くほど難しく、複数のエージェントによる同時編集が互いに干渉し、依存関係を同期させることが困難であり、部分的な進捗をコヒーレント全体に統合することは困難である。
一方、人間開発者は、大規模なソフトウェアプロジェクトでこれらの課題を管理するために、長い間、成熟したコラボレーションインフラに依存してきました。
これらのコラボレーションプリミティブに触発されて、集中型非同期分離デリゲーション(CAID)を導入し、集中型タスクデリゲーション、非同期実行、独立したワークスペースという3つのコアSWEプリミティブに根ざした、構造化されたマルチエージェント協調パラダイムを紹介した。
CAIDは、中央マネージャを通じて依存性を意識したタスクプランを構築し、分離されたワークスペースでサブタスクを同時に実行し、実行可能なテストベースの検証と構造化された統合を通じて進捗を集約する。
実験的な評価では、CAIDは紙再生タスク(PaperBench)では26.7%、Pythonライブラリ開発タスク(Commit0)では14.3%の精度で、シングルエージェントベースラインよりも精度が向上することがわかった。
系統的な分析により、ブランチ・アンド・マージはマルチエージェント協調のための中心的な調整機構であり、git Worktree、git commit、git mergeといったSWEプリミティブが信頼性と実行可能な方法で実現可能であることがわかった。
関連論文リスト
- EmCoop: A Framework and Benchmark for Embodied Cooperation Among LLM Agents [18.802912315746564]
EmCoopは、組み込みマルチエージェントシステムの協調を研究するためのベンチマークフレームワークである。
我々のフレームワークは、高レベルの認知層と低レベルのエンボディドインタラクション層を分離する。
コラボレーションの品質と障害モードを診断する,一般化可能なプロセスレベルのメトリクスを提案する。
論文 参考訳(メタデータ) (2026-02-27T22:28:33Z) - Federation of Agents: A Semantics-Aware Communication Fabric for Large-Scale Agentic AI [1.8244641115869653]
エージェントのフェデレーション(FoA)は,マルチエージェントのコーディネーションを動的かつ能力駆動的なコラボレーションに変換する分散オーケストレーションフレームワークである。
FoAは、セマンティック埋め込みを通じてエージェント機能を検索可能にするマシン可読プロファイルであるVersioned Capability Vectors (VCVs)を導入した。
単一モデルベースラインよりも13倍の改善が見られ、クラスタリング強化労働力は複雑な推論タスクに特に有効である。
論文 参考訳(メタデータ) (2025-09-24T14:38:06Z) - Cross-Task Experiential Learning on LLM-based Multi-Agent Collaboration [63.90193684394165]
マルチエージェント・クロスタスク体験学習(MAEL)は,LSM駆動型エージェントに明示的なクロスタスク学習と経験蓄積を付与する新しいフレームワークである。
経験的学習フェーズでは、タスク解決ワークフローの各ステップの品質を定量化し、その結果の報酬を記憶する。
推論中、エージェントは、各推論ステップの有効性を高めるために、いくつかの例として、高頻度のタスク関連体験を検索する。
論文 参考訳(メタデータ) (2025-05-29T07:24:37Z) - When Disagreements Elicit Robustness: Investigating Self-Repair Capabilities under LLM Multi-Agent Disagreements [56.29265568399648]
我々は、不一致が早期のコンセンサスを防ぎ、探索されたソリューション空間を拡張することを主張する。
タスククリティカルなステップの相違は、ソリューションパスのトポロジによってコラボレーションを損なう可能性がある。
論文 参考訳(メタデータ) (2025-02-21T02:24:43Z) - SyncMind: Measuring Agent Out-of-Sync Recovery in Collaborative Software Engineering [74.04271300772155]
SyncMindは、ソフトウェア工学において、大きな言語モデル(LLM)エージェントが直面している非同期の問題を体系的に定義するフレームワークである。
SyncMindをベースとしたSyncBenchは,実世界のCSEで24,332のエージェントアウトオブシンクシナリオを特徴とするベンチマークです。
論文 参考訳(メタデータ) (2025-02-10T19:38:36Z) - Multi-Agent Collaboration via Cross-Team Orchestration [31.506350304184526]
大規模言語モデル(LLM)は、特に組織化された自律エージェントを通じて、様々なドメインに大きな影響を与えている。
これはスケーラブルなマルチチームフレームワークで、オーケストレーションされたチームはさまざまなタスク指向のソリューションを共同で提案できる。
実験では、最先端のベースラインと比較して、ソフトウェアの品質が顕著に向上している。
論文 参考訳(メタデータ) (2024-06-13T10:18:36Z) - AutoAgents: A Framework for Automatic Agent Generation [27.74332323317923]
AutoAgentsは、さまざまなタスクに応じてAIチームを構築するために、複数の専門エージェントを適応的に生成し、コーディネートする革新的なフレームワークである。
各種ベンチマーク実験により,AutoAgentsは既存のマルチエージェント手法よりも一貫性と正確な解を生成することが示された。
論文 参考訳(メタデータ) (2023-09-29T14:46:30Z) - A Cordial Sync: Going Beyond Marginal Policies for Multi-Agent Embodied
Tasks [111.34055449929487]
エージェントが協力して家具をリビングルームに移動させるという,新しいタスクFurnMoveを紹介した。
既存のタスクとは異なり、FurnMoveはエージェントが各タイミングで調整する必要がある。
既存の分散化されたアクションサンプリング手順は、表現力のある共同アクションポリシーを許さない。
SynC-policiesとCORDIALを用いて、我々のエージェントはFurnMoveで58%の完成率を達成する。
論文 参考訳(メタデータ) (2020-07-09T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。