論文の概要: BOAD: Discovering Hierarchical Software Engineering Agents via Bandit Optimization
- arxiv url: http://arxiv.org/abs/2512.23631v2
- Date: Thu, 01 Jan 2026 00:11:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 13:15:27.679631
- Title: BOAD: Discovering Hierarchical Software Engineering Agents via Bandit Optimization
- Title(参考訳): BOAD:バンド最適化による階層型ソフトウェアエンジニアリングエージェントの発見
- Authors: Iris Xu, Guangtao Zeng, Zexue He, Charles Jin, Aldo Pareja, Dan Gutfreund, Chuang Gan, Zhang-Wei Hong,
- Abstract要約: 大規模言語モデル(LLM)は、現実世界のソフトウェア工学の問題を一般化するのに苦労する。
既存のシステムはワークフロー全体の問題を処理するために、単一のエージェントに依存することが多い。
人間の技術者が複雑な問題を分解する方法に触発され、我々はSWEエージェントをオーケストラとして構成し、特殊なサブエージェントをコーディネートすることを提案する。
- 参考スコア(独自算出の注目度): 41.08366028094234
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown strong reasoning and coding capabilities, yet they struggle to generalize to real-world software engineering (SWE) problems that are long-horizon and out of distribution. Existing systems often rely on a single agent to handle the entire workflow-interpreting issues, navigating large codebases, and implementing fixes-within one reasoning chain. Such monolithic designs force the model to retain irrelevant context, leading to spurious correlations and poor generalization. Motivated by how human engineers decompose complex problems, we propose structuring SWE agents as orchestrators coordinating specialized sub-agents for sub-tasks such as localization, editing, and validation. The challenge lies in discovering effective hierarchies automatically: as the number of sub-agents grows, the search space becomes combinatorial, and it is difficult to attribute credit to individual sub-agents within a team. We address these challenges by formulating hierarchy discovery as a multi-armed bandit (MAB) problem, where each arm represents a candidate sub-agent and the reward measures its helpfulness when collaborating with others. This framework, termed Bandit Optimization for Agent Design (BOAD), enables efficient exploration of sub-agent designs under limited evaluation budgets. On SWE-bench-Verified, BOAD outperforms single-agent and manually designed multi-agent systems. On SWE-bench-Live, featuring more recent and out-of-distribution issues, our 36B system ranks second on the leaderboard at the time of evaluation, surpassing larger models such as GPT-4 and Claude. These results demonstrate that automatically discovered hierarchical multi-agent systems significantly improve generalization on challenging long-horizon SWE tasks. Code is available at https://github.com/iamxjy/BOAD-SWE-Agent.
- Abstract(参考訳): 大規模言語モデル(LLM)は、強い推論能力とコーディング能力を示してきたが、長期にわたって分散していない現実世界のソフトウェア工学(SWE)問題への一般化に苦慮している。
既存のシステムは、ワークフローを解釈する問題全体を処理し、大規模なコードベースをナビゲートし、ひとつの推論チェーンで修正を実装するために、単一のエージェントに依存していることが多い。
このようなモノリシックな設計は、モデルに無関係な文脈を維持するよう強制する。
人間の技術者が複雑な問題を分解する方法に触発され、我々は、局所化、編集、検証などのサブタスクのための特別なサブエージェントをコーディネートするオーケストレータとしてSWEエージェントを構築することを提案する。
サブエージェントの数が増加するにつれて、検索空間は結合的になり、チーム内の個々のサブエージェントにクレジットを割り当てるのは困難である。
我々は,階層探索をマルチアーム・バンディット(MAB)問題として定式化し,各アームが候補サブエージェントを表現し,報酬が他者と協調する際の有用性を測定することで,これらの課題に対処する。
Bandit Optimization for Agent Design (BOAD)と呼ばれるこのフレームワークは、限られた評価予算の下で、サブエージェント設計の効率的な探索を可能にする。
SWE-bench-Verifiedでは、BOADはシングルエージェントと手動で設計されたマルチエージェントシステムより優れている。
SWE-bench-Liveでは、より最近の流通の問題を取り上げ、評価時に36Bシステムはリーダーボードで2位となり、GPT-4やClaudeといった大型モデルを上回っています。
これらの結果から, 階層型マルチエージェントシステムの自動検出により, 長期SWEタスクの一般化が著しく向上することが示唆された。
コードはhttps://github.com/iamxjy/BOAD-SWE-Agent.comで入手できる。
関連論文リスト
- Designing Domain-Specific Agents via Hierarchical Task Abstraction Mechanism [61.01709143437043]
階層型タスク抽象化機構(HTAM)を中心とした新しいエージェント設計フレームワークを提案する。
具体的には、HTAMは、社会的役割のエミュレーションを超えて、代わりに、複数のエージェントシステムを、あるドメインの固有のタスク依存グラフを反映する論理階層に構造化する。
我々は、複雑な地理空間解析に適したマルチエージェントシステムであるEarthAgentとして、このフレームワークをインスタンス化する。
論文 参考訳(メタデータ) (2025-11-21T12:25:47Z) - Multi-Agent Deep Research: Training Multi-Agent Systems with M-GRPO [24.532870400949424]
現在の訓練方法は、システム内のすべてのエージェントに対して統一された大きな言語モデルを訓練する。
これにより、異なるエージェントの基本的な分布が異なるため、パフォーマンスが制限される可能性がある。
垂直多エージェントシステムに対するグループ相対ポリシー最適化の階層的拡張であるM-GRPOを提案する。
論文 参考訳(メタデータ) (2025-11-17T12:06:30Z) - AgentGit: A Version Control Framework for Reliable and Scalable LLM-Powered Multi-Agent Systems [7.408263799616532]
AgentGitはGitライクなロールバックとブランチをマルチエージェントシステム(MAS)にもたらすフレームワークです。
AgentGitは冗長、ランタイム、トークンの使用を著しく削減し、複数のブランチをまたいだ並列探索をサポートしています。
この作業は、より堅牢なMAS設計への実践的なパスを提供し、コラボレーティブAIシステムにおけるエラー回復、安全な探索、計算、A/Bテストを可能にする。
論文 参考訳(メタデータ) (2025-11-01T17:11:31Z) - AgentRouter: A Knowledge-Graph-Guided LLM Router for Collaborative Multi-Agent Question Answering [51.07491603393163]
tAgentは知識グラフ誘導ルーティング問題としてマルチエージェントQAを定式化するフレームワークである。
エージェントアウトプットのソフトな監督と重み付けされた集約を活用することで、エージェントは多様なエージェントの相補的な強みを捉える、原則化された協調スキームを学ぶ。
論文 参考訳(メタデータ) (2025-10-06T23:20:49Z) - InfiAgent: Self-Evolving Pyramid Agent Framework for Infinite Scenarios [28.65914611521654]
InfiAgentはピラミッドのようなDAGベースのMulti-Agent Frameworkで、textbfinfiniteのシナリオに適用できる。
InfiAgentはADAS(類似の自動生成エージェントフレームワーク)と比較して9.9%高いパフォーマンスを実現している
論文 参考訳(メタデータ) (2025-09-26T15:44:09Z) - When Disagreements Elicit Robustness: Investigating Self-Repair Capabilities under LLM Multi-Agent Disagreements [56.29265568399648]
我々は、不一致が早期のコンセンサスを防ぎ、探索されたソリューション空間を拡張することを主張する。
タスククリティカルなステップの相違は、ソリューションパスのトポロジによってコラボレーションを損なう可能性がある。
論文 参考訳(メタデータ) (2025-02-21T02:24:43Z) - Agent-Oriented Planning in Multi-Agent Systems [54.429028104022066]
マルチエージェントシステムにおけるエージェント指向計画のための新しいフレームワークであるAOPを提案する。
本研究では, エージェント指向計画の3つの重要な設計原則, 可解性, 完全性, 非冗長性を明らかにする。
大規模実験は,マルチエージェントシステムにおける単一エージェントシステムと既存の計画戦略と比較して,現実の問題を解決する上でのAOPの進歩を実証している。
論文 参考訳(メタデータ) (2024-10-03T04:07:51Z) - Multi-agent Deep Covering Skill Discovery [50.812414209206054]
本稿では,複数エージェントの結合状態空間の予測被覆時間を最小化し,マルチエージェントオプションを構築するマルチエージェントDeep Covering Option Discoveryを提案する。
また、MARLプロセスにマルチエージェントオプションを採用するための新しいフレームワークを提案する。
提案アルゴリズムは,アテンション機構とエージェントの相互作用を効果的に把握し,マルチエージェントオプションの同定に成功した。
論文 参考訳(メタデータ) (2022-10-07T00:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。