論文の概要: SWE-Debate: Competitive Multi-Agent Debate for Software Issue Resolution
- arxiv url: http://arxiv.org/abs/2507.23348v1
- Date: Thu, 31 Jul 2025 08:54:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:09.331558
- Title: SWE-Debate: Competitive Multi-Agent Debate for Software Issue Resolution
- Title(参考訳): SWE-Debate: ソフトウェア問題解決のための競合的マルチエージェント議論
- Authors: Han Li, Yuling Shi, Shaoxin Lin, Xiaodong Gu, Heng Lian, Xin Wang, Yantao Jia, Tao Huang, Qianxiang Wang,
- Abstract要約: SWE-Debateは、多様な推論パスを促進し、より統合された課題ローカライゼーションを実現する、競争力のあるマルチエージェントの議論フレームワークである。
特殊エージェント間の3ラウンドの議論を組織し、それぞれが断層伝播の痕跡に沿って明確な推論の視点を具現化している。
SWE-benchベンチマークの実験は、SWE-Debateがオープンソースのエージェントフレームワークで新しい最先端の結果を達成することを示している。
- 参考スコア(独自算出の注目度): 29.035097855780858
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Issue resolution has made remarkable progress thanks to the advanced reasoning capabilities of large language models (LLMs). Recently, agent-based frameworks such as SWE-agent have further advanced this progress by enabling autonomous, tool-using agents to tackle complex software engineering tasks. While existing agent-based issue resolution approaches are primarily based on agents' independent explorations, they often get stuck in local solutions and fail to identify issue patterns that span across different parts of the codebase. To address this limitation, we propose SWE-Debate, a competitive multi-agent debate framework that encourages diverse reasoning paths and achieves more consolidated issue localization. SWE-Debate first creates multiple fault propagation traces as localization proposals by traversing a code dependency graph. Then, it organizes a three-round debate among specialized agents, each embodying distinct reasoning perspectives along the fault propagation trace. This structured competition enables agents to collaboratively converge on a consolidated fix plan. Finally, this consolidated fix plan is integrated into an MCTS-based code modification agent for patch generation. Experiments on the SWE-bench benchmark show that SWE-Debate achieves new state-of-the-art results in open-source agent frameworks and outperforms baselines by a large margin.
- Abstract(参考訳): 問題解決は、大規模言語モデル(LLM)の高度な推論能力のおかげで、目覚ましい進歩を遂げた。
近年、SWE-agentのようなエージェントベースのフレームワークは、複雑なソフトウェアエンジニアリングタスクに取り組み、自律的なツール使用エージェントを可能にすることによって、この進歩をさらに進めている。
既存のエージェントベースのイシュー解決アプローチは、主にエージェントの独立した探索に基づいていますが、多くの場合、ローカルソリューションで立ち往生し、コードベースのさまざまな部分にまたがるイシューパターンを特定することができません。
この制限に対処するために、多様な推論経路を奨励し、より統合された課題ローカライゼーションを実現する、競争力のあるマルチエージェント討論フレームワークであるSWE-Debateを提案する。
SWE-Debateはまず、コード依存グラフをトラバースすることで、ローカライズ提案として複数の障害伝搬トレースを生成する。
そして, 断層伝播軌跡に沿って, それぞれ異なる推論の視点を具現化した, 特殊エージェント間の3ラウンドの議論を組織する。
この構造化競争により、エージェントは統合された固定計画に協調的に収束することができる。
最後に、この統合された修正計画は、パッチ生成のためのMCTSベースのコード修正エージェントに統合される。
SWE-benchベンチマークの実験によると、SWE-Debateはオープンソースのエージェントフレームワークにおいて、新しい最先端の結果を達成し、ベースラインを大きく上回っている。
関連論文リスト
- QLLM: Do We Really Need a Mixing Network for Credit Assignment in Multi-Agent Reinforcement Learning? [4.429189958406034]
マルチエージェント強化学習(MARL)におけるクレジットの割り当ては依然として根本的な課題である。
大規模言語モデル(LLM)を用いた信用代入関数の自動構築を容易にする新しいアルゴリズムである textbfQLLM を提案する。
いくつかの標準MARLベンチマークで実施された大規模な実験は、提案手法が既存の最先端のベースラインを一貫して上回ることを示した。
論文 参考訳(メタデータ) (2025-04-17T14:07:11Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - Why Do Multi-Agent LLM Systems Fail? [91.39266556855513]
MAST(Multi-Agent System Failure taxonomy, MAST)は,MASの故障を理解するために考案された分類法である。
我々は、200以上のタスクにまたがる7つの人気のあるMASフレームワークを分析し、6つの専門家のアノテータを含む。
14のユニークな障害モードを特定し、(i)仕様問題、(ii)エージェント間ミスアライメント、(iii)タスク検証の3つに分類した。
論文 参考訳(メタデータ) (2025-03-17T19:04:38Z) - Multi-LLM Collaborative Search for Complex Problem Solving [54.194370845153784]
そこで我々は,Mixture-of-Search-Agents(MoSA)パラダイムを提案する。
MoSAは、独立した探索とLCM間の反復的精錬を組み合わせることで、様々な推論経路を統合する。
モンテカルロ木探索(MCTS)をバックボーンとして使用することにより、複数のエージェントが推論ステップを提案して集約することが可能となり、精度が向上する。
論文 参考訳(メタデータ) (2025-02-26T06:31:04Z) - PlanGEN: A Multi-Agent Framework for Generating Planning and Reasoning Trajectories for Complex Problem Solving [89.60370366013142]
制約,検証,選択という3つの重要な要素を持つモデルに依存しない,スケーラブルなエージェントフレームワークであるPlanGENを提案する。
具体的には、推論時間アルゴリズムの性能を向上させるために、制約誘導反復検証を提案する。
論文 参考訳(メタデータ) (2025-02-22T06:21:56Z) - Textualized Agent-Style Reasoning for Complex Tasks by Multiple Round LLM Generation [49.27250832754313]
我々は、llmベースの自律エージェントフレームワークであるAgentCOTを紹介する。
それぞれのステップで、AgentCOTはアクションを選択し、それを実行して、証拠を裏付ける中間結果を得る。
エージェントCOTの性能を高めるための2つの新しい戦略を導入する。
論文 参考訳(メタデータ) (2024-09-19T02:20:06Z) - Towards Rationality in Language and Multimodal Agents: A Survey [23.451887560567602]
この研究は、より合理的な言語とマルチモーダルエージェントを構築する方法について議論する。
合理性は理性によって導かれる性質であり、証拠や論理原理と整合した意思決定によって特徴づけられる。
論文 参考訳(メタデータ) (2024-06-01T01:17:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。