論文の概要: SWE-Debate: Competitive Multi-Agent Debate for Software Issue Resolution
- arxiv url: http://arxiv.org/abs/2507.23348v1
- Date: Thu, 31 Jul 2025 08:54:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:09.331558
- Title: SWE-Debate: Competitive Multi-Agent Debate for Software Issue Resolution
- Title(参考訳): SWE-Debate: ソフトウェア問題解決のための競合的マルチエージェント議論
- Authors: Han Li, Yuling Shi, Shaoxin Lin, Xiaodong Gu, Heng Lian, Xin Wang, Yantao Jia, Tao Huang, Qianxiang Wang,
- Abstract要約: SWE-Debateは、多様な推論パスを促進し、より統合された課題ローカライゼーションを実現する、競争力のあるマルチエージェントの議論フレームワークである。
特殊エージェント間の3ラウンドの議論を組織し、それぞれが断層伝播の痕跡に沿って明確な推論の視点を具現化している。
SWE-benchベンチマークの実験は、SWE-Debateがオープンソースのエージェントフレームワークで新しい最先端の結果を達成することを示している。
- 参考スコア(独自算出の注目度): 29.035097855780858
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Issue resolution has made remarkable progress thanks to the advanced reasoning capabilities of large language models (LLMs). Recently, agent-based frameworks such as SWE-agent have further advanced this progress by enabling autonomous, tool-using agents to tackle complex software engineering tasks. While existing agent-based issue resolution approaches are primarily based on agents' independent explorations, they often get stuck in local solutions and fail to identify issue patterns that span across different parts of the codebase. To address this limitation, we propose SWE-Debate, a competitive multi-agent debate framework that encourages diverse reasoning paths and achieves more consolidated issue localization. SWE-Debate first creates multiple fault propagation traces as localization proposals by traversing a code dependency graph. Then, it organizes a three-round debate among specialized agents, each embodying distinct reasoning perspectives along the fault propagation trace. This structured competition enables agents to collaboratively converge on a consolidated fix plan. Finally, this consolidated fix plan is integrated into an MCTS-based code modification agent for patch generation. Experiments on the SWE-bench benchmark show that SWE-Debate achieves new state-of-the-art results in open-source agent frameworks and outperforms baselines by a large margin.
- Abstract(参考訳): 問題解決は、大規模言語モデル(LLM)の高度な推論能力のおかげで、目覚ましい進歩を遂げた。
近年、SWE-agentのようなエージェントベースのフレームワークは、複雑なソフトウェアエンジニアリングタスクに取り組み、自律的なツール使用エージェントを可能にすることによって、この進歩をさらに進めている。
既存のエージェントベースのイシュー解決アプローチは、主にエージェントの独立した探索に基づいていますが、多くの場合、ローカルソリューションで立ち往生し、コードベースのさまざまな部分にまたがるイシューパターンを特定することができません。
この制限に対処するために、多様な推論経路を奨励し、より統合された課題ローカライゼーションを実現する、競争力のあるマルチエージェント討論フレームワークであるSWE-Debateを提案する。
SWE-Debateはまず、コード依存グラフをトラバースすることで、ローカライズ提案として複数の障害伝搬トレースを生成する。
そして, 断層伝播軌跡に沿って, それぞれ異なる推論の視点を具現化した, 特殊エージェント間の3ラウンドの議論を組織する。
この構造化競争により、エージェントは統合された固定計画に協調的に収束することができる。
最後に、この統合された修正計画は、パッチ生成のためのMCTSベースのコード修正エージェントに統合される。
SWE-benchベンチマークの実験によると、SWE-Debateはオープンソースのエージェントフレームワークにおいて、新しい最先端の結果を達成し、ベースラインを大きく上回っている。
関連論文リスト
- MA-RAG: Multi-Agent Retrieval-Augmented Generation via Collaborative Chain-of-Thought Reasoning [43.66966457772646]
MA-RAGは、タスク認識推論でRAGパイプラインの各ステージに取り組むために、特別なAIエージェントの協力的なセットを編成する。
我々の設計では、モデルが微調整されることなく、情報の流れをきめ細かな制御が可能である。
このモジュラーおよび推論駆動アーキテクチャにより、MA-RAGは堅牢で解釈可能な結果を提供できる。
論文 参考訳(メタデータ) (2025-05-26T15:05:18Z) - QLLM: Do We Really Need a Mixing Network for Credit Assignment in Multi-Agent Reinforcement Learning? [4.429189958406034]
マルチエージェント強化学習(MARL)におけるクレジットの割り当ては依然として根本的な課題である。
大規模言語モデル(LLM)を用いた信用代入関数の自動構築を容易にする新しいアルゴリズムである textbfQLLM を提案する。
いくつかの標準MARLベンチマークで実施された大規模な実験は、提案手法が既存の最先端のベースラインを一貫して上回ることを示した。
論文 参考訳(メタデータ) (2025-04-17T14:07:11Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - Why Do Multi-Agent LLM Systems Fail? [91.39266556855513]
MAST(Multi-Agent System Failure taxonomy, MAST)は,MASの故障を理解するために考案された分類法である。
我々は、200以上のタスクにまたがる7つの人気のあるMASフレームワークを分析し、6つの専門家のアノテータを含む。
14のユニークな障害モードを特定し、(i)仕様問題、(ii)エージェント間ミスアライメント、(iii)タスク検証の3つに分類した。
論文 参考訳(メタデータ) (2025-03-17T19:04:38Z) - Privacy-Enhancing Paradigms within Federated Multi-Agent Systems [47.76990892943637]
LLMベースのマルチエージェントシステム(MAS)は、複数のエージェントを統合することで複雑な問題を解決するのに非常に効果的であることが証明されている。
本稿では、フェデレーションMASの概念を紹介し、フェデレーションMASと従来のFLの根本的な違いを明らかにする。
1)エージェント間の異種プライバシープロトコル,2)多人数会話の構造的差異,3)動的会話ネットワーク構造などである。
これらの課題に対処するため、我々はEPEAgent(Embedded Privacy-Enhancing Agents)を提案し、これはRetrieval-Augmented GenerationフェーズとRetrieval-Augmented Generationフェーズにシームレスに統合する革新的なソリューションである。
論文 参考訳(メタデータ) (2025-03-11T08:38:45Z) - Multi-LLM Collaborative Search for Complex Problem Solving [54.194370845153784]
そこで我々は,Mixture-of-Search-Agents(MoSA)パラダイムを提案する。
MoSAは、独立した探索とLCM間の反復的精錬を組み合わせることで、様々な推論経路を統合する。
モンテカルロ木探索(MCTS)をバックボーンとして使用することにより、複数のエージェントが推論ステップを提案して集約することが可能となり、精度が向上する。
論文 参考訳(メタデータ) (2025-02-26T06:31:04Z) - PlanGEN: A Multi-Agent Framework for Generating Planning and Reasoning Trajectories for Complex Problem Solving [89.60370366013142]
制約,検証,選択という3つの重要な要素を持つモデルに依存しない,スケーラブルなエージェントフレームワークであるPlanGENを提案する。
具体的には、推論時間アルゴリズムの性能を向上させるために、制約誘導反復検証を提案する。
論文 参考訳(メタデータ) (2025-02-22T06:21:56Z) - Textualized Agent-Style Reasoning for Complex Tasks by Multiple Round LLM Generation [49.27250832754313]
我々は、llmベースの自律エージェントフレームワークであるAgentCOTを紹介する。
それぞれのステップで、AgentCOTはアクションを選択し、それを実行して、証拠を裏付ける中間結果を得る。
エージェントCOTの性能を高めるための2つの新しい戦略を導入する。
論文 参考訳(メタデータ) (2024-09-19T02:20:06Z) - Towards Human-Level Understanding of Complex Process Engineering Schematics: A Pedagogical, Introspective Multi-Agent Framework for Open-Domain Question Answering [0.0]
化学・プロセス産業では、プロセス・フロー・ダイアグラム(PFD)とパイプ・アンド・インスツルメンテーション・ダイアグラム(P&ID)が設計、建設、保守に不可欠である。
生成型AIの最近の進歩は、ビジュアル質問回答(VQA)のプロセス図の理解と解釈の約束を示している。
本稿では,階層的かつマルチエージェントなRetrieval Augmented Generation(RAG)フレームワークを用いた,セキュアでオンプレミスなエンタープライズソリューションを提案する。
論文 参考訳(メタデータ) (2024-08-24T19:34:04Z) - Towards Rationality in Language and Multimodal Agents: A Survey [23.451887560567602]
この研究は、より合理的な言語とマルチモーダルエージェントを構築する方法について議論する。
合理性は理性によって導かれる性質であり、証拠や論理原理と整合した意思決定によって特徴づけられる。
論文 参考訳(メタデータ) (2024-06-01T01:17:25Z) - Thought Propagation: An Analogical Approach to Complex Reasoning with Large Language Models [62.96551299003463]
大規模言語モデルの複雑な推論能力を高めるために,textbftextitThought Propagation (TP)を提案する。
TP はまず LLM に対して,入力問題に関連する類似問題の集合を提案し,解決するよう促す。
TPは、類似問題の結果を再利用して、新しいソリューションを直接生成したり、スクラッチから得られた初期ソリューションを修正するための知識集約的な実行プランを導出する。
論文 参考訳(メタデータ) (2023-10-06T01:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。