論文の概要: MAGIS: LLM-Based Multi-Agent Framework for GitHub Issue Resolution
- arxiv url: http://arxiv.org/abs/2403.17927v1
- Date: Tue, 26 Mar 2024 17:57:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 14:18:09.934129
- Title: MAGIS: LLM-Based Multi-Agent Framework for GitHub Issue Resolution
- Title(参考訳): MAGIS: GitHubイシュー解決のためのLLMベースのマルチエージェントフレームワーク
- Authors: Wei Tao, Yucheng Zhou, Wenqiang Zhang, Yu Cheng,
- Abstract要約: 大規模言語モデル(LLM)は、コード生成と理解において有望であるが、コード変更では困難に直面している。
ソフトウェア進化のためにカスタマイズされた4種類のエージェントからなる、GitHub Issue Resolution, MAGISのための新しいMulti-Agentフレームワークを提案する。
- 参考スコア(独自算出の注目度): 40.197080433023004
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In software evolution, resolving the emergent issues within GitHub repositories is a complex challenge that involves not only the incorporation of new code but also the maintenance of existing functionalities. Large Language Models (LLMs) have shown promise in code generation and understanding but face difficulties in code change, particularly at the repository level. To overcome these challenges, we empirically study the reason why LLMs mostly fail to resolve GitHub issues and analyze some impact factors. Motivated by the empirical findings, we propose a novel LLM-based Multi-Agent framework for GitHub Issue reSolution, MAGIS, consisting of four kinds of agents customized for the software evolution: Manager, Repository Custodian, Developer, and Quality Assurance Engineer agents. This framework leverages the collaboration of various agents in the planning and coding process to unlock the potential of LLMs to resolve GitHub issues. In experiments, we employ the SWE-bench benchmark to compare MAGIS with popular LLMs, including GPT-3.5, GPT-4, and Claude-2. MAGIS can resolve 13.94% GitHub issues, which significantly outperforms the baselines. Specifically, MAGIS achieves an eight-fold increase in resolved ratio over the direct application of GPT-4, the based LLM of our method. We also analyze the factors for improving GitHub issue resolution rates, such as line location, task allocation, etc.
- Abstract(参考訳): ソフトウェア進化において、GitHubリポジトリ内の緊急問題の解決は、新しいコードの導入だけでなく、既存の機能のメンテナンスも関与する複雑な課題である。
大規模言語モデル(LLM)は、コード生成と理解において有望であるが、特にリポジトリレベルでは、コード変更の難しさに直面している。
これらの課題を克服するために、LLMがGitHubの問題を解決するのにほとんど失敗している理由を実証的に研究し、いくつかの影響要因を分析します。
経験的発見に触発されて,ソフトウェア進化のためにカスタマイズされた4種類のエージェント,マネージャ,リポジトリ・カストディアン,開発者,品質保証エンジニアエージェントからなる,GitHub Issue Resolutionのための新しいLLMベースのマルチエージェントフレームワークであるMAGISを提案する。
このフレームワークは、計画とコーディングプロセスにおけるさまざまなエージェントの協力を利用して、LLMの可能性を解き放ち、GitHubの問題を解決する。
実験では, GPT-3.5, GPT-4, Claude-2 など, MAGIS を一般的な LLM と比較するために, SWE-bench ベンチマークを用いた。
MAGISは13.94%のGitHub問題を解決できる。
具体的には,本手法のLLMであるGPT-4の直接適用による分解率の8倍に向上する。
また、行位置やタスク割り当てなど、GitHubのイシュー解決率を改善する要因も分析します。
関連論文リスト
- AutoCodeRover: Autonomous Program Improvement [8.66280420062806]
プログラムの改善を自律的に達成するために、GitHubの問題を解決する自動化アプローチを提案する。
AutoCodeRoverと呼ばれるアプローチでは、LLMは洗練されたコード検索機能と組み合わせられ、最終的にプログラムの変更やパッチにつながります。
300のGitHubイシューからなるSWE-bench-liteの実験は、GitHubイシューの解決における有効性の向上を示している。
論文 参考訳(メタデータ) (2024-04-08T11:55:09Z) - CodeEditorBench: Evaluating Code Editing Capability of Large Language Models [49.387195629660994]
コードのための大規模言語モデル(LLM)は急速に進化しており、コード編集が重要な機能として現れている。
コード編集タスクにおけるLLMの性能を厳格に評価するための評価フレームワークであるCodeEditorBenchを紹介する。
5つのソースからさまざまなコーディング課題やシナリオをキュレートし、さまざまなプログラミング言語、複雑性レベル、編集タスクをカバーしています。
論文 参考訳(メタデータ) (2024-04-04T15:49:49Z) - On the effectiveness of Large Language Models for GitHub Workflows [9.82254417875841]
大規模言語モデル(LLM)は、様々なソフトウェア開発タスクにおいてその効果を実証している。
異なるレベルのプロンプトを持つ5つのワークフロー関連タスクにおけるLLMの有効性を理解するための、最初の総合的研究を行う。
現状のLLMと細調整した3種類のLLMの評価結果から,LLMの現在の有効性と欠点について,様々な興味深い知見が得られた。
論文 参考訳(メタデータ) (2024-03-19T05:14:12Z) - GitAgent: Facilitating Autonomous Agent with GitHub by Tool Extension [81.44231422624055]
さまざまなタスクを実行できる外部ツールを備えた大規模言語モデル(LLM)に焦点が当てられている。
本稿では,GitHubから自動ツール拡張を実現するエージェントであるGitAgentを紹介する。
論文 参考訳(メタデータ) (2023-12-28T15:47:30Z) - ML-Bench: Evaluating Large Language Models for Code Generation in Repository-Level Machine Learning Tasks [76.85930757493409]
大規模言語モデル(LLM)は、コード生成ベンチマークの習熟度を示しているが、これらの結果を実用的な開発シナリオに変換することは依然として難しい。
ML-Benchは、レポジトリレベルのオープンソースライブラリを統合して機械学習タスクを完了させるLLMの機能を評価するために設計された、新しいベンチマークである。
以上の結果から, GPT-4は他のLSMよりも優れており, 課題の複雑さを浮き彫りにしたタスクは33.82%に過ぎなかった。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - SWE-bench: Can Language Models Resolve Real-World GitHub Issues? [80.52201658231895]
SWE-benchは、実際のGitHub問題から引き出された2,294ドルのソフトウェアエンジニアリング問題と、人気のあるPythonリポジトリ12ドルのプルリクエストで構成される評価フレームワークである。
我々は、最先端のプロプライエタリモデルと微調整モデルSWE-Llamaの両方が、最も単純な問題だけを解決できることを示します。
論文 参考訳(メタデータ) (2023-10-10T16:47:29Z) - MARLlib: A Scalable and Efficient Multi-agent Reinforcement Learning
Library [82.77446613763809]
本稿では,マルチエージェントタスクとアルゴリズムの組み合わせを高速に開発するためのライブラリであるMARLlibを紹介する。
MARLlibは、マルチエージェントタスクとアルゴリズムの学習過程を効果的に切り離すことができる。
ライブラリのソースコードはGitHubで公開されている。
論文 参考訳(メタデータ) (2022-10-11T03:11:12Z) - A Preliminary Investigation of MLOps Practices in GitHub [10.190501703364234]
機械学習アプリケーションはMLOpsへの関心が高まっている。
GitHubから取得したML対応システムのセットで実装されているMLOpsプラクティスについて、まず最初に調査する。
論文 参考訳(メタデータ) (2022-09-23T07:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。