論文の概要: MAGIS: LLM-Based Multi-Agent Framework for GitHub Issue Resolution
- arxiv url: http://arxiv.org/abs/2403.17927v1
- Date: Tue, 26 Mar 2024 17:57:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 14:18:09.934129
- Title: MAGIS: LLM-Based Multi-Agent Framework for GitHub Issue Resolution
- Title(参考訳): MAGIS: GitHubイシュー解決のためのLLMベースのマルチエージェントフレームワーク
- Authors: Wei Tao, Yucheng Zhou, Wenqiang Zhang, Yu Cheng,
- Abstract要約: 大規模言語モデル(LLM)は、コード生成と理解において有望であるが、コード変更では困難に直面している。
ソフトウェア進化のためにカスタマイズされた4種類のエージェントからなる、GitHub Issue Resolution, MAGISのための新しいMulti-Agentフレームワークを提案する。
- 参考スコア(独自算出の注目度): 40.197080433023004
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In software evolution, resolving the emergent issues within GitHub repositories is a complex challenge that involves not only the incorporation of new code but also the maintenance of existing functionalities. Large Language Models (LLMs) have shown promise in code generation and understanding but face difficulties in code change, particularly at the repository level. To overcome these challenges, we empirically study the reason why LLMs mostly fail to resolve GitHub issues and analyze some impact factors. Motivated by the empirical findings, we propose a novel LLM-based Multi-Agent framework for GitHub Issue reSolution, MAGIS, consisting of four kinds of agents customized for the software evolution: Manager, Repository Custodian, Developer, and Quality Assurance Engineer agents. This framework leverages the collaboration of various agents in the planning and coding process to unlock the potential of LLMs to resolve GitHub issues. In experiments, we employ the SWE-bench benchmark to compare MAGIS with popular LLMs, including GPT-3.5, GPT-4, and Claude-2. MAGIS can resolve 13.94% GitHub issues, which significantly outperforms the baselines. Specifically, MAGIS achieves an eight-fold increase in resolved ratio over the direct application of GPT-4, the based LLM of our method. We also analyze the factors for improving GitHub issue resolution rates, such as line location, task allocation, etc.
- Abstract(参考訳): ソフトウェア進化において、GitHubリポジトリ内の緊急問題の解決は、新しいコードの導入だけでなく、既存の機能のメンテナンスも関与する複雑な課題である。
大規模言語モデル(LLM)は、コード生成と理解において有望であるが、特にリポジトリレベルでは、コード変更の難しさに直面している。
これらの課題を克服するために、LLMがGitHubの問題を解決するのにほとんど失敗している理由を実証的に研究し、いくつかの影響要因を分析します。
経験的発見に触発されて,ソフトウェア進化のためにカスタマイズされた4種類のエージェント,マネージャ,リポジトリ・カストディアン,開発者,品質保証エンジニアエージェントからなる,GitHub Issue Resolutionのための新しいLLMベースのマルチエージェントフレームワークであるMAGISを提案する。
このフレームワークは、計画とコーディングプロセスにおけるさまざまなエージェントの協力を利用して、LLMの可能性を解き放ち、GitHubの問題を解決する。
実験では, GPT-3.5, GPT-4, Claude-2 など, MAGIS を一般的な LLM と比較するために, SWE-bench ベンチマークを用いた。
MAGISは13.94%のGitHub問題を解決できる。
具体的には,本手法のLLMであるGPT-4の直接適用による分解率の8倍に向上する。
また、行位置やタスク割り当てなど、GitHubのイシュー解決率を改善する要因も分析します。
関連論文リスト
- What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
大規模言語モデル(LLM)は、コード生成において大きな進歩を遂げていますが、既存の研究は、ソフトウェア開発の動的な性質を説明できません。
バージョン別コード補完(VSCC)とバージョン別コードマイグレーション(VACM)の2つの新しいタスクを提案する。
VersiCodeについて広範な評価を行い、バージョン管理可能なコード生成が確かに重要な課題であることを示した。
論文 参考訳(メタデータ) (2024-06-11T16:15:06Z) - CodeR: Issue Resolving with Multi-Agent and Task Graphs [21.499576889342343]
GitHubの問題解決は、アカデミックや業界から大きな注目を集めている。
報告されたバグの修復と解決のために,マルチエージェントフレームワークとタスクグラフを事前に定義したCodeRを提案する。
SWE-bench liteでは、CodeRは各問題に1回だけ提出した場合に28.33%の問題を解決することができる。
論文 参考訳(メタデータ) (2024-06-03T13:13:35Z) - On the effectiveness of Large Language Models for GitHub Workflows [9.82254417875841]
大規模言語モデル(LLM)は、様々なソフトウェア開発タスクにおいてその効果を実証している。
異なるレベルのプロンプトを持つ5つのワークフロー関連タスクにおけるLLMの有効性を理解するための、最初の総合的研究を行う。
現状のLLMと細調整した3種類のLLMの評価結果から,LLMの現在の有効性と欠点について,様々な興味深い知見が得られた。
論文 参考訳(メタデータ) (2024-03-19T05:14:12Z) - GitAgent: Facilitating Autonomous Agent with GitHub by Tool Extension [81.44231422624055]
さまざまなタスクを実行できる外部ツールを備えた大規模言語モデル(LLM)に焦点が当てられている。
本稿では,GitHubから自動ツール拡張を実現するエージェントであるGitAgentを紹介する。
論文 参考訳(メタデータ) (2023-12-28T15:47:30Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - The GitHub Recent Bugs Dataset for Evaluating LLM-based Debugging
Applications [20.339673903885483]
大規模言語モデル(LLM)は、強力な自然言語処理とコード合成機能を示している。
LLMのトレーニングデータの詳細は公開されていないことが多く、既存のバグベンチマークが含まれているかどうかが懸念されている。
このデータセットには、OpenAIデータカットオフポイント後に収集された76の現実世界のJavaバグが含まれている。
論文 参考訳(メタデータ) (2023-10-20T02:37:44Z) - SWE-bench: Can Language Models Resolve Real-World GitHub Issues? [80.52201658231895]
SWE-benchは、実際のGitHub問題から引き出された2,294ドルのソフトウェアエンジニアリング問題と、人気のあるPythonリポジトリ12ドルのプルリクエストで構成される評価フレームワークである。
我々は、最先端のプロプライエタリモデルと微調整モデルSWE-Llamaの両方が、最も単純な問題だけを解決できることを示します。
論文 参考訳(メタデータ) (2023-10-10T16:47:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。