Fugu-MT 論文翻訳(概要): MAGIS: LLM-Based Multi-Agent Framework for GitHub Issue Resolution

論文の概要: MAGIS: LLM-Based Multi-Agent Framework for GitHub Issue Resolution

arxiv url: http://arxiv.org/abs/2403.17927v2
Date: Thu, 27 Jun 2024 12:40:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-28 19:16:49.551718
Title: MAGIS: LLM-Based Multi-Agent Framework for GitHub Issue Resolution
Title（参考訳）: MAGIS: GitHubイシュー解決のためのLLMベースのマルチエージェントフレームワーク
Authors: Wei Tao, Yucheng Zhou, Yanlin Wang, Wenqiang Zhang, Hongyu Zhang, Yu Cheng,
Abstract要約: 大規模言語モデル(LLM)はコード生成において有望であるが、GitHubの問題を解決する上で困難に直面している。ソフトウェア進化のためにカスタマイズされた4つのエージェントからなる、GitHub Issue Resolution, MAGISのための新しいMulti-Agentフレームワークを提案する。
参考スコア（独自算出の注目度）: 47.850418420195304
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In software development, resolving the emergent issues within GitHub repositories is a complex challenge that involves not only the incorporation of new code but also the maintenance of existing code. Large Language Models (LLMs) have shown promise in code generation but face difficulties in resolving Github issues, particularly at the repository level. To overcome this challenge, we empirically study the reason why LLMs fail to resolve GitHub issues and analyze the major factors. Motivated by the empirical findings, we propose a novel LLM-based Multi-Agent framework for GitHub Issue reSolution, MAGIS, consisting of four agents customized for software evolution: Manager, Repository Custodian, Developer, and Quality Assurance Engineer agents. This framework leverages the collaboration of various agents in the planning and coding process to unlock the potential of LLMs to resolve GitHub issues. In experiments, we employ the SWE-bench benchmark to compare MAGIS with popular LLMs, including GPT-3.5, GPT-4, and Claude-2. MAGIS can resolve 13.94% GitHub issues, significantly outperforming the baselines. Specifically, MAGIS achieves an eight-fold increase in resolved ratio over the direct application of GPT-4, the advanced LLM.
Abstract（参考訳）: ソフトウェア開発では、GitHubリポジトリ内で発生した問題の解決は、新しいコードの導入だけでなく、既存のコードのメンテナンスも伴う複雑な課題である。大規模言語モデル(LLM)は、コード生成において有望であるが、Githubの問題、特にリポジトリレベルで解決する上で困難に直面している。この課題を克服するために、LLMがGitHubの問題を解決するのに失敗した理由を実証的に研究し、主要な要因を分析します。経験的発見に触発されて,ソフトウェア進化用にカスタマイズされた4つのエージェント(マネージャ,リポジトリ・カストディア,開発者,品質保証エンジニアエージェント)からなる,GitHub Issue Resolutionのための新しいLLMベースのマルチエージェントフレームワーク(MAGIS)を提案する。このフレームワークは、計画とコーディングプロセスにおけるさまざまなエージェントの協力を利用して、LLMの可能性を解き放ち、GitHubの問題を解決する。実験では, GPT-3.5, GPT-4, Claude-2 など, MAGIS を一般的な LLM と比較するために, SWE-bench ベンチマークを用いた。 MAGISは13.94%のGitHub問題を解決でき、ベースラインを大幅に上回っている。特に, MAGISは, GPT-4, 高度なLCMの直接適用よりも, 8倍の分解率の増大を実現している。

関連論文リスト

LLM-based Content Classification Approach for GitHub Repositories by the README Files [2.212685917364911]
大規模言語モデル(LLM)は多くのテキストベースのタスクで優れたパフォーマンスを示している。本研究では、GitHubファイルの異なるセクションを自動的に分類するために、LLMを微調整するアプローチを開発した。このアプローチは現在の最先端手法よりも優れており、全体的なF1スコアは0.98である。
論文参考訳（メタデータ） (2025-07-29T15:09:38Z)
Open-Source LLMs Collaboration Beats Closed-Source LLMs: A Scalable Multi-Agent System [51.04535721779685]
本稿では,オープンソース集団の可能性と強みを実証することを目的とする。高性能なマルチエージェント協調システム(MACS)フレームワークであるSMACSを提案する。 8つの主要なベンチマーク実験により、SMACSの有効性が検証された。
論文参考訳（メタデータ） (2025-07-14T16:17:11Z)
SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving [90.32201622392137]
We present SwingArena, a competitive evaluation framework for Large Language Models (LLMs)。従来の静的ベンチマークとは異なり、SwingArenaはLLMをイテレーションとして組み合わせて、テストケースを作成し、継続的インテグレーション(CI)パイプラインを通じてパッチを検証するパッチとレビュアーを生成することで、ソフトウェアのコラボレーションプロセスをモデル化する。
論文参考訳（メタデータ） (2025-05-29T18:28:02Z)
RepoMaster: Autonomous Exploration and Understanding of GitHub Repositories for Complex Task Solving [9.477917878478188]
RepoMasterは、複雑なタスクを解決するためにGitHubリポジトリを探索、再利用するために設計された、自律的なエージェントフレームワークである。 RepoMasterは関数呼び出しグラフ、モジュール依存グラフ、階層的なコードツリーを構築し、必須コンポーネントを特定する。新たにリリースしたGitTaskBenchでは、RepoMasterがタスクパス率を24.1%から62.9%に引き上げ、トークン使用率を95%削減しました。
論文参考訳（メタデータ） (2025-05-27T08:35:05Z)
SweRank: Software Issue Localization with Code Ranking [109.3289316191729]
SweRankは、ソフトウェア問題ローカライゼーションのための効率的な検索と参照のためのフレームワークである。パブリックなGitHubリポジトリからキュレートされた大規模なデータセットであるSweLocを構築します。 SweRankは最先端の性能を達成し、従来のランキングモデルとコストの高いエージェントベースシステムの両方より優れていることを示す。
論文参考訳（メタデータ） (2025-05-07T19:44:09Z)
OmniGIRL: A Multilingual and Multimodal Benchmark for GitHub Issue Resolution [34.087547492498224]
GitHubのイシュー解決タスクは、リポジトリで報告された問題を自動的に解決することを目的としている。大規模言語モデル(LLM)の進歩に伴い,この課題が注目されている。我々は、多言語、マルチモーダル、マルチドメインのGitHub Issue ResoLutionベンチマークであるOmniGIRLを提案する。
論文参考訳（メタデータ） (2025-05-07T17:51:10Z)
MutaGReP: Execution-Free Repository-Grounded Plan Search for Code-Use [92.28400093066212]
MutaGRePは、ユーザリクエストを、大規模なコードリポジトリにある自然言語ステップに分解する計画を探すためのアプローチである。我々の計画では、GPT-4oの128Kコンテキストウィンドウの5%以下しか使用していませんが、GPT-4oのコーディング性能とレポジトリで満たされたコンテキストウィンドウに匹敵します。
論文参考訳（メタデータ） (2025-02-21T18:58:17Z)
SWE-Fixer: Training Open-Source LLMs for Effective and Efficient GitHub Issue Resolution [56.9361004704428]
大規模言語モデル(LLM)は、様々な複雑なタスクにまたがる顕著な習熟度を示している。 SWE-Fixerは、GitHubの問題を効果的かつ効率的に解決するために設計された、新しいオープンソースフレームワークである。我々は,SWE-Bench LiteとVerifiedベンチマークに対するアプローチを評価し,オープンソースモデル間の最先端性能を実現する。
論文参考訳（メタデータ） (2025-01-09T07:54:24Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
大規模言語モデル(LLM)は、コード生成において大きな進歩を遂げていますが、既存の研究は、ソフトウェア開発の動的な性質を説明できません。バージョン別コード補完(VSCC)とバージョン別コードマイグレーション(VACM)の2つの新しいタスクを提案する。 VersiCodeについて広範な評価を行い、バージョン管理可能なコード生成が確かに重要な課題であることを示した。
論文参考訳（メタデータ） (2024-06-11T16:15:06Z)
CodeR: Issue Resolving with Multi-Agent and Task Graphs [21.499576889342343]
GitHubの問題解決は、アカデミックや業界から大きな注目を集めている。報告されたバグの修復と解決のために,マルチエージェントフレームワークとタスクグラフを事前に定義したCodeRを提案する。 SWE-bench liteでは、CodeRは各問題に1回だけ提出した場合に28.33%の問題を解決することができる。
論文参考訳（メタデータ） (2024-06-03T13:13:35Z)
On the effectiveness of Large Language Models for GitHub Workflows [9.82254417875841]
大規模言語モデル(LLM)は、様々なソフトウェア開発タスクにおいてその効果を実証している。異なるレベルのプロンプトを持つ5つのワークフロー関連タスクにおけるLLMの有効性を理解するための、最初の総合的研究を行う。現状のLLMと細調整した3種類のLLMの評価結果から,LLMの現在の有効性と欠点について,様々な興味深い知見が得られた。
論文参考訳（メタデータ） (2024-03-19T05:14:12Z)
GitAgent: Facilitating Autonomous Agent with GitHub by Tool Extension [81.44231422624055]
さまざまなタスクを実行できる外部ツールを備えた大規模言語モデル(LLM)に焦点が当てられている。本稿では,GitHubから自動ツール拡張を実現するエージェントであるGitAgentを紹介する。
論文参考訳（メタデータ） (2023-12-28T15:47:30Z)
ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。 LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文参考訳（メタデータ） (2023-11-16T12:03:21Z)
The GitHub Recent Bugs Dataset for Evaluating LLM-based Debugging Applications [20.339673903885483]
大規模言語モデル(LLM)は、強力な自然言語処理とコード合成機能を示している。 LLMのトレーニングデータの詳細は公開されていないことが多く、既存のバグベンチマークが含まれているかどうかが懸念されている。このデータセットには、OpenAIデータカットオフポイント後に収集された76の現実世界のJavaバグが含まれている。
論文参考訳（メタデータ） (2023-10-20T02:37:44Z)
SWE-bench: Can Language Models Resolve Real-World GitHub Issues? [80.52201658231895]
SWE-benchは、実際のGitHub問題から引き出された2,294ドルのソフトウェアエンジニアリング問題と、人気のあるPythonリポジトリ12ドルのプルリクエストで構成される評価フレームワークである。我々は、最先端のプロプライエタリモデルと微調整モデルSWE-Llamaの両方が、最も単純な問題だけを解決できることを示します。
論文参考訳（メタデータ） (2023-10-10T16:47:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。