Fugu-MT 論文翻訳(概要): CodeR: Issue Resolving with Multi-Agent and Task Graphs

論文の概要: CodeR: Issue Resolving with Multi-Agent and Task Graphs

arxiv url: http://arxiv.org/abs/2406.01304v1
Date: Mon, 3 Jun 2024 13:13:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-05 23:09:15.605630
Title: CodeR: Issue Resolving with Multi-Agent and Task Graphs
Title（参考訳）: CodeR: マルチエージェントとタスクグラフによる問題解決
Authors: Dong Chen, Shaoxin Lin, Muhan Zeng, Daoguang Zan, Jian-Gang Wang, Anton Cheshkov, Jun Sun, Hao Yu, Guoliang Dong, Artem Aliev, Jie Wang, Xiao Cheng, Guangtai Liang, Yuchi Ma, Pan Bian, Tao Xie, Qianxiang Wang,
Abstract要約: SWEベンチは問題解決における性能を測定するために提案されている。マルチエージェントフレームワークと事前に定義されたタスクグラフを採用して,報告されたバグの修復と解決を行い,コードリポジトリに新機能を追加するCodeRを提案する。
参考スコア（独自算出の注目度）: 21.499576889342343
License: http://creativecommons.org/licenses/by/4.0/
Abstract: GitHub issue resolving recently has attracted significant attention from academia and industry. SWE-bench is proposed to measure the performance in resolving issues. In this paper, we propose CodeR, which adopts a multi-agent framework and pre-defined task graphs to Repair & Resolve reported bugs and add new features within code Repository. On SWE-bench lite, CodeR is able to solve 28.00% of issues, in the case of submitting only once for each issue. We examine the performance impact of each design of CodeR and offer insights to advance this research direction.
Abstract（参考訳）: GitHubのイシュー解決は最近、アカデミックや業界から大きな注目を集めている。 SWEベンチは問題解決における性能を測定するために提案されている。本稿では,マルチエージェントフレームワークと事前に定義されたタスクグラフを採用して,報告されたバグの修復と解決を行い,コードリポジトリに新機能を追加するCodeRを提案する。 SWE-bench lite では、CodeR は各問題に 1 回だけ提出した場合に 28.00% の問題を解決することができる。我々は,CodeRの各設計の性能への影響について検討し,この研究の方向性を推し進めるための洞察を提供する。

関連論文リスト

BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing? [61.247730037229815]
BeyondSWEは2つの軸 – 解像度スコープと知識スコープ – に沿って既存の評価を拡張する包括的なベンチマークです。外部知識の役割を解明するために,ディープ検索とコーディング能力を統合するフレームワークであるSearchSWEを開発した。この作業は、現実的で挑戦的な評価ベンチマークと、より有能なコードエージェントに向けた研究を進めるための柔軟なフレームワークの両方を提供する。
論文参考訳（メタデータ） (2026-03-03T17:52:01Z)
GREPO: A Benchmark for Graph Neural Networks on Repository-Level Bug Localization [50.009407518866965]
リポジトリレベルのバグローカライゼーションは、ソフトウェアエンジニアリングの重要な課題です。 GNNは、複雑なリポジトリ全体の依存関係をモデル化できるため、有望な代替手段を提供する。 GREPOは、リポジトリスケールのバグローカライゼーションタスクのための最初のGNNベンチマークである。
論文参考訳（メタデータ） (2026-02-14T23:22:15Z)
ProjDevBench: Benchmarking AI Coding Agents on End-to-End Project Development [49.63491095660809]
ProjDevBenchはエンドツーエンドのベンチマークで、コーディングエージェントにプロジェクト要件を提供し、その結果のリポジトリを評価する。概念指向タスクと実世界のアプリケーションシナリオの両方をカバーし、8つのカテゴリにまたがる20のプログラミング問題をキュレートします。エージェントは基本的な機能を扱うが、複雑なシステム設計、時間最適化、リソース管理に苦労する。
論文参考訳（メタデータ） (2026-02-02T05:17:23Z)
Beyond Bug Fixes: An Empirical Investigation of Post-Merge Code Quality Issues in Agent-Generated Pull Requests [4.744786007044749]
AIDevデータセット内のPythonリポジトリから,統合されたエージェント生成バグフィックスPR1,210を分析した。その結果,コードチャーンによる正規化後,エージェント間の生の課題数に明らかな相違がほぼ消失していることが判明した。すべてのエージェントにおいて、コードの臭いは特に臨界や主要な重大度において支配的であり、バグは頻度が低いが、しばしば深刻である。
論文参考訳（メタデータ） (2026-01-27T22:55:05Z)
An Empirical Study on the Amount of Changes Required for Merge Request Acceptance [2.5999037208435705]
GitLabのリクエストの71%は提出後に調整を必要とし、28%は200行以上のコードの変更を含む。テキストの特徴、コードの複雑さ、開発者エクスペリエンス、レビュー履歴、ブランチなど、さまざまな次元のメトリクスを使用して、解釈可能な機械学習モデルをトレーニングします。本モデルでは, 高い性能(AUC 0.84-0.88)を達成し, 複雑さ, 経験, テキスト特徴が重要な予測因子であることを明らかにする。
論文参考訳（メタデータ） (2025-07-31T15:18:46Z)
CodeRAG: Supportive Code Retrieval on Bigraph for Real-World Code Generation [69.684886175768]
大規模言語モデル(LLM)は、自動コード生成において有望なパフォーマンスを示している。本稿では,検索拡張コード生成フレームワークであるCodeRAGを提案する。実験によると、CodeRAGはRAGのシナリオと比較して大幅に改善されている。
論文参考訳（メタデータ） (2025-04-14T09:51:23Z)
Unveiling Pitfalls: Understanding Why AI-driven Code Agents Fail at GitHub Issue Resolution [22.03052751722933]
問題解決フェーズにおけるPythonの実行エラーは、低解像度率と推論オーバーヘッドの増加と相関している。私たちは、ModuleNotFoundErrorやTypeErrorのような最も一般的なエラーを特定し、OSErrorやデータベース関連の問題のような特に困難なエラーを強調しました。
論文参考訳（メタデータ） (2025-03-16T06:24:51Z)
SWE-Fixer: Training Open-Source LLMs for Effective and Efficient GitHub Issue Resolution [56.9361004704428]
大規模言語モデル(LLM)は、様々な複雑なタスクにまたがる顕著な習熟度を示している。 SWE-Fixerは、GitHubの問題を効果的かつ効率的に解決するために設計された、新しいオープンソースフレームワークである。我々は,SWE-Bench LiteとVerifiedベンチマークに対するアプローチを評価し,オープンソースモデル間の最先端性能を実現する。
論文参考訳（メタデータ） (2025-01-09T07:54:24Z)
CodeV: Issue Resolving with Visual Data [32.05873957588477]
我々は,大規模言語モデル(LLM)の問題解決能力を高めるために,視覚データを活用するための最初のアプローチであるCodeVを提案する。 CodeVは、データ処理とパッチ生成という2段階のプロセスに従えば、各問題を解決できる。 CodeVの有効性を実証するとともに、GitHubの問題を解決するために視覚データを活用するための貴重な洞察を提供する。
論文参考訳（メタデータ） (2024-12-23T06:17:11Z)
LLMs as Continuous Learners: Improving the Reproduction of Defective Code in Software Issues [62.12404317786005]
EvoCoderは、イシューコード再現のための継続的学習フレームワークである。その結果,既存のSOTA法よりも20%改善した。
論文参考訳（メタデータ） (2024-11-21T08:49:23Z)
Evaluating Software Development Agents: Patch Patterns, Code Quality, and Issue Complexity in Real-World GitHub Scenarios [13.949319911378826]
この調査は、500の現実のGitHubイシューで上位10のエージェントから4,892のパッチを評価した。一人のエージェントが支配的であり、170の問題が未解決であり、改善の余地があった。ほとんどのエージェントはコードの信頼性とセキュリティを維持し、新しいバグや脆弱性を避けた。一部のエージェントはコードの複雑さを増し、多くの重複を減らし、コードの臭いを最小限にした。
論文参考訳（メタデータ） (2024-10-16T11:33:57Z)
RepoGraph: Enhancing AI Software Engineering with Repository-level Code Graph [63.87660059104077]
RepoGraphは、現代のAIソフトウェアエンジニアリングソリューションのためのリポジトリレベルの構造を管理するプラグインモジュールである。 RepoGraphはすべてのシステムのパフォーマンスを大幅に向上させ、オープンソースフレームワークの間で新たな最先端技術を生み出している。
論文参考訳（メタデータ） (2024-10-03T05:45:26Z)
Enhancing Automated Program Repair with Solution Design [5.547148114448699]
DRCodePilot は GPT-4-Turbo の APR 機能を DR をプロンプト命令に組み込むことで拡張する手法である。 DRCodePilotはGPT-4を直接利用するよりも4.7倍高いフルマッチ比を達成しています。
論文参考訳（メタデータ） (2024-08-22T01:13:02Z)
MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains [54.117238759317004]
大規模マルチタスクエージェント理解(MMAU)ベンチマークは、複雑な環境設定を必要としない包括的なオフラインタスクを特徴としている。ツールユース、DAG(Directed Acyclic Graph)QA、データサイエンスと機械学習コーディング、コンテストレベルのプログラミング、数学の5分野にわたるモデルを評価する。 3K以上の異なるプロンプトを含む20の精巧に設計されたタスクにより、MMAUはLLMエージェントの強度と限界を評価するための包括的なフレームワークを提供する。
論文参考訳（メタデータ） (2024-07-18T00:58:41Z)
How to Understand Whole Software Repository? [64.19431011897515]
リポジトリ全体に対する優れた理解は、自動ソフトウェアエンジニアリング(ASE)への重要な道になるでしょう。本研究では,リポジトリ全体を包括的に理解するためのエージェントによるRepoUnderstanderという新しい手法を開発した。リポジトリレベルの知識をより活用するために、エージェントをまとめ、分析し、計画する。
論文参考訳（メタデータ） (2024-06-03T15:20:06Z)
MAGIS: LLM-Based Multi-Agent Framework for GitHub Issue Resolution [47.850418420195304]
大規模言語モデル(LLM)はコード生成において有望であるが、GitHubの問題を解決する上で困難に直面している。ソフトウェア進化のためにカスタマイズされた4つのエージェントからなる、GitHub Issue Resolution, MAGISのための新しいMulti-Agentフレームワークを提案する。
論文参考訳（メタデータ） (2024-03-26T17:57:57Z)
RepoCoder: Repository-Level Code Completion Through Iterative Retrieval and Generation [96.75695811963242]
RepoCoderはリポジトリレベルのコード補完プロセスを合理化するフレームワークである。類似性ベースのレトリバーと、事前訓練されたコード言語モデルが組み込まれている。バニラ検索で拡張されたコード補完アプローチよりも一貫して優れています。
論文参考訳（メタデータ） (2023-03-22T13:54:46Z)
ADPTriage: Approximate Dynamic Programming for Bug Triage [0.0]
オンラインバグトリアージタスクのためのマルコフ決定プロセス(MDP)モデルを開発した。私たちはADPTriageと呼ばれるADPベースのバグトリアージソリューションを提供しています。以上の結果から, 代入精度と固定時間の観点から, ミオピックアプローチよりも有意な改善が見られた。
論文参考訳（メタデータ） (2022-11-02T04:42:21Z)
Predicting Issue Types on GitHub [8.791809365994682]
Ticket Taggerは、機械学習技術による課題のタイトルと説明を分析するGitHubアプリである。私たちは、約30,000のGitHubイシューに対して、ツールの予測パフォーマンスを実証的に評価しました。
論文参考訳（メタデータ） (2021-07-21T08:14:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。