論文の概要: PAGENT: Learning to Patch Software Engineering Agents
- arxiv url: http://arxiv.org/abs/2506.17772v1
- Date: Sat, 21 Jun 2025 18:00:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.576545
- Title: PAGENT: Learning to Patch Software Engineering Agents
- Title(参考訳): PAGENT: ソフトウェアエンジニアリングエージェントをパッチする学習
- Authors: Haoran Xue, Gias Uddin, Song Wang,
- Abstract要約: 本報告では,7つのLLMコードエージェントが生成したパッチの欠陥について,実証的研究を行った。
パッチにまたがる障害原因の分類を提示する。
このような型関連エラーに対処する第一歩として,我々はPAGENT(パッチエージェント)を設計した。
- 参考スコア(独自算出の注目度): 7.1252881436899544
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM Agents produce patches automatically to resolve an issue. However, they can generate inaccurate patches. Little is known about the root causes behind those failed patches or how those could be fixed. This paper reports an empirical study of the failed patches generated by seven top LLM code agents. We collected 114 issues from the SWE-bench Lite dataset that remained unresolved across the agents. The seven agents produced a total of 769 failed patches for those issues, which we checked with a combination of GPT-4o and manual analysis. We present a taxonomy of the failure reasons across the patches. The taxonomy contains six categories, with several sub-categories under each category. For example, a frequently observed category is the inability of an LLM to correctly infer/produce the appropriate variable type in the produced patch. As a first step towards addressing such type-related errors, we designed PAGENT (Patch Agent). PAGENT utilizes program analysis techniques like CFG creation and exploration to infer the type of information of a patch. PAGENT does this by applying repository-level static code analysis techniques. Then, PAGENT refines the inferred type by further utilizing an LLM-based inference technique. We tested PAGENT on all 127 type-related failed patches from the top three agents in our study. PAGENT could fix 29 of the 127 failed patches.
- Abstract(参考訳): LLMエージェントは、問題の解決のためにパッチを自動生成する。
しかし、不正確なパッチを生成することができる。
失敗したパッチの背後にある根本原因や、どのように修正されるのかについては、ほとんど分かっていない。
本報告では,7つのLLMコードエージェントが生成したパッチの欠陥について,実証的研究を行った。
我々はエージェント間で未解決のままであったSWE-bench Liteデータセットから114の問題を収集した。
7つのエージェントは、これらの問題に対して合計769のパッチを作成したが、GPT-4oと手動解析の組み合わせで確認した。
パッチにまたがる障害原因の分類を提示する。
分類学には6つのカテゴリがあり、各カテゴリの下にいくつかのサブカテゴリがある。
例えば、よく観察されるカテゴリは、LLMが生成したパッチで適切な変数型を正しく推論/生成できないことである。
このようなタイプのエラーに対処する第一歩として,我々はPAGENT(パッチエージェント)を設計した。
PAGENTは、CFG作成や探索のようなプログラム分析技術を使用して、パッチの情報の種類を推測する。
PAGENTはリポジトリレベルの静的コード解析技術を適用することでこれを実現している。
そして、PAGENTは、LLMベースの推論技術をさらに活用して、推論型を洗練する。
調査では,上位3エージェントの127種類の障害パッチについて,PAGENTを試験した。
PAGENTは127件のパッチのうち29件を修正できた。
関連論文リスト
- Parameter-Efficient Fine-Tuning with Attributed Patch Semantic Graph for Automated Patch Correctness Assessment [8.028183762381474]
自動プログラム修復(APR)は、人間の介入なしにプログラムエラーを自動的に修復することを目的としている。
多くの研究がAPCA(Automatic patch correctness Assessment)に費やされている。
論文 参考訳(メタデータ) (2025-05-05T13:15:53Z) - Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems [50.29939179830491]
LLMマルチエージェントシステムにおける障害帰属は、まだ調査が過小評価されており、労働集約的である。
本稿では,3つの自動故障帰属手法の開発と評価を行い,その欠点と欠点を要約する。
最良の方法は、障害に応答するエージェントを特定する際に53.5%の精度を達成するが、故障の特定には14.2%しか役に立たない。
論文 参考訳(メタデータ) (2025-04-30T23:09:44Z) - Are "Solved Issues" in SWE-bench Really Solved Correctly? An Empirical Study [20.46588369793562]
自動問題解決のための最も一般的なベンチマークは、SWE-benchと、その人間のフィルタリングサブセットであるSWE-bench Verifiedである。
本稿では,SWE-bench Verifiedで評価された3つの最先端課題解決ツールによって生成された可塑性パッチの正確性について,詳細な実験的検討を行った。
論文 参考訳(メタデータ) (2025-03-19T14:02:21Z) - Integrating Various Software Artifacts for Better LLM-based Bug Localization and Program Repair [2.9176578730256733]
本稿では,問題コンテンツ(記述とメッセージ)とスタックエラートレースを用いてバグギーメソッドをローカライズするDevLoReを提案する。
異なるアーティファクトを組み込むことで、DevLoReはシングルとノンシングルのバグギーメソッドの49.3%と47.6%をうまく見つけることができた。
これは現在の最先端のAPRメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-12-05T06:21:31Z) - A Novel Approach for Automatic Program Repair using Round-Trip
Translation with Large Language Models [50.86686630756207]
研究によると、ある文の文法的誤りは、それを他の言語に翻訳し、その語を返せば修正できる。
現在の自動プログラム修復(APR)生成モデルは、ソースコードで事前訓練され、修正のために微調整されている。
本稿では,あるプログラミング言語から別のプログラミング言語,あるいは自然言語へのコード変換,そして,その逆といった,微調整ステップをバイパスし,ラウンド・トリップ変換(RTT)を用いる手法を提案する。
論文 参考訳(メタデータ) (2024-01-15T22:36:31Z) - RAP-Gen: Retrieval-Augmented Patch Generation with CodeT5 for Automatic
Program Repair [75.40584530380589]
新たな検索型パッチ生成フレームワーク(RAP-Gen)を提案する。
RAP-Gen 以前のバグ修正ペアのリストから取得した関連する修正パターンを明示的に活用する。
RAP-GenをJavaScriptのTFixベンチマークとJavaのCode RefinementとDefects4Jベンチマークの2つのプログラミング言語で評価する。
論文 参考訳(メタデータ) (2023-09-12T08:52:56Z) - Can Large Language Models Infer Causation from Correlation? [104.96351414570239]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。
相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。
これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-09T12:09:15Z) - Practical Program Repair in the Era of Large Pre-trained Language Models [13.694803023685175]
自動プログラム修正(APR)は、開発者がソフトウェアバグを自動的にパッチするのを支援することを目的としている。
数十億のテキスト/コードトークンを使用してトレーニングされたPLMは、この問題を回避するのに役立つ可能性がある。
我々は、125Mから20Bまで、生産モデルと埋込モデルを含む最新の9つのPLMを選択した。
論文 参考訳(メタデータ) (2022-10-25T17:18:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。