論文の概要: PatchGuru: Patch Oracle Inference from Natural Language Artifacts with Large Language Models
- arxiv url: http://arxiv.org/abs/2602.05270v1
- Date: Thu, 05 Feb 2026 03:48:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.748833
- Title: PatchGuru: Patch Oracle Inference from Natural Language Artifacts with Large Language Models
- Title(参考訳): PatchGuru: 大規模言語モデルによる自然言語アーチファクトからのOracle推論をパッチする
- Authors: Thanh Le-Cong, Bach Le, Toby Murray, Michael Pradel, Cristian Cadar,
- Abstract要約: PatchGuruは、実際のプルリクエスト(PR)から実行可能なパッチ仕様を推論する最初の自動テクニックである。
PRが与えられた後、PatchGuruは大規模な言語モデル(LLM)を使用してNLアーティファクトから開発者の意図を抽出し、パッチオークルを合成する。
PatchGuruは、プレパッチとポストパッチの動作を比較し、違反を特定し、自己レビューを通じて不整合をフィルタリングし、バグレポートを生成することで、推論されたオラクルを反復的に洗練する。
- 参考スコア(独自算出の注目度): 16.633386478990037
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As software systems evolve, patches may unintentionally alter program behavior. Validating patches against their intended semantics is difficult due to incomplete regression tests and informal, non-executable natural language (NL) descriptions of patch intent. We present PatchGuru, the first automated technique that infers executable patch specifications from real-world pull requests (PRs). Given a PR, PatchGuru uses large language models (LLMs) to extract developer intent from NL artifacts and synthesizes patch oracles: under-approximate yet practical specifications expressed as runtime assertions in comparison programs that integrate pre- and post-patch versions. Patch oracles focus on patch-relevant behaviors, enable automated validation, and support cross-version properties. PatchGuru iteratively refines inferred oracles by comparing pre- and post-patch behaviors, identifies violations, filters inconsistencies via self-review, and generates bug reports. We evaluate PatchGuru on 400 recent PRs from four widely used open-source Python projects. PatchGuru reports 39 warnings with a precision of 0.62, yielding 24 confirmed true positives, including 12 previously unknown bugs, 11 of which were subsequently fixed by developers. Compared to the state-of-the-art technique Testora, PatchGuru detects 17 more bugs (24 vs. 7) while improving precision from 0.32 to 0.62. PatchGuru incurs an average cost of 8.9 minutes and USD 0.07 per PR. These results suggest that PatchGuru complements code review and regression testing by providing executable documentation and automated validation of patch intent.
- Abstract(参考訳): ソフトウェアシステムが進化するにつれて、パッチは意図せずプログラムの振る舞いを変える可能性がある。
意図したセマンティクスに対するパッチの検証は、不完全な回帰テストと非公式で実行不可能な自然言語(NL)によるパッチインテントの記述のために難しい。
PatchGuruは、実際のプルリクエスト(PR)から実行可能なパッチ仕様を推論する最初の自動テクニックです。
PRが与えられた後、PatchGuruは大規模な言語モデル(LLM)を使用して、NLアーティファクトから開発者意図を抽出し、パッチオークルを合成する。
パッチオラクルはパッチ関連の動作に重点を置いて、自動バリデーションを有効にし、クロスバージョンプロパティをサポートする。
PatchGuruは、プレパッチとポストパッチの動作を比較し、違反を特定し、自己レビューを通じて不整合をフィルタリングし、バグレポートを生成することで、推論されたオラクルを反復的に洗練する。
PatchGuruを4つの広く使われているオープンソースのPythonプロジェクトから400の最新のPRで評価する。
PatchGuruは39の警告を0.62の精度で報告し、24の正の正の値が得られた。
最先端の技術であるTestoraと比較して、PatchGuruは17のバグ(24対7)を検出し、精度は0.32から0.62に向上した。
PatchGuruは平均8.9分、USD 0.07である。
これらの結果は、パッチインテントの自動検証と実行可能なドキュメントを提供することで、PatchGuruがコードレビューと回帰テストを補完していることを示唆している。
関連論文リスト
- What Do They Fix? LLM-Aided Categorization of Security Patches for Critical Memory Bugs [46.325755802511026]
我々は、LLM(Large Language Model)と細調整された小言語モデルに基づく2つのアプローチを統合するデュアルメタルパイプラインであるLMを開発した。
LMは、OOBまたはUAFの脆弱性に対処する最近のLinuxカーネルのパッチ5,140のうち111つを、手作業による検証によって90の正の正が確認された。
論文 参考訳(メタデータ) (2025-09-26T18:06:36Z) - Are "Solved Issues" in SWE-bench Really Solved Correctly? An Empirical Study [18.117047833029073]
自動問題解決のための最も一般的なベンチマークは、SWE-benchと、その人間のフィルタリングサブセットであるSWE-bench Verifiedである。
本稿では,SWE-bench Verifiedで評価された3つの最先端課題解決ツールによって生成された可塑性パッチの正確性について,詳細な実験的検討を行った。
論文 参考訳(メタデータ) (2025-03-19T14:02:21Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z) - Assessing the Latent Automated Program Repair Capabilities of Large Language Models using Round-Trip Translation [44.3761164214368]
RTT(Round-Trip Translation): あるプログラミング言語から別のプログラミング言語や自然言語にコードを翻訳する。
JavaにおけるRTT生成パッチの詳細な量的および定性的な分析を行う。
RTTはHumanEval-JavaベンチマークでGPT-4を用いた164のバグのうち100件に対して可塑性パッチを生成し,97件を手作業で評価した。
論文 参考訳(メタデータ) (2024-01-15T22:36:31Z) - RAP-Gen: Retrieval-Augmented Patch Generation with CodeT5 for Automatic
Program Repair [75.40584530380589]
新たな検索型パッチ生成フレームワーク(RAP-Gen)を提案する。
RAP-Gen 以前のバグ修正ペアのリストから取得した関連する修正パターンを明示的に活用する。
RAP-GenをJavaScriptのTFixベンチマークとJavaのCode RefinementとDefects4Jベンチマークの2つのプログラミング言語で評価する。
論文 参考訳(メタデータ) (2023-09-12T08:52:56Z) - Fixing Model Bugs with Natural Language Patches [38.67529353406759]
私たちは、開発者が適切な抽象化レベルで修正的なフィードバックを提供できるように、自然言語パッチを調査します。
少量の合成データを用いて、実際のデータに実際のパッチを効果的に利用するモデルを教えることができることを示す。
また、少数の言語パッチのパフォーマンスに合わせるために、ラベル付き例を100個まで微調整する必要があることも示している。
論文 参考訳(メタデータ) (2022-11-07T05:49:19Z) - Is this Change the Answer to that Problem? Correlating Descriptions of
Bug and Code Changes for Evaluating Patch Correctness [8.606215760860362]
パッチの正当性評価を質問回答問題に変換する。
我々は、バグレポートと生成されたパッチの自然言語記述を入力として検討する。
実験により、Quatrainはパッチの正確性を予測するために0.886のAUCを達成できることが示された。
論文 参考訳(メタデータ) (2022-08-08T13:32:58Z) - Checking Patch Behaviour against Test Specification [4.723400023753107]
パッチ動作とテスト仕様のフェールとの関連性について仮説を提案する。
次に、パッチの正当性を予測するための教師なし学習ベースシステムBATSを提案する。
論文 参考訳(メタデータ) (2021-07-28T11:39:06Z) - (De)Randomized Smoothing for Certifiable Defense against Patch Attacks [136.79415677706612]
我々は、所定の画像とパッチ攻撃サイズを保証する、パッチ攻撃に対する認証可能な防御を導入する。
本手法はランダム化スムースなロバスト性スキームの幅広いクラスに関係している。
その結果,CIFAR-10およびImageNetに対するパッチ攻撃に対する認証済みの防御技術が確立した。
論文 参考訳(メタデータ) (2020-02-25T08:39:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。