Fugu-MT 論文翻訳(概要): RePaCA: Leveraging Reasoning Large Language Models for Static Automated Patch Correctness Assessment

論文の概要: RePaCA: Leveraging Reasoning Large Language Models for Static Automated Patch Correctness Assessment

arxiv url: http://arxiv.org/abs/2507.22580v1
Date: Wed, 30 Jul 2025 11:21:09 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-31 16:14:18.168562
Title: RePaCA: Leveraging Reasoning Large Language Models for Static Automated Patch Correctness Assessment
Title（参考訳）: RePaCA: 静的自動パッチ精度評価のための大規模言語モデルの活用
Authors: Marcos Fuster-Pena, David de-Fitero-Dominguez, Antonio Garcia-Cabot, Eva Garcia-Lopez,
Abstract要約: 本稿では,Large Language Models (LLM) を利用した新しい静的APCA手法であるRePaCAを紹介する。提案手法は,83.1%の精度と84.8%のF1スコアで最先端の性能を実現する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Automated Program Repair (APR) seeks to automatically correct software bugs without requiring human intervention. However, existing tools tend to generate patches that satisfy test cases without fixing the underlying bug, those are known as overfitting patches. To address this issue, Automated Patch Correctness Assessment (APCA) attempts to identify overfitting patches generated by APR tools. It can be solved as a static approach, meaning that no additional information is needed beyond the original and fixed code snippets. Current static techniques often struggle with reliability, flexibility and transparency. To address these issues, we introduce RePaCA, a novel static APCA technique that leverages Large Language Models (LLMs) specialized in thinking tasks. Our model is prompted with both buggy and fixed code snippets and guided to generate a Chain of Thought that analyses code differences, reasons about how the patch addresses the root cause, and ultimately provides a binary classification: correct or overfitting. To enhance these reasoning capabilities for the APCA task specifically, the LLM is finetuned using Reinforcement Learning with the Group Relative Policy Optimization algorithm. When evaluated on a standard Defects4J-derived test, our approach achieves state-of-the-art performance, with 83.1% accuracy and an 84.8% F1-score. Furthermore, our model demonstrates superior generalization capabilities when trained on different datasets, outperforming the leading technique. This reasoning capability also provides enhanced explainability for the patch assessment. These findings underscore the considerable promise of finetuned, reasoning LLMs to advance static APCA by enhancing accuracy, generalization, and explainability.
Abstract（参考訳）: 自動プログラム修復(APR)は、人間の介入を必要とせずに、ソフトウェアのバグを自動的に修正することを目指している。しかし、既存のツールは、基礎となるバグを修正することなくテストケースを満たすパッチを生成する傾向にあり、それらはオーバーフィッティングパッチとして知られている。この問題を解決するために、APCA(Automated Patch Correctness Assessment)は、APRツールによって生成された過剰適合パッチを特定しようとする。これは静的なアプローチとして解決できるため、元のコードスニペットと固定されたコードスニペット以外に追加情報を必要としない。現在の静的なテクニックは、信頼性、柔軟性、透明性に悩まされることが多い。これらの課題に対処するために,思考タスクに特化したLarge Language Models (LLMs)を活用する新しい静的APCA手法であるRePaCAを紹介する。私たちのモデルはバグの多いコードスニペットと固定されたコードスニペットの両方でトリガーされ、コードの違いを分析し、パッチがどのように根本原因に対処するかを判断するChain of Thoughtを生成するためにガイドされます。 APCAタスクのこれらの推論機能を強化するために、LLMはグループ相対ポリシー最適化アルゴリズムを用いて強化学習を用いて微調整される。標準的なDefects4Jによるテストで評価すると,83.1%の精度と84.8%のF1スコアで最先端の性能が得られた。さらに,本モデルでは,異なるデータセットでトレーニングした場合に優れた一般化能力を示し,先行技術よりも優れた性能を示す。この推論能力は、パッチアセスメントの強化された説明性も提供する。これらの知見は, 精密化, 一般化, 説明可能性の向上により, LLMが静的APCAの進行を推し進めることの有望さを裏付けるものである。

関連論文リスト

CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文参考訳（メタデータ） (2025-08-05T17:55:24Z)
Do AI models help produce verified bug fixes? [62.985237003585674]
大規模言語モデルは、ソフトウェアバグの修正に使用される。本稿では,プログラマが大規模言語モデルを用いて,自身のスキルを補完する方法について検討する。その結果は、プログラムバグに対する保証された修正を提供するAIとLLMの適切な役割への第一歩となる。
論文参考訳（メタデータ） (2025-07-21T17:30:16Z)
Specification-Guided Repair of Arithmetic Errors in Dafny Programs using LLMs [84.30534714651093]
本稿では,検証を意識したプログラミング言語であるDafnyに対して,革新的なAPRツールを提案する。プログラム内の各ステートメントの状態を決定するために、Hoare Logicの使用を含む一連のステップを通じて、障害をローカライズします。実世界のDafnyプログラムのベンチマークであるDafnyBenchを用いて,我々のアプローチを評価する。
論文参考訳（メタデータ） (2025-07-04T15:36:12Z)
Parameter-Efficient Fine-Tuning with Attributed Patch Semantic Graph for Automated Patch Correctness Assessment [8.028183762381474]
自動プログラム修復(APR)は、人間の介入なしにプログラムエラーを自動的に修復することを目的としている。多くの研究がAPCA(Automatic patch correctness Assessment)に費やされている。
論文参考訳（メタデータ） (2025-05-05T13:15:53Z)
Eliminating Position Bias of Language Models: A Mechanistic Approach [119.34143323054143]
位置バイアスは現代言語モデル (LM) の一般的な問題であることが証明されている。我々の力学解析は、ほぼ全ての最先端のLMで使われている2つのコンポーネント(因果的注意と相対的位置エンコーディング)に位置バイアスが関係している。位置バイアスを排除することによって、LM-as-a-judge、検索強化QA、分子生成、数学推論など、下流タスクのパフォーマンスと信頼性が向上する。
論文参考訳（メタデータ） (2024-07-01T09:06:57Z)
A Case Study of LLM for Automated Vulnerability Repair: Assessing Impact of Reasoning and Patch Validation Feedback [7.742213291781287]
提案するVRpilotは,推論とパッチ検証フィードバックに基づく脆弱性修復手法である。以上の結果から,VRpilotはCとJavaのベースライン技術よりも平均14%と7.6%の正確なパッチを生成することがわかった。
論文参考訳（メタデータ） (2024-05-24T16:29:48Z)
Masked Thought: Simply Masking Partial Reasoning Steps Can Improve Mathematical Reasoning Learning of Language Models [102.72940700598055]
推論タスクでは、小さなエラーでも不正確な結果にカスケードすることができる。入力の摂動に頼らず、外部リソースの導入を避ける手法を開発した。私たちのトレーニングアプローチでは、思考の連鎖の中で特定のトークンをランダムにマスクします。
論文参考訳（メタデータ） (2024-03-04T16:21:54Z)
RAP-Gen: Retrieval-Augmented Patch Generation with CodeT5 for Automatic Program Repair [75.40584530380589]
新たな検索型パッチ生成フレームワーク(RAP-Gen)を提案する。 RAP-Gen 以前のバグ修正ペアのリストから取得した関連する修正パターンを明示的に活用する。 RAP-GenをJavaScriptのTFixベンチマークとJavaのCode RefinementとDefects4Jベンチマークの2つのプログラミング言語で評価する。
論文参考訳（メタデータ） (2023-09-12T08:52:56Z)
Patch Space Exploration using Static Analysis Feedback [8.13782364161157]
静的解析を利用して、メモリの安全性問題を自動的に修復する方法を示す。提案したアプローチは、バグを修正するためのパッチの近さを検査することで、望ましいパッチが何であるかを学習する。我々は,印字ヒープに対する影響に応じて等価パッチのクラスを作成し,そのクラスのパッチ等価度に対してのみ検証オラクルを呼び出すことにより,修復をスケーラブルにする。
論文参考訳（メタデータ） (2023-08-01T05:22:10Z)
GRACE: Discriminator-Guided Chain-of-Thought Reasoning [75.35436025709049]
本稿では, 正しい推論手順を導出するために, GRACE (CorrectnEss Discriminator) を用いたチェーン・オブ・シークレット・リAsoningを提案する。 GRACEは、正しいステップと間違ったステップに対して対照的な損失で訓練された判別器を採用しており、復号時に次のステップ候補を採点するために使用される。
論文参考訳（メタデータ） (2023-05-24T09:16:51Z)
Self-Evaluation Guided Beam Search for Reasoning [61.523627290397556]
我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
論文参考訳（メタデータ） (2023-05-01T02:37:59Z)
PatchZero: Zero-Shot Automatic Patch Correctness Assessment [13.19425284402493]
コードに大規模言語モデルを適用することにより,パッチの正当性評価を行うツールネームを提案する。ツールネームは、新しいAPRツールによって生成されたものとセマンティックな類似性を示す既存のAPRツールからラベル付きパッチを優先する。実験の結果,ツールネームの精度は84.4%,F1スコアは86.5%であった。
論文参考訳（メタデータ） (2023-03-01T03:12:11Z)
APPT: Boosting Automated Patch Correctness Prediction via Fine-tuning Pre-trained Models [15.179895484968476]
本稿では,事前学習と微調整によるモデルベース自動パッチ正当性評価手法であるAPPTを提案する。我々は1,183個のDefects4Jパッチの実験を行い、APPTが予測精度79.7%、リコール率83.2%を達成したことを示す実験結果を得た。
論文参考訳（メタデータ） (2023-01-29T14:28:26Z)
Invalidator: Automated Patch Correctness Assessment via Semantic and Syntactic Reasoning [6.269370220586248]
本稿では,意味論的および統語論的推論により,APR生成パッチの正当性を自動的に評価する手法を提案する。我々は、Defects4Jの現実世界のプログラムで生成された885パッチのデータセットについて実験を行った。実験の結果,INVALIDATORは79%のオーバーフィッティングパッチを正しく分類し,最高のベースラインで検出されたパッチを23%上回った。
論文参考訳（メタデータ） (2023-01-03T14:16:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。