論文の概要: On the Effectiveness of Code Representation in Deep Learning-Based Automated Patch Correctness Assessment
- arxiv url: http://arxiv.org/abs/2603.07520v1
- Date: Sun, 08 Mar 2026 08:18:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:14.709442
- Title: On the Effectiveness of Code Representation in Deep Learning-Based Automated Patch Correctness Assessment
- Title(参考訳): ディープラーニングに基づく自動パッチ精度評価におけるコード表現の有効性について
- Authors: Quanjun Zhang, Chunrong Fang, Haichuan Hu, Yuan Zhao, Weisong Sun, Yun Yang, Tao Zheng, Zhenyu Chen,
- Abstract要約: 自動プログラム修復(APR)は、正しいパッチを作成しようとする試みであり、過去数十年間、学術と産業の両方から広く注目を集めてきた。
オーバーフィッティング問題に対処するため、コミュニティはパッチの正当性(APCAアプローチ)を予測するためのアプローチを多数提案している。
中でも,デザインの自動マッチングを目的とした局所的な深層学習アプローチが強くなってきている。
パッチの正確性には根本的な理由があるにもかかわらず、コード表現は体系的に研究されていない。
- 参考スコア(独自算出の注目度): 27.074607600022315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated program repair (APR) attempts to generate correct patches and has drawn wide attention from both academia and industry in the past decades. However, APR is continuously struggling with the patch overfitting issue due to the weak test suites. Thus, to address the overfitting problem, the community has proposed an increasing number of approaches to predict patch correctness (APCA approaches). Among them, locally deep learning approaches aimed at automatically match designs has been emerging strongly. Such approaches typically encode input code snippets into well-designed representations and build a binary model for correctness prediction. Despite being fundamental in reason about patch correctness, code representation has not been systematically investigated. To bridge this gap, we perform the first extensive study to evaluate the performance of different code representations on predicting patch correctness from more than 500 trained APCA models. The experimental results on 15 benchmarks with four categories and 11 classifiers show that the graph-based code representation which is ill-explored in the literature, consistently outperforms other representations, e.g., an average accuracy of 82.6% for CPG across three GNN models. Moreover, we demonstrate that such representations can achieve comparable or better performance for three different previous APCA approaches, e.g., filtering out 87.09% overfitting patches by TREETRAIN with AST. We further find that integrating sequence-based representation into heuristic-based representation is able to yield an average improvement of 13.5% on five metrics. Overall, our study highlights the potential and challenges of utilizing code representation to reason about patch correctness, thus increasing the usability of off-the-shelf APR tools and reducing the manual debugging effort of developers in practice.
- Abstract(参考訳): 自動プログラム修復(APR)は、正しいパッチを作成しようとする試みであり、過去数十年間、学術と産業の両方から広く注目を集めてきた。
しかし、APRは、弱いテストスイートのためにパッチ過適合の問題に悩まされ続けています。
このように、オーバーフィッティング問題に対処するため、コミュニティはパッチの正当性(APCA)を予測するためのアプローチを多数提案している。
中でも,デザインの自動マッチングを目的とした局所的な深層学習アプローチが強くなってきている。
このようなアプローチは通常、入力コードスニペットをよく設計された表現にエンコードし、正当性予測のためのバイナリモデルを構築する。
パッチの正確性には根本的な理由があるにもかかわらず、コード表現は体系的に研究されていない。
このギャップを埋めるために、500以上のトレーニング済みAPCAモデルからパッチの正当性を予測し、異なるコード表現の性能を評価するための、最初の広範な研究を行った。
4つのカテゴリと11の分類器を持つ15のベンチマーク実験の結果、グラフベースのコード表現は3つのGNNモデルの平均精度82.6%の他の表現よりも一貫して優れていた。
さらに、これらの表現は、TREETRAINとASTによる87.09%のオーバーフィッティングパッチをフィルタリングする3つの以前のAPCAアプローチに対して、同等またはより良いパフォーマンスを達成できることを実証する。
さらに、シーケンスベースの表現をヒューリスティックベースの表現に統合することで、5つのメトリクスで平均13.5%の改善が得られることがわかった。
全体として、本研究では、パッチの正当性を推論するためにコード表現を利用する可能性と課題を強調し、既製のAPRツールの使用性を高め、実践中の開発者の手作業によるデバッグ作業を減らす。
関連論文リスト
- BRIDGE: Building Representations In Domain Guided Program Verification [67.36686119518441]
BRIDGEは、検証をコード、仕様、証明の3つの相互接続ドメインに分解する。
提案手法は, 標準誤差フィードバック法よりも精度と効率を著しく向上することを示す。
論文 参考訳(メタデータ) (2025-11-26T06:39:19Z) - REFINE: Enhancing Program Repair Agents through Context-Aware Patch Refinement [12.995571513415905]
大規模言語モデル(LLM)は、最近、自動プログラム修復(APR)に強い可能性を示している。
LLMは、コードコンテキストの限定的な理解と不完全なテストスイートへの過度な信頼のために、正しい修正を作成するのに苦労することが多い。
本稿では,ドラフトパッチを正しいものに体系的に変換する新しいパッチリファインメントフレームワークRefineを提案する。
論文 参考訳(メタデータ) (2025-10-04T00:34:32Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Automated Repair of C Programs Using Large Language Models [0.0]
本研究では,Cプログラムの修復を自動化する上で,LLM(Large Language Models)の可能性について検討する。
本稿では,SBFL(Spectrum-based Fault Localization),ランタイムフィードバック,Chain-of-Thought-structured(Chain-of-Thought-structured)を自動修復ループに統合するフレームワークを提案する。
我々の手法は44.93%の修理精度を達成し、最先端のAPRベースラインに対する3.61%の絶対的な改善を示している。
論文 参考訳(メタデータ) (2025-09-02T04:34:11Z) - RePaCA: Leveraging Reasoning Large Language Models for Static Automated Patch Correctness Assessment [0.0]
本稿では,Large Language Models (LLM) を利用した新しい静的APCA手法であるRePaCAを紹介する。
提案手法は,83.1%の精度と84.8%のF1スコアで最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-07-30T11:21:09Z) - Parameter-Efficient Fine-Tuning with Attributed Patch Semantic Graph for Automated Patch Correctness Assessment [8.028183762381474]
自動プログラム修復(APR)は、人間の介入なしにプログラムエラーを自動的に修復することを目的としている。
多くの研究がAPCA(Automatic patch correctness Assessment)に費やされている。
論文 参考訳(メタデータ) (2025-05-05T13:15:53Z) - Reinforcement Learning for Reasoning in Large Language Models with One Training Example [117.86853102104256]
1つのトレーニング例(1ショットRLVR)を用いた強化学習は,大規模言語モデル(LLM)の算数推論能力の向上に有効であることを示す。
1ショットRLVRにおける興味深い現象として、クロスカテゴリの一般化、自己回帰の頻度の増加、テスト性能の向上の持続などを挙げる。
論文 参考訳(メタデータ) (2025-04-29T09:24:30Z) - Masked Thought: Simply Masking Partial Reasoning Steps Can Improve Mathematical Reasoning Learning of Language Models [102.72940700598055]
推論タスクでは、小さなエラーでも不正確な結果にカスケードすることができる。
入力の摂動に頼らず、外部リソースの導入を避ける手法を開発した。
私たちのトレーニングアプローチでは、思考の連鎖の中で特定のトークンをランダムにマスクします。
論文 参考訳(メタデータ) (2024-03-04T16:21:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。