Fugu-MT 論文翻訳(概要): Invalidator: Automated Patch Correctness Assessment via Semantic and Syntactic Reasoning

論文の概要: Invalidator: Automated Patch Correctness Assessment via Semantic and Syntactic Reasoning

arxiv url: http://arxiv.org/abs/2301.01113v1
Date: Tue, 3 Jan 2023 14:16:32 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-04 15:14:42.481127
Title: Invalidator: Automated Patch Correctness Assessment via Semantic and Syntactic Reasoning
Title（参考訳）: Invalidator:意味的・統語的推論による自動パッチ精度評価
Authors: Thanh Le-Cong, Duc-Minh Luong, Xuan Bach D. Le, David Lo, Nhat-Hoa Tran, Bui Quang-Huy and Quyet-Thang Huynh
Abstract要約: 本稿では,意味論的および統語論的推論により,APR生成パッチの正当性を自動的に評価する手法を提案する。我々は、Defects4Jの現実世界のプログラムで生成された885パッチのデータセットについて実験を行った。実験の結果,INVALIDATORは79%のオーバーフィッティングパッチを正しく分類し,最高のベースラインで検出されたパッチを23%上回った。
参考スコア（独自算出の注目度）: 6.269370220586248
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we propose a novel technique, namely INVALIDATOR, to automatically assess the correctness of APR-generated patches via semantic and syntactic reasoning. INVALIDATOR reasons about program semantic via program invariants while it also captures program syntax via language semantic learned from large code corpus using the pre-trained language model. Given a buggy program and the developer-patched program, INVALIDATOR infers likely invariants on both programs. Then, INVALIDATOR determines that a APR-generated patch overfits if: (1) it violates correct specifications or (2) maintains errors behaviors of the original buggy program. In case our approach fails to determine an overfitting patch based on invariants, INVALIDATOR utilizes a trained model from labeled patches to assess patch correctness based on program syntax. The benefit of INVALIDATOR is three-fold. First, INVALIDATOR is able to leverage both semantic and syntactic reasoning to enhance its discriminant capability. Second, INVALIDATOR does not require new test cases to be generated but instead only relies on the current test suite and uses invariant inference to generalize the behaviors of a program. Third, INVALIDATOR is fully automated. We have conducted our experiments on a dataset of 885 patches generated on real-world programs in Defects4J. Experiment results show that INVALIDATOR correctly classified 79% overfitting patches, accounting for 23% more overfitting patches being detected by the best baseline. INVALIDATOR also substantially outperforms the best baselines by 14% and 19% in terms of Accuracy and F-Measure, respectively.
Abstract（参考訳）: 本稿では,意味的および構文的推論によるAPR生成パッチの正当性を自動評価する新しい手法であるINVALIDATORを提案する。 INVALIDATORはプログラム不変量によるプログラムセマンティクスの理由と、事前訓練された言語モデルを用いて学習した大規模コードコーパスから学習した言語セマンティクスを通してプログラム構文をキャプチャする。バギープログラムと開発者パッチプログラムが与えられた場合、invalidatorは両方のプログラムの不変性を推測する。そして、INVALIDATORは、APR生成パッチがオーバーフィットしていると判断する。(1)それが正しい仕様に違反しているか、(2)元のバギープログラムのエラー動作を維持しているか。 invariantsに基づく過剰適合パッチの判定に失敗した場合、invalidatorはラベル付きパッチからトレーニングされたモデルを使用して、プログラムの構文に基づいてパッチの正確性を評価する。 INVALIDATORの利点は3倍である。第一に、INVALIDATORは意味論的推論と統語論的推論の両方を利用して識別能力を高めることができる。第二に、INVALIDATORは新しいテストケースを生成する必要はないが、代わりに現在のテストスイートのみに依存し、プログラムの振る舞いを一般化するために不変推論を使用する。第3に、INVALIDATORは完全に自動化されている。 defects4jにおける実世界のプログラムで生成された885のパッチのデータセットについて実験を行った。実験の結果,INVALIDATORは79%のオーバーフィッティングパッチを正しく分類し,最高のベースラインで検出されたパッチを23%上回った。 INVALIDATORは、それぞれ精度とF-Measureの点で、最高のベースラインの14%と19%を大きく上回っている。

関連論文リスト

RePaCA: Leveraging Reasoning Large Language Models for Static Automated Patch Correctness Assessment [0.0]
本稿では,Large Language Models (LLM) を利用した新しい静的APCA手法であるRePaCAを紹介する。提案手法は,83.1%の精度と84.8%のF1スコアで最先端の性能を実現する。
論文参考訳（メタデータ） (2025-07-30T11:21:09Z)
Test-Time Adaptation with Binary Feedback [50.20923012663613]
BiTTAは、不確実なサンプルに対するバイナリフィードバック誘導適応と、確実な予測に対する合意に基づく自己適応のバランスをとる、新しいデュアルパス最適化フレームワークである。実験の結果、BiTTAは最先端のベースラインよりも13.3%の精度向上を実現している。
論文参考訳（メタデータ） (2025-05-24T05:24:10Z)
Parameter-Efficient Fine-Tuning with Attributed Patch Semantic Graph for Automated Patch Correctness Assessment [8.028183762381474]
自動プログラム修復(APR)は、人間の介入なしにプログラムエラーを自動的に修復することを目的としている。多くの研究がAPCA(Automatic patch correctness Assessment)に費やされている。
論文参考訳（メタデータ） (2025-05-05T13:15:53Z)
LLM Critics Help Catch Bugs in Mathematics: Towards a Better Mathematical Verifier with Natural Language Feedback [71.95402654982095]
本研究では,自然言語フィードバック型検証器Math-Minosを提案する。実験の結果,少量の自然言語フィードバックが検証器の性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-06-20T06:42:27Z)
HyPoradise: An Open Baseline for Generative Speech Recognition with Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文参考訳（メタデータ） (2023-09-27T14:44:10Z)
RAP-Gen: Retrieval-Augmented Patch Generation with CodeT5 for Automatic Program Repair [75.40584530380589]
新たな検索型パッチ生成フレームワーク(RAP-Gen)を提案する。 RAP-Gen 以前のバグ修正ペアのリストから取得した関連する修正パターンを明示的に活用する。 RAP-GenをJavaScriptのTFixベンチマークとJavaのCode RefinementとDefects4Jベンチマークの2つのプログラミング言語で評価する。
論文参考訳（メタデータ） (2023-09-12T08:52:56Z)
PatchZero: Zero-Shot Automatic Patch Correctness Assessment [13.19425284402493]
コードに大規模言語モデルを適用することにより,パッチの正当性評価を行うツールネームを提案する。ツールネームは、新しいAPRツールによって生成されたものとセマンティックな類似性を示す既存のAPRツールからラベル付きパッチを優先する。実験の結果,ツールネームの精度は84.4%,F1スコアは86.5%であった。
論文参考訳（メタデータ） (2023-03-01T03:12:11Z)
Fine-Tuning Deteriorates General Textual Out-of-Distribution Detection by Distorting Task-Agnostic Features [14.325845491628087]
アウト・オブ・ディストリビューション(OOD)入力は、自然言語処理(NLP)モデルの安全なデプロイに不可欠である。本研究は,意味的および非意味的変化を検出するための主流テキストOOD検出手法を評価するための第一歩である。本稿では,タスク非依存およびタスク特化表現から得られた信頼スコアを統合する,GNOMEという単純なOODスコアを提案する。
論文参考訳（メタデータ） (2023-01-30T08:01:13Z)
APPT: Boosting Automated Patch Correctness Prediction via Fine-tuning Pre-trained Models [15.179895484968476]
本稿では,事前学習と微調整によるモデルベース自動パッチ正当性評価手法であるAPPTを提案する。我々は1,183個のDefects4Jパッチの実験を行い、APPTが予測精度79.7%、リコール率83.2%を達成したことを示す実験結果を得た。
論文参考訳（メタデータ） (2023-01-29T14:28:26Z)
Checking Patch Behaviour against Test Specification [4.723400023753107]
パッチ動作とテスト仕様のフェールとの関連性について仮説を提案する。次に、パッチの正当性を予測するための教師なし学習ベースシステムBATSを提案する。
論文参考訳（メタデータ） (2021-07-28T11:39:06Z)
Generating Bug-Fixes Using Pretrained Transformers [11.012132897417592]
実世界のgithubからマイニングしたjavaメソッドのバグの検出と修正を学ぶ,データ駆動型プログラム修復手法を導入する。ソースコードプログラムの事前トレーニングは,スクラッチからの教師ありトレーニングに比べて,33%のパッチ数を改善することを示す。我々は,標準精度評価基準を非削除および削除のみの修正に洗練し,我々の最良モデルが従来よりも75%多くの非削除修正を生成することを示す。
論文参考訳（メタデータ） (2021-04-16T05:27:04Z)
On the Robustness of Language Encoders against Grammatical Errors [66.05648604987479]
我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
論文参考訳（メタデータ） (2020-05-12T11:01:44Z)
Adversarial Transfer Learning for Punctuation Restoration [58.2201356693101]
句読点予測のためのタスク不変知識を学習するために,逆多タスク学習を導入する。 IWSLT2011データセットを用いて実験を行った。
論文参考訳（メタデータ） (2020-04-01T06:19:56Z)
Rectifying Pseudo Label Learning via Uncertainty Estimation for Domain Adaptive Semantic Segmentation [49.295165476818866]
本稿では、意味的セグメンテーションの文脈において、ソースドメインからターゲットドメインへの知識伝達の教師なし領域適応に焦点を当てる。既存のアプローチでは、通常、擬似ラベルを未ラベルのターゲットドメインデータを完全に活用するための基礎的真理とみなす。本稿では,擬似ラベル学習の修正のために,学習中の予測の不確かさを明示的に推定することを提案する。
論文参考訳（メタデータ） (2020-03-08T12:37:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。