論文の概要: Invalidator: Automated Patch Correctness Assessment via Semantic and
Syntactic Reasoning
- arxiv url: http://arxiv.org/abs/2301.01113v1
- Date: Tue, 3 Jan 2023 14:16:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-04 15:14:42.481127
- Title: Invalidator: Automated Patch Correctness Assessment via Semantic and
Syntactic Reasoning
- Title(参考訳): Invalidator:意味的・統語的推論による自動パッチ精度評価
- Authors: Thanh Le-Cong, Duc-Minh Luong, Xuan Bach D. Le, David Lo, Nhat-Hoa
Tran, Bui Quang-Huy and Quyet-Thang Huynh
- Abstract要約: 本稿では,意味論的および統語論的推論により,APR生成パッチの正当性を自動的に評価する手法を提案する。
我々は、Defects4Jの現実世界のプログラムで生成された885パッチのデータセットについて実験を行った。
実験の結果,INVALIDATORは79%のオーバーフィッティングパッチを正しく分類し,最高のベースラインで検出されたパッチを23%上回った。
- 参考スコア(独自算出の注目度): 6.269370220586248
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose a novel technique, namely INVALIDATOR, to
automatically assess the correctness of APR-generated patches via semantic and
syntactic reasoning. INVALIDATOR reasons about program semantic via program
invariants while it also captures program syntax via language semantic learned
from large code corpus using the pre-trained language model. Given a buggy
program and the developer-patched program, INVALIDATOR infers likely invariants
on both programs. Then, INVALIDATOR determines that a APR-generated patch
overfits if: (1) it violates correct specifications or (2) maintains errors
behaviors of the original buggy program. In case our approach fails to
determine an overfitting patch based on invariants, INVALIDATOR utilizes a
trained model from labeled patches to assess patch correctness based on program
syntax. The benefit of INVALIDATOR is three-fold. First, INVALIDATOR is able to
leverage both semantic and syntactic reasoning to enhance its discriminant
capability. Second, INVALIDATOR does not require new test cases to be generated
but instead only relies on the current test suite and uses invariant inference
to generalize the behaviors of a program. Third, INVALIDATOR is fully
automated. We have conducted our experiments on a dataset of 885 patches
generated on real-world programs in Defects4J. Experiment results show that
INVALIDATOR correctly classified 79% overfitting patches, accounting for 23%
more overfitting patches being detected by the best baseline. INVALIDATOR also
substantially outperforms the best baselines by 14% and 19% in terms of
Accuracy and F-Measure, respectively.
- Abstract(参考訳): 本稿では,意味的および構文的推論によるAPR生成パッチの正当性を自動評価する新しい手法であるINVALIDATORを提案する。
INVALIDATORはプログラム不変量によるプログラムセマンティクスの理由と、事前訓練された言語モデルを用いて学習した大規模コードコーパスから学習した言語セマンティクスを通してプログラム構文をキャプチャする。
バギープログラムと開発者パッチプログラムが与えられた場合、invalidatorは両方のプログラムの不変性を推測する。
そして、INVALIDATORは、APR生成パッチがオーバーフィットしていると判断する。(1)それが正しい仕様に違反しているか、(2)元のバギープログラムのエラー動作を維持しているか。
invariantsに基づく過剰適合パッチの判定に失敗した場合、invalidatorはラベル付きパッチからトレーニングされたモデルを使用して、プログラムの構文に基づいてパッチの正確性を評価する。
INVALIDATORの利点は3倍である。
第一に、INVALIDATORは意味論的推論と統語論的推論の両方を利用して識別能力を高めることができる。
第二に、INVALIDATORは新しいテストケースを生成する必要はないが、代わりに現在のテストスイートのみに依存し、プログラムの振る舞いを一般化するために不変推論を使用する。
第3に、INVALIDATORは完全に自動化されている。
defects4jにおける実世界のプログラムで生成された885のパッチのデータセットについて実験を行った。
実験の結果,INVALIDATORは79%のオーバーフィッティングパッチを正しく分類し,最高のベースラインで検出されたパッチを23%上回った。
INVALIDATORは、それぞれ精度とF-Measureの点で、最高のベースラインの14%と19%を大きく上回っている。
関連論文リスト
- LLM Critics Help Catch Bugs in Mathematics: Towards a Better Mathematical Verifier with Natural Language Feedback [71.95402654982095]
本研究では,自然言語フィードバック型検証器Math-Minosを提案する。
実験の結果,少量の自然言語フィードバックが検証器の性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-06-20T06:42:27Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - RAP-Gen: Retrieval-Augmented Patch Generation with CodeT5 for Automatic
Program Repair [75.40584530380589]
新たな検索型パッチ生成フレームワーク(RAP-Gen)を提案する。
RAP-Gen 以前のバグ修正ペアのリストから取得した関連する修正パターンを明示的に活用する。
RAP-GenをJavaScriptのTFixベンチマークとJavaのCode RefinementとDefects4Jベンチマークの2つのプログラミング言語で評価する。
論文 参考訳(メタデータ) (2023-09-12T08:52:56Z) - PatchZero: Zero-Shot Automatic Patch Correctness Assessment [13.19425284402493]
コードに大規模言語モデルを適用することにより,パッチの正当性評価を行うツールネームを提案する。
ツールネームは、新しいAPRツールによって生成されたものとセマンティックな類似性を示す既存のAPRツールからラベル付きパッチを優先する。
実験の結果,ツールネームの精度は84.4%,F1スコアは86.5%であった。
論文 参考訳(メタデータ) (2023-03-01T03:12:11Z) - Fine-Tuning Deteriorates General Textual Out-of-Distribution Detection
by Distorting Task-Agnostic Features [14.325845491628087]
アウト・オブ・ディストリビューション(OOD)入力は、自然言語処理(NLP)モデルの安全なデプロイに不可欠である。
本研究は,意味的および非意味的変化を検出するための主流テキストOOD検出手法を評価するための第一歩である。
本稿では,タスク非依存およびタスク特化表現から得られた信頼スコアを統合する,GNOMEという単純なOODスコアを提案する。
論文 参考訳(メタデータ) (2023-01-30T08:01:13Z) - APPT: Boosting Automated Patch Correctness Prediction via Fine-tuning
Pre-trained Models [15.179895484968476]
本稿では,事前学習と微調整によるモデルベース自動パッチ正当性評価手法であるAPPTを提案する。
我々は1,183個のDefects4Jパッチの実験を行い、APPTが予測精度79.7%、リコール率83.2%を達成したことを示す実験結果を得た。
論文 参考訳(メタデータ) (2023-01-29T14:28:26Z) - Checking Patch Behaviour against Test Specification [4.723400023753107]
パッチ動作とテスト仕様のフェールとの関連性について仮説を提案する。
次に、パッチの正当性を予測するための教師なし学習ベースシステムBATSを提案する。
論文 参考訳(メタデータ) (2021-07-28T11:39:06Z) - Generating Bug-Fixes Using Pretrained Transformers [11.012132897417592]
実世界のgithubからマイニングしたjavaメソッドのバグの検出と修正を学ぶ,データ駆動型プログラム修復手法を導入する。
ソースコードプログラムの事前トレーニングは,スクラッチからの教師ありトレーニングに比べて,33%のパッチ数を改善することを示す。
我々は,標準精度評価基準を非削除および削除のみの修正に洗練し,我々の最良モデルが従来よりも75%多くの非削除修正を生成することを示す。
論文 参考訳(メタデータ) (2021-04-16T05:27:04Z) - On the Robustness of Language Encoders against Grammatical Errors [66.05648604987479]
我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。
結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
論文 参考訳(メタデータ) (2020-05-12T11:01:44Z) - Adversarial Transfer Learning for Punctuation Restoration [58.2201356693101]
句読点予測のためのタスク不変知識を学習するために,逆多タスク学習を導入する。
IWSLT2011データセットを用いて実験を行った。
論文 参考訳(メタデータ) (2020-04-01T06:19:56Z) - Rectifying Pseudo Label Learning via Uncertainty Estimation for Domain
Adaptive Semantic Segmentation [49.295165476818866]
本稿では、意味的セグメンテーションの文脈において、ソースドメインからターゲットドメインへの知識伝達の教師なし領域適応に焦点を当てる。
既存のアプローチでは、通常、擬似ラベルを未ラベルのターゲットドメインデータを完全に活用するための基礎的真理とみなす。
本稿では,擬似ラベル学習の修正のために,学習中の予測の不確かさを明示的に推定することを提案する。
論文 参考訳(メタデータ) (2020-03-08T12:37:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。