論文の概要: Is this Change the Answer to that Problem? Correlating Descriptions of
Bug and Code Changes for Evaluating Patch Correctness
- arxiv url: http://arxiv.org/abs/2208.04125v1
- Date: Mon, 8 Aug 2022 13:32:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-09 13:56:25.106587
- Title: Is this Change the Answer to that Problem? Correlating Descriptions of
Bug and Code Changes for Evaluating Patch Correctness
- Title(参考訳): この変更は、その問題の答えですか?
パッチ精度評価のためのバグ記述とコード変更の関係
- Authors: Haoye Tian, Xunzhu Tang, Andrew Habib, Shangwen Wang, Kui Liu, Xin
Xia, Jacques Klein, Tegawend\'e F. Bissyand\'e
- Abstract要約: パッチの正当性評価を質問回答問題に変換する。
我々は、バグレポートと生成されたパッチの自然言語記述を入力として検討する。
実験により、Quatrainはパッチの正確性を予測するために0.886のAUCを達成できることが示された。
- 参考スコア(独自算出の注目度): 8.606215760860362
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we propose a novel perspective to the problem of patch
correctness assessment: a correct patch implements changes that "answer" to a
problem posed by buggy behaviour. Concretely, we turn the patch correctness
assessment into a Question Answering problem. To tackle this problem, our
intuition is that natural language processing can provide the necessary
representations and models for assessing the semantic correlation between a bug
(question) and a patch (answer). Specifically, we consider as inputs the bug
reports as well as the natural language description of the generated patches.
Our approach, Quatrain, first considers state of the art commit message
generation models to produce the relevant inputs associated to each generated
patch. Then we leverage a neural network architecture to learn the semantic
correlation between bug reports and commit messages. Experiments on a large
dataset of 9135 patches generated for three bug datasets (Defects4j, Bugs.jar
and Bears) show that Quatrain can achieve an AUC of 0.886 on predicting patch
correctness, and recalling 93% correct patches while filtering out 62%
incorrect patches. Our experimental results further demonstrate the influence
of inputs quality on prediction performance. We further perform experiments to
highlight that the model indeed learns the relationship between bug reports and
code change descriptions for the prediction. Finally, we compare against prior
work and discuss the benefits of our approach.
- Abstract(参考訳): そこで本研究では,パッチの正確性評価問題に対する新たな視点を提案する。
具体的には,パッチの正当性評価を質問応答問題に変換する。
この問題を解決するために、自然言語処理はバグ(クエクション)とパッチ(回答)のセマンティックな相関を評価するために必要な表現とモデルを提供することができる。
具体的には、バグレポートの入力と、生成されたパッチの自然言語記述について検討する。
当社のアプローチであるquatrainはまず, artコミットメッセージ生成モデルの状態を考慮して,生成された各パッチに関連するインプットを生成します。
次に,ニューラルネットワークアーキテクチャを活用して,バグレポートとコミットメッセージ間の意味的相関関係を学習する。
3つのバグデータセット(Defects4j, Bugs.jar, Bears)で生成された9135パッチの大規模なデータセットの実験では、Quatrainは、パッチの正確性を予測し、93%の正確なパッチをリコールし、62%の不正なパッチをフィルタリングする。
実験の結果,入力品質が予測性能に及ぼす影響がさらに示された。
さらに,モデルが実際にバグレポートとコード変更記述の関係を学習していることを強調する実験を行った。
最後に,先行研究との比較を行い,アプローチのメリットについて論じる。
関連論文リスト
- Learning to Represent Patches [7.073203009308308]
本稿では,パッチ表現の深層学習と意味意図のギャップを埋める新しい手法Pacherizerを紹介する。
Patcherizerは、構造化意図グラフ表現にグラフ畳み込みニューラルネットワークを使用し、意図シーケンス表現にトランスフォーマーを使用する。
実験では,全てのタスクにおける表現の有効性を実証し,最先端の手法より優れていた。
論文 参考訳(メタデータ) (2023-08-31T09:34:38Z) - Invalidator: Automated Patch Correctness Assessment via Semantic and
Syntactic Reasoning [6.269370220586248]
本稿では,意味論的および統語論的推論により,APR生成パッチの正当性を自動的に評価する手法を提案する。
我々は、Defects4Jの現実世界のプログラムで生成された885パッチのデータセットについて実験を行った。
実験の結果,INVALIDATORは79%のオーバーフィッティングパッチを正しく分類し,最高のベースラインで検出されたパッチを23%上回った。
論文 参考訳(メタデータ) (2023-01-03T14:16:32Z) - Using Developer Discussions to Guide Fixing Bugs in Software [51.00904399653609]
我々は,タスク実行前に利用可能であり,また自然発生しているバグレポートの議論を,開発者による追加情報の必要性を回避して利用することを提案する。
このような議論から派生したさまざまな自然言語コンテキストがバグ修正に役立ち、オラクルのバグ修正コミットに対応するコミットメッセージの使用よりもパフォーマンスの向上につながることを実証する。
論文 参考訳(メタデータ) (2022-11-11T16:37:33Z) - Fixing Model Bugs with Natural Language Patches [38.67529353406759]
私たちは、開発者が適切な抽象化レベルで修正的なフィードバックを提供できるように、自然言語パッチを調査します。
少量の合成データを用いて、実際のデータに実際のパッチを効果的に利用するモデルを教えることができることを示す。
また、少数の言語パッチのパフォーマンスに合わせるために、ラベル付き例を100個まで微調整する必要があることも示している。
論文 参考訳(メタデータ) (2022-11-07T05:49:19Z) - DapStep: Deep Assignee Prediction for Stack Trace Error rePresentation [61.99379022383108]
本稿では,バグトリアージ問題を解決するための新しいディープラーニングモデルを提案する。
モデルは、注目された双方向のリカレントニューラルネットワークと畳み込みニューラルネットワークに基づいている。
ランキングの質を向上させるために,バージョン管理システムのアノテーションから追加情報を利用することを提案する。
論文 参考訳(メタデータ) (2022-01-14T00:16:57Z) - Checking Patch Behaviour against Test Specification [4.723400023753107]
パッチ動作とテスト仕様のフェールとの関連性について仮説を提案する。
次に、パッチの正当性を予測するための教師なし学習ベースシステムBATSを提案する。
論文 参考訳(メタデータ) (2021-07-28T11:39:06Z) - Generating Bug-Fixes Using Pretrained Transformers [11.012132897417592]
実世界のgithubからマイニングしたjavaメソッドのバグの検出と修正を学ぶ,データ駆動型プログラム修復手法を導入する。
ソースコードプログラムの事前トレーニングは,スクラッチからの教師ありトレーニングに比べて,33%のパッチ数を改善することを示す。
我々は,標準精度評価基準を非削除および削除のみの修正に洗練し,我々の最良モデルが従来よりも75%多くの非削除修正を生成することを示す。
論文 参考訳(メタデータ) (2021-04-16T05:27:04Z) - How Can We Know When Language Models Know? On the Calibration of
Language Models for Question Answering [80.82194311274694]
言語モデルがいつ、自信を持って、特定のクエリに対する答えを知っているか、どのように知ることができるか?
我々は,T5,BART,GPT-2の3つの強力な生成モデルを検討した。
次に、そのようなモデルの校正方法を検討し、その信頼性スコアを正しさの確率と相関させる。
論文 参考訳(メタデータ) (2020-12-02T03:53:13Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z) - On the Robustness of Language Encoders against Grammatical Errors [66.05648604987479]
我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。
結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
論文 参考訳(メタデータ) (2020-05-12T11:01:44Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。