Fugu-MT 論文翻訳(概要): Checking Patch Behaviour against Test Specification

論文の概要: Checking Patch Behaviour against Test Specification

arxiv url: http://arxiv.org/abs/2107.13296v1
Date: Wed, 28 Jul 2021 11:39:06 GMT
ステータス: 翻訳完了
システム内更新日: 2021-07-29 13:54:58.592700
Title: Checking Patch Behaviour against Test Specification
Title（参考訳）: テスト仕様に対するパッチ動作のチェック
Authors: Haoye Tian, Yinghua Li, Weiguo Pian, Abdoul Kader Kabor\'e, Kui Liu, Jacques Klein, Tegawend\'e F. Bissyande
Abstract要約: パッチ動作とテスト仕様のフェールとの関連性について仮説を提案する。次に、パッチの正当性を予測するための教師なし学習ベースシステムBATSを提案する。
参考スコア（独自算出の注目度）: 4.723400023753107
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Towards predicting patch correctness in APR, we propose a simple, but novel hypothesis on how the link between the patch behaviour and failing test specifications can be drawn: similar failing test cases should require similar patches. We then propose BATS, an unsupervised learning-based system to predict patch correctness by checking patch Behaviour Against failing Test Specification. BATS exploits deep representation learning models for code and patches: for a given failing test case, the yielded embedding is used to compute similarity metrics in the search for historical similar test cases in order to identify the associated applied patches, which are then used as a proxy for assessing generated patch correctness. Experimentally, we first validate our hypothesis by assessing whether ground-truth developer patches cluster together in the same way that their associated failing test cases are clustered. Then, after collecting a large dataset of 1278 plausible patches (written by developers or generated by some 32 APR tools), we use BATS to predict correctness: BATS achieves an AUC between 0.557 to 0.718 and a recall between 0.562 and 0.854 in identifying correct patches. Compared against previous work, we demonstrate that our approach outperforms state-of-the-art performance in patch correctness prediction, without the need for large labeled patch datasets in contrast with prior machine learning-based approaches. While BATS is constrained by the availability of similar test cases, we show that it can still be complementary to existing approaches: used in conjunction with a recent approach implementing supervised learning, BATS improves the overall recall in detecting correct patches. We finally show that BATS can be complementary to the state-of-the-art PATCH-SIM dynamic approach of identifying the correct patches for APR tools.
Abstract（参考訳）: aprにおけるパッチの正確性を予測するために,我々は,パッチ動作とテスト仕様の失敗との関連性について,単純だが新しい仮説を提案する。次に、テスト仕様に反する振る舞いをチェックすることにより、パッチの正当性を予測するための教師なし学習ベースシステムBATSを提案する。 BATSは、コードとパッチの深層表現学習モデルを利用する: 与えられた失敗したテストケースに対して、得られた埋め込みは、歴史的に類似したテストケースの検索における類似度メトリクスの計算に使用され、関連するパッチを識別し、生成されたパッチの正確性を評価するプロキシとして使用される。実験では,まず,テストケースがクラスタ化されるのと同じような方法で,基盤構造体が一緒にクラスタ化されているかどうかを評価する。そして、1278の信頼できるパッチ(開発者によって書かれたり、32のaprツールによって生成された)の大規模なデータセットを収集した後、batsを使って正確性を予測する: batsは0.557から0.718のaucを達成し、正しいパッチを特定するために0.562から0.854のリコールを達成する。従来の研究と比較して,従来の機械学習ベースのアプローチとは対照的に,大規模なラベル付きパッチデータセットを必要とせず,パッチの正確性予測において最先端のパフォーマンスを上回っていることを実証する。 BATSは、類似のテストケースの可用性に制約されているが、既存のアプローチと相補的であることを示し、教師付き学習を実装した最近のアプローチと合わせて、BATSは正しいパッチを検出する際の全体的なリコールを改善している。最終的に、BATSは、APRツールの正しいパッチを特定するための最先端のPATCH-SIM動的アプローチと相補的であることを示す。

関連論文リスト

RePaCA: Leveraging Reasoning Large Language Models for Static Automated Patch Correctness Assessment [0.0]
本稿では,Large Language Models (LLM) を利用した新しい静的APCA手法であるRePaCAを紹介する。提案手法は,83.1%の精度と84.8%のF1スコアで最先端の性能を実現する。
論文参考訳（メタデータ） (2025-07-30T11:21:09Z)
Test-Time Adaptation with Binary Feedback [50.20923012663613]
BiTTAは、不確実なサンプルに対するバイナリフィードバック誘導適応と、確実な予測に対する合意に基づく自己適応のバランスをとる、新しいデュアルパス最適化フレームワークである。実験の結果、BiTTAは最先端のベースラインよりも13.3%の精度向上を実現している。
論文参考訳（メタデータ） (2025-05-24T05:24:10Z)
SoftPatch+: Fully Unsupervised Anomaly Classification and Segmentation [84.07909405887696]
本論文は、完全教師なし産業異常検出(すなわち、ノイズデータ付き教師なしAD)を初めて検討したものである。メモリベースの非教師なしAD手法であるSoftPatchとSoftPatch+を提案する。既存の手法と比較して、SoftPatchは通常のデータの強力なモデリング能力を維持し、コアセットにおける過信問題を軽減する。様々なノイズシナリオで実施された総合的な実験により、SoftPatchとSoftPatch+はMVTecAD、ViSA、BTADのベンチマークで最先端のADメソッドよりも優れていた。
論文参考訳（メタデータ） (2024-12-30T11:16:49Z)
Improving Bias Correction Standards by Quantifying its Effects on Treatment Outcomes [54.18828236350544]
Propensity score matching (PSM) は、分析のために同等の人口を選択することで選択バイアスに対処する。異なるマッチング手法は、すべての検証基準を満たす場合でも、同じタスクに対する平均処理効果(ATE)を著しく異なるものにすることができる。この問題に対処するため,新しい指標A2Aを導入し,有効試合数を削減した。
論文参考訳（メタデータ） (2024-07-20T12:42:24Z)
Active Test-Time Adaptation: Theoretical Analyses and An Algorithm [51.84691955495693]
テスト時間適応(TTA)は、教師なし設定でストリーミングテストデータの分散シフトに対処する。完全TTA設定内に能動学習を統合する能動テスト時間適応(ATTA)の新たな問題設定を提案する。
論文参考訳（メタデータ） (2024-04-07T22:31:34Z)
Uncertainty-Calibrated Test-Time Model Adaptation without Forgetting [55.17761802332469]
テスト時間適応(TTA)は、与えられたモデルw.r.t.を任意のテストサンプルに適用することにより、トレーニングデータとテストデータの間の潜在的な分散シフトに取り組むことを目指している。事前の手法は各テストサンプルに対してバックプロパゲーションを実行するため、多くのアプリケーションに対して許容できない最適化コストがかかる。本稿では, 有効サンプル選択基準を策定し, 信頼性および非冗長なサンプルを同定する, 効率的なアンチフォッティングテスト時間適応法を提案する。
論文参考訳（メタデータ） (2024-03-18T05:49:45Z)
Patch Space Exploration using Static Analysis Feedback [8.13782364161157]
静的解析を利用して、メモリの安全性問題を自動的に修復する方法を示す。提案したアプローチは、バグを修正するためのパッチの近さを検査することで、望ましいパッチが何であるかを学習する。我々は,印字ヒープに対する影響に応じて等価パッチのクラスを作成し,そのクラスのパッチ等価度に対してのみ検証オラクルを呼び出すことにより,修復をスケーラブルにする。
論文参考訳（メタデータ） (2023-08-01T05:22:10Z)
A Comprehensive Survey on Test-Time Adaptation under Distribution Shifts [117.72709110877939]
テスト時間適応(TTA)は、事前訓練されたモデルをテスト中に、予測する前にラベルのないデータに適応する可能性がある。 TTAはテスト時間領域適応、テスト時間バッチ適応、オンラインテスト時間適応といったテストデータの形態に基づいて、いくつかの異なるグループに分類される。
論文参考訳（メタデータ） (2023-03-27T16:32:21Z)
PatchZero: Zero-Shot Automatic Patch Correctness Assessment [13.19425284402493]
コードに大規模言語モデルを適用することにより,パッチの正当性評価を行うツールネームを提案する。ツールネームは、新しいAPRツールによって生成されたものとセマンティックな類似性を示す既存のAPRツールからラベル付きパッチを優先する。実験の結果,ツールネームの精度は84.4%,F1スコアは86.5%であった。
論文参考訳（メタデータ） (2023-03-01T03:12:11Z)
APPT: Boosting Automated Patch Correctness Prediction via Fine-tuning Pre-trained Models [15.179895484968476]
本稿では,事前学習と微調整によるモデルベース自動パッチ正当性評価手法であるAPPTを提案する。我々は1,183個のDefects4Jパッチの実験を行い、APPTが予測精度79.7%、リコール率83.2%を達成したことを示す実験結果を得た。
論文参考訳（メタデータ） (2023-01-29T14:28:26Z)
Invalidator: Automated Patch Correctness Assessment via Semantic and Syntactic Reasoning [6.269370220586248]
本稿では,意味論的および統語論的推論により,APR生成パッチの正当性を自動的に評価する手法を提案する。我々は、Defects4Jの現実世界のプログラムで生成された885パッチのデータセットについて実験を行った。実験の結果,INVALIDATORは79%のオーバーフィッティングパッチを正しく分類し,最高のベースラインで検出されたパッチを23%上回った。
論文参考訳（メタデータ） (2023-01-03T14:16:32Z)
Robust Continual Test-time Adaptation: Instance-aware BN and Prediction-balanced Memory [58.72445309519892]
テストデータストリーム以外のデータストリームに対して堅牢な新しいテスト時間適応方式を提案する。 a)分布外サンプルの正規化を修正するIABN(Instance-Aware Batch Normalization)と、(b)クラスバランスのない方法で非i.d.ストリームからのデータストリームをシミュレートするPBRS(Predict- Balanced Reservoir Sampling)である。
論文参考訳（メタデータ） (2022-08-10T03:05:46Z)
Test-based Patch Clustering for Automatically-Generated Patches Assessment [21.051652050359852]
オーバーフィッティングは、パッチが実行され、テストスイートがエラーを露呈しない場合に発生するが、パッチは、実際に基盤となるバグを修正したり、テストスイートがカバーしていない新しい欠陥を導入したりする。私たちの研究は、プログラマがレビューしなければならない妥当なパッチの数を最小限に抑え、正しいパッチを見つけるのに必要な時間を短縮することを目的としています。我々は、xTestClusterと呼ばれる新しい軽量なテストベースのパッチクラスタリング手法を導入し、その動的挙動に基づいてパッチをクラスタリングする。
論文参考訳（メタデータ） (2022-07-22T13:39:27Z)
CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文参考訳（メタデータ） (2022-06-01T03:02:07Z)
PatchCensor: Patch Robustness Certification for Transformers via Exhaustive Testing [7.88628640954152]
Vision Transformer (ViT)は、他の古典的ニューラルネットワークと同様に非常に非線形であることが知られており、自然なパッチの摂動と逆パッチの摂動の両方によって容易に騙される。この制限は、特に安全クリティカルなシナリオにおいて、実際の産業環境におけるViTの展開に脅威をもたらす可能性がある。 PatchCensorを提案する。このPatchCensorは、徹底的なテストを適用することで、ViTのパッチ堅牢性を証明することを目的としている。
論文参考訳（メタデータ） (2021-11-19T23:45:23Z)
Double Perturbation: On the Robustness of Robustness and Counterfactual Bias Evaluation [109.06060143938052]
テストデータセットを超えたモデル弱点を明らかにするための"ダブル摂動"フレームワークを提案する。この枠組みを,モデルの頑健さと英語における反事実バイアスの分析に使用される2つの摂動に基づくアプローチに応用する。
論文参考訳（メタデータ） (2021-04-12T06:57:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。