論文の概要: Towards Reliable Evaluation of Neural Program Repair with Natural Robustness Testing
- arxiv url: http://arxiv.org/abs/2402.11892v2
- Date: Wed, 13 Nov 2024 06:54:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-14 16:09:42.428160
- Title: Towards Reliable Evaluation of Neural Program Repair with Natural Robustness Testing
- Title(参考訳): 自然ロバストネス試験によるニューラルプログラム修復の信頼性評価に向けて
- Authors: Thanh Le-Cong, Dat Nguyen, Bach Le, Toby Murray,
- Abstract要約: まず,2段階の人間研究を通して意味保存変換の自然性について検討する。
次に,実世界のデータ変動に対する実効性を評価するために,NPR技術を用いた自然ロバストネス試験を行う。
- 参考スコア(独自算出の注目度): 2.763736939516234
- License:
- Abstract: In this paper, we propose shifting the focus of robustness evaluation for Neural Program Repair (NPR) techniques toward naturally-occurring data transformations. To accomplish this, we first examine the naturalness of semantic-preserving transformations through a two-stage human study. This study includes (1) interviews with senior software developers to establish concrete criteria for evaluating the naturalness of these transformations, and (2) a survey involving 10 developers to assess the naturalness of 1,178 transformations, i.e., pairs of original and transformed programs, applied to 225 real-world bugs. Our findings show that only 60% of these transformations are deemed natural, while 20% are considered unnatural, with strong agreement among annotators. Moreover, the unnaturalness of these transformations significantly impacts both their applicability to benchmarks and the conclusions drawn from robustness testing. Next, we conduct natural robustness testing on NPR techniques to assess their true effectiveness against real-world data variations. Our experimental results reveal a substantial number of prediction changes in NPR techniques, leading to significant reductions in both plausible and correct patch rates when comparing performance on the original and transformed datasets. Additionally, we observe notable differences in performance improvements between NPR techniques, suggesting potential biases on NPR evaluation introduced by limited datasets. Finally, we propose an LLM-based metric to automate the assessment of transformation naturalness, ensuring the scalability of natural robustness testing.
- Abstract(参考訳): 本稿では,ニューラルプログラム修復法(NPR)におけるロバストネス評価の焦点を自然発生データ変換にシフトすることを提案する。
そこで我々はまず,2段階の人間研究を通して意味保存変換の自然性について検討する。
本研究は,(1)これらの変換の自然性を評価するための具体的な基準を確立するためのソフトウェア開発者へのインタビューと,(2)実世界の225のバグに適用された,1,178の変換の自然性を評価する10人の開発者を対象とした調査を含む。
以上の結果から,これらの変換の60%は自然であると考えられ,20%は非自然であると考えられ,アノテータ間で強い合意が得られた。
さらに、これらの変換の不自然さは、ベンチマークの適用性とロバストネステストから引き出された結論の両方に大きく影響する。
次に,実世界のデータ変動に対する実効性を評価するために,NPR技術を用いた自然ロバストネス試験を行う。
実験の結果,NPR手法の予測精度は著しく変化しており,元のデータセットと変換されたデータセットのパフォーマンスを比較すると,パッチレートとパッチレートの両方が大幅に低下することがわかった。
さらに,NPR手法の性能改善に顕著な違いが見られ,限られたデータセットによって導入されたNPR評価に対する潜在的なバイアスが示唆された。
最後に、変換自然性の評価を自動化し、自然な堅牢性テストのスケーラビリティを確保するためのLLMベースのメトリクスを提案する。
関連論文リスト
- PredFormer: Transformers Are Effective Spatial-Temporal Predictive Learners [65.93130697098658]
本稿では、予測学習のための純粋なトランスフォーマーベースのフレームワークであるPredFormerを提案する。
PredFormerは、リカレントフリーでトランスフォーマーベースの設計で、シンプルかつ効率的である。
合成および実世界のデータセットに関する実験は、PredFormerが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2024-10-07T03:52:06Z) - PseudoNeg-MAE: Self-Supervised Point Cloud Learning using Conditional Pseudo-Negative Embeddings [55.55445978692678]
PseudoNeg-MAEは,ポイントマスク自動エンコーダのグローバルな特徴表現を強化する,自己教師型学習フレームワークである。
PseudoNeg-MAE は ModelNet40 と ScanObjectNN のデータセット上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-09-24T07:57:21Z) - Topology-preserving Adversarial Training for Alleviating Natural Accuracy Degradation [27.11004064848789]
逆行訓練は、自然な精度劣化問題に悩まされている。
本稿では,この問題を緩和するためのトポロジ-pserving Adversarial training (TRAIN)を提案する。
我々は,TRAINの自然精度は8.86%,頑健さは6.33%向上することを示した。
論文 参考訳(メタデータ) (2023-11-29T13:05:06Z) - Effective Restoration of Source Knowledge in Continual Test Time
Adaptation [44.17577480511772]
本稿では、動的環境におけるドメインシフトを識別できる教師なし領域変更検出手法を提案する。
情報源から知識を復元することにより、モデルパラメータの段階的劣化に起因する負の結果を効果的に補正する。
我々は,最先端の適応手法と比較して,提案手法の優れた性能を示すために,ベンチマークデータセットの広範な実験を行った。
論文 参考訳(メタデータ) (2023-11-08T19:21:48Z) - Exact and Cost-Effective Automated Transformation of Neural Network
Controllers to Decision Tree Controllers [7.5324684039928975]
NNベースのコントローラを等価なソフト決定木(SDT)に変換することとその妥当性への影響について検討する。
我々は、冗長な分岐を自動的に実行できるように、正確だが費用効率のよい変換アルゴリズムを考案する。
以上の結果から,SDT変換は,MountainCar-v0とCartPole-v0のランタイムを最大21倍,2倍改善したことを示す。
論文 参考訳(メタデータ) (2023-04-11T19:52:30Z) - Transformer-based approaches to Sentiment Detection [55.41644538483948]
テキスト分類のための4種類の最先端変圧器モデルの性能について検討した。
RoBERTa変換モデルは82.6%のスコアでテストデータセット上で最高のパフォーマンスを示し、品質予測に非常に推奨されている。
論文 参考訳(メタデータ) (2023-03-13T17:12:03Z) - ERNIE-SPARSE: Learning Hierarchical Efficient Transformer Through
Regularized Self-Attention [48.697458429460184]
情報ボトルネック感度と異なる注目トポロジ間の不整合の2つの要因がスパース変換器の性能に影響を及ぼす可能性がある。
本稿では,ERNIE-Sparseというモデルを提案する。
i) 局所情報とグローバル情報を逐次統一する階層スパース変換器(HST) と、(ii) 注意トポロジの異なる変換器の距離を最小化する自己注意正規化(SAR) の2つの特徴がある。
論文 参考訳(メタデータ) (2022-03-23T08:47:01Z) - Naturalness Evaluation of Natural Language Generation in Task-oriented
Dialogues using BERT [6.1478669848771546]
本稿では,対話システムにおける自然言語生成の自然性を評価する手法を提案する。
BERTモデルの微調整により,提案した自然度評価法は,ロバストな結果を示し,ベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2021-09-07T08:40:14Z) - TextFlint: Unified Multilingual Robustness Evaluation Toolkit for
Natural Language Processing [73.16475763422446]
NLPタスク(TextFlint)のための多言語ロバスト性評価プラットフォームを提案する。
普遍的なテキスト変換、タスク固有の変換、敵攻撃、サブポピュレーション、およびそれらの組み合わせを取り入れ、包括的な堅牢性分析を提供する。
TextFlintは、モデルの堅牢性の欠点に対処するために、完全な分析レポートとターゲットとした拡張データを生成します。
論文 参考訳(メタデータ) (2021-03-21T17:20:38Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z) - Learning the Relation between Code Features and Code Transforms with
Structured Prediction [13.62633524166298]
条件付きランダムフィールド(CRF)を用いたASTノードのレベルでのコード変換を構造的に予測する最初の手法を提案する。
このアプローチはまず、特定のASTノードに特定のコード変換がどのように適用されるかをキャプチャする確率モデルをオフラインで学習し、次に学習したモデルを使用して、任意の新しい、目に見えないコードスニペットの変換を予測する。
論文 参考訳(メタデータ) (2019-07-22T12:42:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。