論文の概要: Towards Reliable Evaluation of Neural Program Repair with Natural Robustness Testing
- arxiv url: http://arxiv.org/abs/2402.11892v2
- Date: Wed, 13 Nov 2024 06:54:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-14 16:09:42.428160
- Title: Towards Reliable Evaluation of Neural Program Repair with Natural Robustness Testing
- Title(参考訳): 自然ロバストネス試験によるニューラルプログラム修復の信頼性評価に向けて
- Authors: Thanh Le-Cong, Dat Nguyen, Bach Le, Toby Murray,
- Abstract要約: まず,2段階の人間研究を通して意味保存変換の自然性について検討する。
次に,実世界のデータ変動に対する実効性を評価するために,NPR技術を用いた自然ロバストネス試験を行う。
- 参考スコア(独自算出の注目度): 2.763736939516234
- License:
- Abstract: In this paper, we propose shifting the focus of robustness evaluation for Neural Program Repair (NPR) techniques toward naturally-occurring data transformations. To accomplish this, we first examine the naturalness of semantic-preserving transformations through a two-stage human study. This study includes (1) interviews with senior software developers to establish concrete criteria for evaluating the naturalness of these transformations, and (2) a survey involving 10 developers to assess the naturalness of 1,178 transformations, i.e., pairs of original and transformed programs, applied to 225 real-world bugs. Our findings show that only 60% of these transformations are deemed natural, while 20% are considered unnatural, with strong agreement among annotators. Moreover, the unnaturalness of these transformations significantly impacts both their applicability to benchmarks and the conclusions drawn from robustness testing. Next, we conduct natural robustness testing on NPR techniques to assess their true effectiveness against real-world data variations. Our experimental results reveal a substantial number of prediction changes in NPR techniques, leading to significant reductions in both plausible and correct patch rates when comparing performance on the original and transformed datasets. Additionally, we observe notable differences in performance improvements between NPR techniques, suggesting potential biases on NPR evaluation introduced by limited datasets. Finally, we propose an LLM-based metric to automate the assessment of transformation naturalness, ensuring the scalability of natural robustness testing.
- Abstract(参考訳): 本稿では,ニューラルプログラム修復法(NPR)におけるロバストネス評価の焦点を自然発生データ変換にシフトすることを提案する。
そこで我々はまず,2段階の人間研究を通して意味保存変換の自然性について検討する。
本研究は,(1)これらの変換の自然性を評価するための具体的な基準を確立するためのソフトウェア開発者へのインタビューと,(2)実世界の225のバグに適用された,1,178の変換の自然性を評価する10人の開発者を対象とした調査を含む。
以上の結果から,これらの変換の60%は自然であると考えられ,20%は非自然であると考えられ,アノテータ間で強い合意が得られた。
さらに、これらの変換の不自然さは、ベンチマークの適用性とロバストネステストから引き出された結論の両方に大きく影響する。
次に,実世界のデータ変動に対する実効性を評価するために,NPR技術を用いた自然ロバストネス試験を行う。
実験の結果,NPR手法の予測精度は著しく変化しており,元のデータセットと変換されたデータセットのパフォーマンスを比較すると,パッチレートとパッチレートの両方が大幅に低下することがわかった。
さらに,NPR手法の性能改善に顕著な違いが見られ,限られたデータセットによって導入されたNPR評価に対する潜在的なバイアスが示唆された。
最後に、変換自然性の評価を自動化し、自然な堅牢性テストのスケーラビリティを確保するためのLLMベースのメトリクスを提案する。
関連論文リスト
- Benchmarking Estimators for Natural Experiments: A Novel Dataset and a Doubly Robust Algorithm [12.201705893125775]
幼少期のリテラシー非営利団体から得られた,新たな自然実験データセットについて紹介する。
データセットに20以上の確立された推定値を適用すると、非営利団体の有効性を評価するための一貫性のない結果が得られる。
合成結果を用いて推定器の精度を評価するベンチマークを作成する。
論文 参考訳(メタデータ) (2024-09-06T15:44:45Z) - Just rotate it! Uncertainty estimation in closed-source models via multiple queries [3.8121150313479655]
本稿では,クローズドソースディープニューラルネットワーク画像分類モデルの不確かさを簡易かつ効果的に推定する手法を提案する。
我々は,不確実性推定の校正において,すべての予測に対して100%の信頼を割り当てることの単純さに比べて,大幅な改善を示す。
論文 参考訳(メタデータ) (2024-05-22T17:45:38Z) - Topology-preserving Adversarial Training for Alleviating Natural Accuracy Degradation [27.11004064848789]
逆行訓練は、自然な精度劣化問題に悩まされている。
本稿では,この問題を緩和するためのトポロジ-pserving Adversarial training (TRAIN)を提案する。
我々は,TRAINの自然精度は8.86%,頑健さは6.33%向上することを示した。
論文 参考訳(メタデータ) (2023-11-29T13:05:06Z) - Effective Restoration of Source Knowledge in Continual Test Time
Adaptation [44.17577480511772]
本稿では、動的環境におけるドメインシフトを識別できる教師なし領域変更検出手法を提案する。
情報源から知識を復元することにより、モデルパラメータの段階的劣化に起因する負の結果を効果的に補正する。
我々は,最先端の適応手法と比較して,提案手法の優れた性能を示すために,ベンチマークデータセットの広範な実験を行った。
論文 参考訳(メタデータ) (2023-11-08T19:21:48Z) - Understanding Robust Overfitting from the Feature Generalization Perspective [61.770805867606796]
逆行訓練(AT)は、逆行摂動を自然データに組み込むことで、堅牢なニューラルネットワークを構築する。
これはロバストオーバーフィッティング(RO)の問題に悩まされ、モデルのロバスト性を著しく損なう。
本稿では,新しい特徴一般化の観点からROを考察する。
論文 参考訳(メタデータ) (2023-10-01T07:57:03Z) - Improved Factorized Neural Transducer Model For text-only Domain Adaptation [14.65352101664147]
エンド・ツー・エンドのASRモデルをテキストデータでドメイン外のデータセットに適合させることは困難である。
Factorized Neural Transducer (FNT) は、語彙を予測するために別個の語彙デコーダを導入することでこの問題に対処することを目指している。
本稿では、音響情報と言語情報を包括的に統合した改良型分解型ニューラルトランスデューサ(IFNT)モデル構造を提案する。
論文 参考訳(メタデータ) (2023-09-18T07:02:04Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - Improved Policy Evaluation for Randomized Trials of Algorithmic Resource
Allocation [54.72195809248172]
提案する新しい概念を応用した新しい推定器を提案する。
我々は,このような推定器が,サンプル手段に基づく一般的な推定器よりも精度が高いことを理論的に証明した。
論文 参考訳(メタデータ) (2023-02-06T05:17:22Z) - Can Transformers be Strong Treatment Effect Estimators? [86.32484218657166]
本研究では,様々な処理効果推定問題に対処するために,Transformerアーキテクチャに基づく汎用フレームワークを開発する。
本手法は, 離散的, 連続的, 構造的, あるいは服用関連治療に応用される。
Transformers as Treatment Effect Estimator (TransTEE) を用いて行った実験は、これらの誘導バイアスが因果効果を推定する研究で発生する推定問題やデータセットの種類にも有効であることを示した。
論文 参考訳(メタデータ) (2022-02-02T23:56:42Z) - Double Perturbation: On the Robustness of Robustness and Counterfactual
Bias Evaluation [109.06060143938052]
テストデータセットを超えたモデル弱点を明らかにするための"ダブル摂動"フレームワークを提案する。
この枠組みを,モデルの頑健さと英語における反事実バイアスの分析に使用される2つの摂動に基づくアプローチに応用する。
論文 参考訳(メタデータ) (2021-04-12T06:57:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。