論文の概要: Evaluating Program Repair with Semantic-Preserving Transformations: A
Naturalness Assessment
- arxiv url: http://arxiv.org/abs/2402.11892v1
- Date: Mon, 19 Feb 2024 07:07:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 17:50:24.870984
- Title: Evaluating Program Repair with Semantic-Preserving Transformations: A
Naturalness Assessment
- Title(参考訳): 意味保存変換を用いたプログラム修復の評価 : 自然性評価
- Authors: Thanh Le-Cong, Dat Nguyen, Bach Le, Toby Murray
- Abstract要約: 意味保存変換の自然性とそのNPR評価への影響について検討する。
以上の結果から,これらのトランスフォーメーションの約60%と20%が自然であり,非自然であると考えられた。
不自然なコード変換は、5つのよく知られたNPRシステムの堅牢性に対する25.2%の誤警報率をもたらす。
- 参考スコア(独自算出の注目度): 3.0191840609134792
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we investigate the naturalness of semantic-preserving
transformations and their impacts on the evaluation of NPR. To achieve this, we
conduct a two-stage human study, including (1) interviews with senior software
developers to establish the first concrete criteria for assessing the
naturalness of code transformations and (2) a survey involving 10 developers to
assess the naturalness of 1178 transformations, i.e., pairs of original and
transformed programs, applied to 225 real-world bugs. Our findings reveal that
nearly 60% and 20% of these transformations are considered natural and
unnatural with substantially high agreement among human annotators.
Furthermore, the unnatural code transformations introduce a 25.2% false alarm
rate on robustness of five well-known NPR systems. Additionally, the
performance of the NPR systems drops notably when evaluated using natural
transformations, i.e., a drop of up to 22.9% and 23.6% in terms of the numbers
of correct and plausible patches generated by these systems. These results
highlight the importance of robustness testing by considering naturalness of
code transformations, which unveils true effectiveness of NPR systems. Finally,
we conduct an exploration study on automating the assessment of naturalness of
code transformations by deriving a new naturalness metric based on
Cross-Entropy. Based on our naturalness metric, we can effectively assess
naturalness for code transformations automatically with an AUC of 0.7.
- Abstract(参考訳): 本稿では,意味保存変換の自然性とそのNPR評価への影響について検討する。
これを達成するために,(1)上級ソフトウェア開発者へのインタビューを行い,コード変換の自然性を評価するための最初の具体的な基準を確立すること,(2)10人の開発者が1178の変換の自然性を評価すること,すなわち225の現実世界のバグに適用するオリジナルプログラムと変換プログラムのペアについて調査する。
以上の結果から,これらの変換の60%と20%は自然かつ不自然なものであり,ヒトのアノテータ間ではかなりの一致が認められた。
さらに、不自然なコード変換は5つのよく知られたNPRシステムの堅牢性に対して25.2%の誤警報率をもたらす。
さらに、NPRシステムの性能は自然変換を用いて評価すると顕著に低下し、これらのシステムによって生成された正しいパッチの数では22.9%と23.6%まで低下する。
これらの結果は,NPRシステムの真の有効性を明らかにするコード変換の自然性を考えることによって,ロバストネステストの重要性を強調した。
最後に,クロスエントロピーに基づく新たな自然度指標を導出することにより,コード変換の自然性評価の自動化に関する調査研究を行う。
自然度測定値に基づいて、AUC 0.7 でコード変換の自然度を自動的に評価できる。
関連論文リスト
- Benchmarking Estimators for Natural Experiments: A Novel Dataset and a Doubly Robust Algorithm [12.201705893125775]
幼少期のリテラシー非営利団体から得られた,新たな自然実験データセットについて紹介する。
データセットに20以上の確立された推定値を適用すると、非営利団体の有効性を評価するための一貫性のない結果が得られる。
合成結果を用いて推定器の精度を評価するベンチマークを作成する。
論文 参考訳(メタデータ) (2024-09-06T15:44:45Z) - Just rotate it! Uncertainty estimation in closed-source models via multiple queries [3.8121150313479655]
本稿では,クローズドソースディープニューラルネットワーク画像分類モデルの不確かさを簡易かつ効果的に推定する手法を提案する。
我々は,不確実性推定の校正において,すべての予測に対して100%の信頼を割り当てることの単純さに比べて,大幅な改善を示す。
論文 参考訳(メタデータ) (2024-05-22T17:45:38Z) - Topology-preserving Adversarial Training for Alleviating Natural Accuracy Degradation [27.11004064848789]
逆行訓練は、自然な精度劣化問題に悩まされている。
本稿では,この問題を緩和するためのトポロジ-pserving Adversarial training (TRAIN)を提案する。
我々は,TRAINの自然精度は8.86%,頑健さは6.33%向上することを示した。
論文 参考訳(メタデータ) (2023-11-29T13:05:06Z) - Effective Restoration of Source Knowledge in Continual Test Time
Adaptation [44.17577480511772]
本稿では、動的環境におけるドメインシフトを識別できる教師なし領域変更検出手法を提案する。
情報源から知識を復元することにより、モデルパラメータの段階的劣化に起因する負の結果を効果的に補正する。
我々は,最先端の適応手法と比較して,提案手法の優れた性能を示すために,ベンチマークデータセットの広範な実験を行った。
論文 参考訳(メタデータ) (2023-11-08T19:21:48Z) - Understanding Robust Overfitting from the Feature Generalization Perspective [61.770805867606796]
逆行訓練(AT)は、逆行摂動を自然データに組み込むことで、堅牢なニューラルネットワークを構築する。
これはロバストオーバーフィッティング(RO)の問題に悩まされ、モデルのロバスト性を著しく損なう。
本稿では,新しい特徴一般化の観点からROを考察する。
論文 参考訳(メタデータ) (2023-10-01T07:57:03Z) - Improved Factorized Neural Transducer Model For text-only Domain Adaptation [14.65352101664147]
エンド・ツー・エンドのASRモデルをテキストデータでドメイン外のデータセットに適合させることは困難である。
Factorized Neural Transducer (FNT) は、語彙を予測するために別個の語彙デコーダを導入することでこの問題に対処することを目指している。
本稿では、音響情報と言語情報を包括的に統合した改良型分解型ニューラルトランスデューサ(IFNT)モデル構造を提案する。
論文 参考訳(メタデータ) (2023-09-18T07:02:04Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - Improved Policy Evaluation for Randomized Trials of Algorithmic Resource
Allocation [54.72195809248172]
提案する新しい概念を応用した新しい推定器を提案する。
我々は,このような推定器が,サンプル手段に基づく一般的な推定器よりも精度が高いことを理論的に証明した。
論文 参考訳(メタデータ) (2023-02-06T05:17:22Z) - Can Transformers be Strong Treatment Effect Estimators? [86.32484218657166]
本研究では,様々な処理効果推定問題に対処するために,Transformerアーキテクチャに基づく汎用フレームワークを開発する。
本手法は, 離散的, 連続的, 構造的, あるいは服用関連治療に応用される。
Transformers as Treatment Effect Estimator (TransTEE) を用いて行った実験は、これらの誘導バイアスが因果効果を推定する研究で発生する推定問題やデータセットの種類にも有効であることを示した。
論文 参考訳(メタデータ) (2022-02-02T23:56:42Z) - Double Perturbation: On the Robustness of Robustness and Counterfactual
Bias Evaluation [109.06060143938052]
テストデータセットを超えたモデル弱点を明らかにするための"ダブル摂動"フレームワークを提案する。
この枠組みを,モデルの頑健さと英語における反事実バイアスの分析に使用される2つの摂動に基づくアプローチに応用する。
論文 参考訳(メタデータ) (2021-04-12T06:57:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。