Fugu-MT 論文翻訳(概要): Evaluating Program Repair with Semantic-Preserving Transformations: A Naturalness Assessment

論文の概要: Evaluating Program Repair with Semantic-Preserving Transformations: A Naturalness Assessment

arxiv url: http://arxiv.org/abs/2402.11892v1
Date: Mon, 19 Feb 2024 07:07:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-20 17:50:24.870984
Title: Evaluating Program Repair with Semantic-Preserving Transformations: A Naturalness Assessment
Title（参考訳）: 意味保存変換を用いたプログラム修復の評価 : 自然性評価
Authors: Thanh Le-Cong, Dat Nguyen, Bach Le, Toby Murray
Abstract要約: 意味保存変換の自然性とそのNPR評価への影響について検討する。以上の結果から,これらのトランスフォーメーションの約60%と20%が自然であり,非自然であると考えられた。不自然なコード変換は、5つのよく知られたNPRシステムの堅牢性に対する25.2%の誤警報率をもたらす。
参考スコア（独自算出の注目度）: 3.0191840609134792
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we investigate the naturalness of semantic-preserving transformations and their impacts on the evaluation of NPR. To achieve this, we conduct a two-stage human study, including (1) interviews with senior software developers to establish the first concrete criteria for assessing the naturalness of code transformations and (2) a survey involving 10 developers to assess the naturalness of 1178 transformations, i.e., pairs of original and transformed programs, applied to 225 real-world bugs. Our findings reveal that nearly 60% and 20% of these transformations are considered natural and unnatural with substantially high agreement among human annotators. Furthermore, the unnatural code transformations introduce a 25.2% false alarm rate on robustness of five well-known NPR systems. Additionally, the performance of the NPR systems drops notably when evaluated using natural transformations, i.e., a drop of up to 22.9% and 23.6% in terms of the numbers of correct and plausible patches generated by these systems. These results highlight the importance of robustness testing by considering naturalness of code transformations, which unveils true effectiveness of NPR systems. Finally, we conduct an exploration study on automating the assessment of naturalness of code transformations by deriving a new naturalness metric based on Cross-Entropy. Based on our naturalness metric, we can effectively assess naturalness for code transformations automatically with an AUC of 0.7.
Abstract（参考訳）: 本稿では,意味保存変換の自然性とそのNPR評価への影響について検討する。これを達成するために,(1)上級ソフトウェア開発者へのインタビューを行い,コード変換の自然性を評価するための最初の具体的な基準を確立すること,(2)10人の開発者が1178の変換の自然性を評価すること,すなわち225の現実世界のバグに適用するオリジナルプログラムと変換プログラムのペアについて調査する。以上の結果から,これらの変換の60%と20%は自然かつ不自然なものであり,ヒトのアノテータ間ではかなりの一致が認められた。さらに、不自然なコード変換は5つのよく知られたNPRシステムの堅牢性に対して25.2%の誤警報率をもたらす。さらに、NPRシステムの性能は自然変換を用いて評価すると顕著に低下し、これらのシステムによって生成された正しいパッチの数では22.9%と23.6%まで低下する。これらの結果は,NPRシステムの真の有効性を明らかにするコード変換の自然性を考えることによって,ロバストネステストの重要性を強調した。最後に,クロスエントロピーに基づく新たな自然度指標を導出することにより,コード変換の自然性評価の自動化に関する調査研究を行う。自然度測定値に基づいて、AUC 0.7 でコード変換の自然度を自動的に評価できる。

関連論文リスト

Advancing Mental Disorder Detection: A Comparative Evaluation of Transformer and LSTM Architectures on Social Media [0.16385815610837165]
本研究では,Long Short-Term Memory (LSTM) に基づくアプローチに対して,最先端のトランスフォーマーモデルの総合評価を行う。 Redditのメンタルヘルス障害分類のためのテキスト埋め込み技術を用いて,大規模な注釈付きデータセットを構築した。実験により,従来のディープラーニングモデルよりもトランスフォーマーモデルの方が優れた性能を示した。
論文参考訳（メタデータ） (2025-07-17T04:58:31Z)
Taming Polysemanticity in LLMs: Provable Feature Recovery via Sparse Autoencoders [50.52694757593443]
既存のSAEトレーニングアルゴリズムは厳密な数学的保証を欠いていることが多く、実用的な制限に悩まされている。まず,特徴の特定可能性という新たな概念を含む特徴回復問題の統計的枠組みを提案する。本稿では、ニューラルネットワークのバイアスパラメータを適応的に調整し、適切なアクティベーション間隔を確保する手法である「バイアス適応」に基づく新たなSAEトレーニングアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-06-16T20:58:05Z)
Causal Lifting of Neural Representations: Zero-Shot Generalization for Causal Inferences [56.23412698865433]
予測型因果推論(PPCI)に焦点をあてる PPCIは、未ラベルの事実結果を用いた対象実験における治療効果を推定し、事前訓練されたモデルからゼロショットを取得する。バニラ実験的リスク最小化によって解決不可能なインスタンスに対するソリューションを提供するため,本手法を合成および実世界の科学的データに対して検証する。
論文参考訳（メタデータ） (2025-02-10T10:52:17Z)
Benchmarking Estimators for Natural Experiments: A Novel Dataset and a Doubly Robust Algorithm [12.201705893125775]
幼少期のリテラシー非営利団体から得られた,新たな自然実験データセットについて紹介する。データセットに20以上の確立された推定値を適用すると、非営利団体の有効性を評価するための一貫性のない結果が得られる。合成結果を用いて推定器の精度を評価するベンチマークを作成する。
論文参考訳（メタデータ） (2024-09-06T15:44:45Z)
Just rotate it! Uncertainty estimation in closed-source models via multiple queries [3.8121150313479655]
本稿では,クローズドソースディープニューラルネットワーク画像分類モデルの不確かさを簡易かつ効果的に推定する手法を提案する。我々は,不確実性推定の校正において,すべての予測に対して100%の信頼を割り当てることの単純さに比べて,大幅な改善を示す。
論文参考訳（メタデータ） (2024-05-22T17:45:38Z)
Topology-preserving Adversarial Training for Alleviating Natural Accuracy Degradation [27.11004064848789]
逆行訓練は、自然な精度劣化問題に悩まされている。本稿では,この問題を緩和するためのトポロジ-pserving Adversarial training (TRAIN)を提案する。我々は,TRAINの自然精度は8.86%,頑健さは6.33%向上することを示した。
論文参考訳（メタデータ） (2023-11-29T13:05:06Z)
Effective Restoration of Source Knowledge in Continual Test Time Adaptation [44.17577480511772]
本稿では、動的環境におけるドメインシフトを識別できる教師なし領域変更検出手法を提案する。情報源から知識を復元することにより、モデルパラメータの段階的劣化に起因する負の結果を効果的に補正する。我々は,最先端の適応手法と比較して,提案手法の優れた性能を示すために,ベンチマークデータセットの広範な実験を行った。
論文参考訳（メタデータ） (2023-11-08T19:21:48Z)
Understanding Robust Overfitting from the Feature Generalization Perspective [61.770805867606796]
逆行訓練(AT)は、逆行摂動を自然データに組み込むことで、堅牢なニューラルネットワークを構築する。これはロバストオーバーフィッティング(RO)の問題に悩まされ、モデルのロバスト性を著しく損なう。本稿では,新しい特徴一般化の観点からROを考察する。
論文参考訳（メタデータ） (2023-10-01T07:57:03Z)
Improved Factorized Neural Transducer Model For text-only Domain Adaptation [14.65352101664147]
エンド・ツー・エンドのASRモデルをテキストデータでドメイン外のデータセットに適合させることは困難である。 Factorized Neural Transducer (FNT) は、語彙を予測するために別個の語彙デコーダを導入することでこの問題に対処することを目指している。本稿では、音響情報と言語情報を包括的に統合した改良型分解型ニューラルトランスデューサ(IFNT)モデル構造を提案する。
論文参考訳（メタデータ） (2023-09-18T07:02:04Z)
From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文参考訳（メタデータ） (2023-06-18T09:54:33Z)
Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文参考訳（メタデータ） (2023-05-23T12:05:09Z)
Improved Policy Evaluation for Randomized Trials of Algorithmic Resource Allocation [54.72195809248172]
提案する新しい概念を応用した新しい推定器を提案する。我々は,このような推定器が,サンプル手段に基づく一般的な推定器よりも精度が高いことを理論的に証明した。
論文参考訳（メタデータ） (2023-02-06T05:17:22Z)
Can Transformers be Strong Treatment Effect Estimators? [86.32484218657166]
本研究では,様々な処理効果推定問題に対処するために,Transformerアーキテクチャに基づく汎用フレームワークを開発する。本手法は, 離散的, 連続的, 構造的, あるいは服用関連治療に応用される。 Transformers as Treatment Effect Estimator (TransTEE) を用いて行った実験は、これらの誘導バイアスが因果効果を推定する研究で発生する推定問題やデータセットの種類にも有効であることを示した。
論文参考訳（メタデータ） (2022-02-02T23:56:42Z)
Post-Contextual-Bandit Inference [57.88785630755165]
コンテキストバンディットアルゴリズムは、電子商取引、医療、政策立案における非適応的なA/Bテストを置き換える傾向にある。研究参加者の成果を改善することもでき、良い方針や最良の政策を特定できる可能性を高めることもできる。研究の終盤における新規介入の信頼性推論を支援するため, 平均治療効果, サブグループ効果, あるいは新政策の価値について, 有効な信頼区間を構築したい。
論文参考訳（メタデータ） (2021-06-01T12:01:51Z)
Double Perturbation: On the Robustness of Robustness and Counterfactual Bias Evaluation [109.06060143938052]
テストデータセットを超えたモデル弱点を明らかにするための"ダブル摂動"フレームワークを提案する。この枠組みを,モデルの頑健さと英語における反事実バイアスの分析に使用される2つの摂動に基づくアプローチに応用する。
論文参考訳（メタデータ） (2021-04-12T06:57:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。