論文の概要: Historian: Reducing Manual Validation in APR Benchmarking via Evidence-Based Assessment
- arxiv url: http://arxiv.org/abs/2603.00649v1
- Date: Sat, 28 Feb 2026 13:41:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.308022
- Title: Historian: Reducing Manual Validation in APR Benchmarking via Evidence-Based Assessment
- Title(参考訳): Historian: 証拠に基づく評価によるAPRベンチマークにおける手動検証の削減
- Authors: Sahand Moslemi, Mayasah Lami, Anil Koyuncu,
- Abstract要約: 我々は,大規模言語モデルを利用して,歴史的に検証されたパッチの知識ベースに対して,複数参照比較を行うフレームワークであるHistorianを提案する。
アウト・ワン・ツールアウトの評価では、ヒストリアンは95.0%のカバレッジを88.4%の精度で達成し、手作業による検証を5%に削減した。
- 参考スコア(独自算出の注目度): 0.19853810231896352
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Assessing the correctness of patches generated by Automated Program Repair (APR) is a major bottleneck. Manual validation is labor-intensive and limited: exact matching overlooks valid variants, while semantic inspection is subjective and hard to reproduce. Existing Automated Patch Correctness Assessment (APCA) often relies on opaque predictive models that treat each patch as novel, repeatedly re-assessing semantically redundant patches. Our analysis of a large corpus of tool-generated patches reveals a duality: about 39% of unique correct patches are syntactic clones, suggesting opportunities for automation, yet about 65% of bugs have multiple distinct correct fixes, making single-reference assessment insufficient. We present Historian, a framework that leverages Large Language Models to perform multi-reference comparisons against a knowledge base of historically validated patches, producing traceable, evidence-based verdicts while conservatively isolating novel cases as Unknown. In leave-one-tool-out evaluation, Historian achieves 95.0% coverage with 88.4% accuracy, reducing manual validation to 5% of patches. As an evidence-based pre-filter, enhancing the accuracy of standalone APCA tools by up to 21.8% and enabling a hybrid pipeline with 86.2% overall accuracy and 100% coverage. A longitudinal analysis of tool-generated patches (2020-2024) shows that redundancy in repair attempts is common, indicating that many patches repeatedly rediscover established ones and strengthening the sustainability of evidence-based APR assessment.
- Abstract(参考訳): 自動プログラム修復(APR)によって生成されたパッチの正しさを評価することは、大きなボトルネックである。
手動による検証は労働集約的で限定的であり、正確なマッチングは有効な変種を見落とし、意味検査は主観的で再現が難しい。
既存の自動パッチ精度評価(APCA)は、しばしば、各パッチを新しいものとして扱い、意味的に冗長なパッチを再評価する不透明な予測モデルに依存している。
ユニークな修正パッチの約39%は構文クローンであり、自動化の機会を示唆していますが、バグの約65%は複数の修正をしており、単一の参照評価が不十分です。
我々は,大規模言語モデルを用いて,歴史的に検証されたパッチの知識ベースに対して,複数参照比較を行うフレームワークであるHistorianを提案する。
アウト・ワン・ツールアウトの評価では、ヒストリアンは95.0%のカバレッジを88.4%の精度で達成し、手作業による検証を5%に削減した。
証拠に基づく事前フィルタとして、スタンドアロンAPCAツールの精度を最大21.8%向上し、86.2%の総合精度と100%カバレッジを備えたハイブリッドパイプラインを可能にする。
ツール生成パッチの経時的分析 (2020-2024) では, 修復作業における冗長性が一般的であり, 多くのパッチが確立されたパッチを再発見し, 証拠に基づくAPR評価の持続可能性を高めることが示唆された。
関連論文リスト
- HLE-Verified: A Systematic Verification and Structured Revision of Humanity's Last Exam [63.84155758655084]
HumanityのLast Exam (HLE)は、フロンティアの大規模言語モデルを評価するために広く使われているベンチマークである。
HLE-Verifiedは,透過的検証プロトコルときめ細かい誤り分類法を備えたHLEの検証および改訂版である。
我々は,HLEとHLE-Verifiedの7つの最先端言語モデルを評価し,平均7~10ポイントの絶対精度を観測した。
論文 参考訳(メタデータ) (2026-02-15T02:50:15Z) - PRIME: A Process-Outcome Alignment Benchmark for Verifiable Reasoning in Mathematics and Engineering [71.15346406323827]
本稿では,プロセス・アウトカム・アライメント・アライメント・検証における検証結果を評価するベンチマークであるPRIMEを紹介する。
現在の検証器は、しばしば導出欠陥を検出するのに失敗する。
本稿では,PRIMEで選択した検証手法を利用したプロセス認識型RLVRトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2026-02-12T04:45:01Z) - See Less, Drive Better: Generalizable End-to-End Autonomous Driving via Foundation Models Stochastic Patch Selection [51.59559387222532]
エンドツーエンド自動運転の最近の進歩は、パッチアライメント機能で訓練されたポリシーが、アウト・オブ・ディストリビューション(OOD)よりも一般化していることを示している。
我々は、より堅牢で、一般化可能で、効率的な学習ポリシーのためのシンプルで効果的なアプローチである2.4-Patch-Selection(SPS)を提案する。
論文 参考訳(メタデータ) (2026-01-15T18:58:33Z) - VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。
セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。
平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文 参考訳(メタデータ) (2025-09-15T02:25:38Z) - RePaCA: Leveraging Reasoning Large Language Models for Static Automated Patch Correctness Assessment [0.0]
本稿では,Large Language Models (LLM) を利用した新しい静的APCA手法であるRePaCAを紹介する。
提案手法は,83.1%の精度と84.8%のF1スコアで最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-07-30T11:21:09Z) - Parameter-Efficient Fine-Tuning with Attributed Patch Semantic Graph for Automated Patch Correctness Assessment [8.028183762381474]
自動プログラム修復(APR)は、人間の介入なしにプログラムエラーを自動的に修復することを目的としている。
多くの研究がAPCA(Automatic patch correctness Assessment)に費やされている。
論文 参考訳(メタデータ) (2025-05-05T13:15:53Z) - All Patches Matter, More Patches Better: Enhance AI-Generated Image Detection via Panoptic Patch Learning [45.37237171823581]
AI生成画像(AIGI)の指数的成長は、堅牢で一般化可能な検出方法の緊急の必要性を浮き彫りにしている。
本稿では,系統解析によるAIGI検出の2つの重要な原則を確立する。
論文 参考訳(メタデータ) (2025-04-02T06:32:09Z) - Are "Solved Issues" in SWE-bench Really Solved Correctly? An Empirical Study [18.117047833029073]
自動問題解決のための最も一般的なベンチマークは、SWE-benchと、その人間のフィルタリングサブセットであるSWE-bench Verifiedである。
本稿では,SWE-bench Verifiedで評価された3つの最先端課題解決ツールによって生成された可塑性パッチの正確性について,詳細な実験的検討を行った。
論文 参考訳(メタデータ) (2025-03-19T14:02:21Z) - Improving Bias Correction Standards by Quantifying its Effects on Treatment Outcomes [54.18828236350544]
Propensity score matching (PSM) は、分析のために同等の人口を選択することで選択バイアスに対処する。
異なるマッチング手法は、すべての検証基準を満たす場合でも、同じタスクに対する平均処理効果(ATE)を著しく異なるものにすることができる。
この問題に対処するため,新しい指標A2Aを導入し,有効試合数を削減した。
論文 参考訳(メタデータ) (2024-07-20T12:42:24Z) - RAP-Gen: Retrieval-Augmented Patch Generation with CodeT5 for Automatic
Program Repair [75.40584530380589]
新たな検索型パッチ生成フレームワーク(RAP-Gen)を提案する。
RAP-Gen 以前のバグ修正ペアのリストから取得した関連する修正パターンを明示的に活用する。
RAP-GenをJavaScriptのTFixベンチマークとJavaのCode RefinementとDefects4Jベンチマークの2つのプログラミング言語で評価する。
論文 参考訳(メタデータ) (2023-09-12T08:52:56Z) - PatchCensor: Patch Robustness Certification for Transformers via
Exhaustive Testing [7.88628640954152]
Vision Transformer (ViT)は、他の古典的ニューラルネットワークと同様に非常に非線形であることが知られており、自然なパッチの摂動と逆パッチの摂動の両方によって容易に騙される。
この制限は、特に安全クリティカルなシナリオにおいて、実際の産業環境におけるViTの展開に脅威をもたらす可能性がある。
PatchCensorを提案する。このPatchCensorは、徹底的なテストを適用することで、ViTのパッチ堅牢性を証明することを目的としている。
論文 参考訳(メタデータ) (2021-11-19T23:45:23Z) - Checking Patch Behaviour against Test Specification [4.723400023753107]
パッチ動作とテスト仕様のフェールとの関連性について仮説を提案する。
次に、パッチの正当性を予測するための教師なし学習ベースシステムBATSを提案する。
論文 参考訳(メタデータ) (2021-07-28T11:39:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。