論文の概要: Unveiling Practical Shortcomings of Patch Overfitting Detection Techniques
- arxiv url: http://arxiv.org/abs/2603.11262v1
- Date: Wed, 11 Mar 2026 19:45:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.616464
- Title: Unveiling Practical Shortcomings of Patch Overfitting Detection Techniques
- Title(参考訳): パッチオーバーフィッティング検出技術の実用的欠点
- Authors: David Williams, Ioakim Avraam, Aldeida Aleti, Matias Martinez, Justyna Petke, Federica Sarro,
- Abstract要約: 本研究は,いくつかのパッチオーバーフィッティング検出(POD)手法の総合的なベンチマーク研究を現実的なシナリオで行った最初のものである。
我々は、ランダムサンプリングに基づく6つの最先端のPODアプローチを2つのベースラインに対してベンチマークする。
単純なランダム選択は、すべてのPODツールを71%から96%のケースで上回ります。
- 参考スコア(独自算出の注目度): 14.046456257175238
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated Program Repair (APR) can reduce the time developers spend debugging, allowing them to focus on other aspects of software development. Automatically generated bug patches are typically validated through software testing. However, this method can lead to patch overfitting, i.e., generating patches that pass the given tests but are still incorrect. Patch correctness assessment (also known as overfitting detection) techniques have been proposed to identify patches that overfit. However, prior work often assessed the effectiveness of these techniques in isolation and on datasets that do not reflect the distribution of correct-to-overfitting patches that would be generated by APR tools in typical use; thus, we still do not know their effectiveness in practice. This work presents the first comprehensive benchmarking study of several patch overfitting detection (POD) methods in a practical scenario. To this end, we curate datasets that reflect realistic assumptions (i.e., patches produced by tools run under the same experimental conditions). Next, we use these data to benchmark six state-of-the-art POD approaches -- spanning static analysis, dynamic testing, and learning-based approaches -- against two baselines based on random sampling (one from prior work and one proposed herein). Our results are striking: Simple random selection outperforms all POD tools for 71% to 96% of cases, depending on the POD tool. This suggests two main takeaways: (1) current POD tools offer limited practical benefit, highlighting the need for novel techniques; (2) any POD tool must be benchmarked on realistic data and against random sampling to prove its practical effectiveness. To this end, we encourage the APR community to continue improving POD techniques and to adopt our proposed methodology for practical benchmarking; we make our data and code available to facilitate such adoption.
- Abstract(参考訳): 自動プログラム修正(APR)は、開発者がデバッグに費やす時間を短縮し、ソフトウェア開発の他の側面に集中できるようにする。
自動生成されたバグパッチは通常、ソフトウェアテストによって検証される。
しかし、この方法はパッチ過適合、すなわち、与えられたテストに合格するが、まだ正しくないパッチを生成することに繋がる。
過剰適合するパッチを特定するためにパッチ正当性評価(オーバーフィッティング検出とも呼ばれる)技術が提案されている。
しかし、以前の研究では、APRツールが一般的な用途で生成するであろうパッチの分布を反映しないデータセットや、これらのテクニックの分離による有効性を評価することが多かったため、実際にはその有効性は分かっていない。
本研究は,いくつかのパッチオーバーフィッティング検出(POD)手法の総合的なベンチマーク研究を現実的なシナリオで行った最初のものである。
この目的のために、現実的な仮定(つまり、ツールが同じ実験条件下で実行するパッチ)を反映したデータセットをキュレートする。
次に、これらのデータを使用して、静的分析、動的テスト、学習ベースのアプローチの6つの最先端のPODアプローチを、ランダムサンプリングに基づく2つのベースライン(ひとつは以前の作業から、1つはここで提案されている)に対してベンチマークします。
単純なランダム選択はPODツールによって71%から96%のケースですべてのPODツールより優れています。
これは,(1)現在のPODツールは,新しい技術の必要性を強調して,限られた実用的利益をもたらすこと,(2)現実的なデータやランダムサンプリングに対して,その実用性を証明するために,任意のPODツールをベンチマークしなくてはならないこと,の2点を示唆している。
この目的のために、我々はAPRコミュニティに対して、POD技術の改善を継続し、実用的なベンチマークのための提案された方法論を採用することを奨励します。
関連論文リスト
- RePaCA: Leveraging Reasoning Large Language Models for Static Automated Patch Correctness Assessment [0.0]
本稿では,Large Language Models (LLM) を利用した新しい静的APCA手法であるRePaCAを紹介する。
提案手法は,83.1%の精度と84.8%のF1スコアで最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-07-30T11:21:09Z) - Think Twice before Adaptation: Improving Adaptability of DeepFake Detection via Online Test-Time Adaptation [1.7811840395202345]
ディープフェイク(DF)検出器は、現実世界の環境に展開する際、重大な課題に直面している。
ポストプロセッシング技術はDFサンプルで提示された成果物を不明瞭に生成する可能性があるため、性能が低下する。
本稿では,新しいオンラインテスト時間適応法であるThink Twice before Adaptation (textttT$2$A)を提案する。
論文 参考訳(メタデータ) (2025-05-24T16:58:53Z) - Parameter-Efficient Fine-Tuning with Attributed Patch Semantic Graph for Automated Patch Correctness Assessment [8.028183762381474]
自動プログラム修復(APR)は、人間の介入なしにプログラムエラーを自動的に修復することを目的としている。
多くの研究がAPCA(Automatic patch correctness Assessment)に費やされている。
論文 参考訳(メタデータ) (2025-05-05T13:15:53Z) - DOTA: Distributional Test-Time Adaptation of Vision-Language Models [69.41389326333771]
トレーニングデータとテストデータの間に大きな分散ギャップが存在する場合、視覚言語の基礎モデルは信頼できない。
本稿では,DOTA(DistributiOnal Test-time Adaptation)を提案する。
この分散中心のアプローチは、モデルが継続的に学習し、デプロイメント環境に適応することを可能にする。
論文 参考訳(メタデータ) (2024-09-28T15:03:28Z) - Better Practices for Domain Adaptation [62.70267990659201]
ドメイン適応(DA)は、ラベルを使わずに、モデルを配置データに適用するためのフレームワークを提供することを目的としている。
DAの明確な検証プロトコルは、文献の悪い実践につながっている。
ドメイン適応手法の3つの分野にまたがる課題を示す。
論文 参考訳(メタデータ) (2023-09-07T17:44:18Z) - On Pitfalls of Test-Time Adaptation [82.8392232222119]
TTA(Test-Time Adaptation)は、分散シフトの下で堅牢性に取り組むための有望なアプローチとして登場した。
TTABは,10の最先端アルゴリズム,多種多様な分散シフト,および2つの評価プロトコルを含むテスト時間適応ベンチマークである。
論文 参考訳(メタデータ) (2023-06-06T09:35:29Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Plug-and-Play Few-shot Object Detection with Meta Strategy and Explicit
Localization Inference [78.41932738265345]
本稿では, 微調整を行なわずに新しいカテゴリーの物体を正確に検出できるプラグ検出器を提案する。
局所化プロセスに2つの明示的な推論を導入し、アノテーション付きデータへの依存を減らす。
これは、様々な評価プロトコルの下で、効率、精度、リコールの両方において大きなリードを示している。
論文 参考訳(メタデータ) (2021-10-26T03:09:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。