Fugu-MT 論文翻訳(概要): Are "Solved Issues" in SWE-bench Really Solved Correctly? An Empirical Study

論文の概要: Are "Solved Issues" in SWE-bench Really Solved Correctly? An Empirical Study

arxiv url: http://arxiv.org/abs/2503.15223v1
Date: Wed, 19 Mar 2025 14:02:21 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-20 15:29:57.567495
Title: Are "Solved Issues" in SWE-bench Really Solved Correctly? An Empirical Study
Title（参考訳）: SWEベンチの「解決問題」は本当に正しいのか? : 実証的研究
Authors: You Wang, Michael Pradel, Zhongxin Liu,
Abstract要約: 自動問題解決のための最も一般的なベンチマークは、SWE-benchと、その人間のフィルタリングサブセットであるSWE-bench Verifiedである。本稿では,SWE-bench Verifiedで評価された3つの最先端課題解決ツールによって生成された可塑性パッチの正確性について,詳細な実験的検討を行った。
参考スコア（独自算出の注目度）: 20.46588369793562
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Automated issue solving aims to resolve real-world issues in software repositories. The most popular benchmarks for automated issue solving are SWE-bench and its human-filtered subset SWE-bench Verified. These benchmarks leverage testing to validate generated patches. However, because testing is rarely exhaustive, a patch may pass the tests but nevertheless fail to match the developers' expectations. Unfortunately, it is currently unclear to what extent evaluations performed with SWE-bench suffer from such plausible but incorrect patches. This paper presents an in-depth empirical study of the correctness of plausible patches generated by three state-of-the-art issue-solving tools evaluated on SWE-bench Verified. We extensively test and inspect generated patches, and compare them against human-written ground truth patches. The core of our methodology is a novel technique PatchDiff for differential patch testing, which automatically exposes behavioral discrepancies between two patches. Our findings reveal critical weaknesses in SWE-bench's patch validation mechanism, which causes 7.8% of all patches to count as correct while failing the developer-written test suite. Moreover, our novel automated technique reveals that even more (29.6%) plausible patches induce different behavior than the ground truth patches. These behavioral differences are often due to similar, but divergent implementations (46.8%) and due to generated patches that adapt more behavior than the ground truth patches (27.3%). Our manual inspection shows that 28.6% of behaviorally divergent patches are certainly incorrect. Combined, the different weaknesses lead to an inflation of reported resolution rates by 6.2 absolute percent points. Our findings are a call to arms for more robust and reliable evaluation of issue-solving tools. We envision our automated differential patch testing technique to be useful for this purpose.
Abstract（参考訳）: 自動問題解決は、ソフトウェアリポジトリの現実の問題を解決することを目的としている。自動問題解決のための最も一般的なベンチマークは、SWE-benchと、その人間のフィルタリングサブセットであるSWE-bench Verifiedである。これらのベンチマークは、テストを活用して生成されたパッチを検証する。しかし、テストが徹底的に行われることはめったにないため、パッチはテストに合格するかもしれないが、それでも開発者の期待に合わない。残念なことに、SWE-benchによる評価がそのような可塑性パッチにどの程度苦しむかは、現時点では不明である。本稿では,SWE-bench Verifiedで評価された3つの最先端課題解決ツールによって生成された可塑性パッチの正確性について,詳細な実験的検討を行った。我々は、生成されたパッチを広範囲にテストし、検査し、それらを人書きの真理のパッチと比較する。この手法のコアとなるのは、差分パッチテストのための新しいテクニックであるPatchDiffで、2つのパッチ間の振る舞いの相違を自動的に露呈する。調査の結果,SWE-benchのパッチ検証機構に重大な欠陥があることが判明した。さらに,本手法では,さらに多くの (29.6%) 可塑性パッチが,基礎となる真理パッチと異なる振る舞いを引き起こすことが明らかとなった。これらの行動の違いは、しばしば類似しているが、異なる実装(46.8%)と、基礎となる真理のパッチ(27.3%)よりも多くの行動に適応するパッチ(英語版)によって生じる。手動検査では28.6%が明らかに不正確であることがわかった。異なる弱点が組み合わさって、報告された解決率の6.2%の絶対値のインフレにつながった。我々の発見は、問題解決ツールのより堅牢で信頼性の高い評価を武器に求めている。自動差分パッチテスト技術はこの目的に有効であると考えています。

関連論文リスト

All Patches Matter, More Patches Better: Enhance AI-Generated Image Detection via Panoptic Patch Learning [76.79222779026634]
我々は、系統解析によるAIGI検出の2つの重要な原則を確立する。 textbf(1) All Patches Matter: 識別的特徴が対象中心領域に集中する従来の画像分類とは異なり、AIGIのそれぞれのパッチは、一様生成プロセスによる合成アーティファクトを本質的に含んでいる。 textbf (2) パッチの改善: より多くのパッチで分散アーティファクトを活用することで、補完的な法医学的証拠をキャプチャすることで検出が改善される。 textbfPanoptic textbfPatch textbfLearning (PPL)フレームワーク。
論文参考訳（メタデータ） (2025-04-02T06:32:09Z)
Show Me Why It's Correct: Saving 1/3 of Debugging Time in Program Repair with Interactive Runtime Comparison [18.933377426587015]
パッチの理解と比較を容易にするために,iFixと呼ばれる対話型アプローチを提案する。 iFixは静的解析を行い、バグギーステートメントに関連するランタイム変数を識別する。パッチ毎に実行中のランタイム値をキャプチャし、実行時の動作を比較してコントラストすることができる。
論文参考訳（メタデータ） (2025-03-01T20:52:49Z)
SoftPatch+: Fully Unsupervised Anomaly Classification and Segmentation [84.07909405887696]
本論文は、完全教師なし産業異常検出(すなわち、ノイズデータ付き教師なしAD)を初めて検討したものである。メモリベースの非教師なしAD手法であるSoftPatchとSoftPatch+を提案する。既存の手法と比較して、SoftPatchは通常のデータの強力なモデリング能力を維持し、コアセットにおける過信問題を軽減する。様々なノイズシナリオで実施された総合的な実験により、SoftPatchとSoftPatch+はMVTecAD、ViSA、BTADのベンチマークで最先端のADメソッドよりも優れていた。
論文参考訳（メタデータ） (2024-12-30T11:16:49Z)
Patch-aware Batch Normalization for Improving Cross-domain Robustness [55.06956781674986]
クロスドメインタスクは、トレーニングセットとテストセットが異なるディストリビューションに従うと、モデルのパフォーマンスが低下する課題を示す。パッチ対応バッチ正規化(PBN)と呼ばれる新しい手法を提案する。画像の局所的なパッチの違いを利用して、提案したPBNはモデルパラメータの堅牢性を効果的に向上させることができる。
論文参考訳（メタデータ） (2023-04-06T03:25:42Z)
PatchZero: Zero-Shot Automatic Patch Correctness Assessment [13.19425284402493]
コードに大規模言語モデルを適用することにより,パッチの正当性評価を行うツールネームを提案する。ツールネームは、新しいAPRツールによって生成されたものとセマンティックな類似性を示す既存のAPRツールからラベル付きパッチを優先する。実験の結果,ツールネームの精度は84.4%,F1スコアは86.5%であった。
論文参考訳（メタデータ） (2023-03-01T03:12:11Z)
Test-based Patch Clustering for Automatically-Generated Patches Assessment [21.051652050359852]
オーバーフィッティングは、パッチが実行され、テストスイートがエラーを露呈しない場合に発生するが、パッチは、実際に基盤となるバグを修正したり、テストスイートがカバーしていない新しい欠陥を導入したりする。私たちの研究は、プログラマがレビューしなければならない妥当なパッチの数を最小限に抑え、正しいパッチを見つけるのに必要な時間を短縮することを目的としています。我々は、xTestClusterと呼ばれる新しい軽量なテストベースのパッチクラスタリング手法を導入し、その動的挙動に基づいてパッチをクラスタリングする。
論文参考訳（メタデータ） (2022-07-22T13:39:27Z)
SUPERNOVA: Automating Test Selection and Defect Prevention in AAA Video Games Using Risk Based Testing and Machine Learning [62.997667081978825]
従来の手法では、成長するソフトウェアシステムではスケールできないため、ビデオゲームのテストはますます難しいタスクになります。自動化ハブとして機能しながら,テスト選択と欠陥防止を行うシステム SUPERNOVA を提案する。この直接的な影響は、未公表のスポーツゲームタイトルの55%以上のテスト時間を減らすことが観察されている。
論文参考訳（メタデータ） (2022-03-10T00:47:46Z)
Segment and Complete: Defending Object Detectors against Adversarial Patch Attacks with Robust Patch Detection [142.24869736769432]
敵のパッチ攻撃は最先端の物体検出器に深刻な脅威をもたらす。パッチ攻撃に対して物体検出器を防御するフレームワークであるSegment and Complete Defense (SAC)を提案する。 SACは、物理的パッチ攻撃の標的攻撃成功率を著しく低減できることを示す。
論文参考訳（メタデータ） (2021-12-08T19:18:48Z)
PatchCensor: Patch Robustness Certification for Transformers via Exhaustive Testing [7.88628640954152]
Vision Transformer (ViT)は、他の古典的ニューラルネットワークと同様に非常に非線形であることが知られており、自然なパッチの摂動と逆パッチの摂動の両方によって容易に騙される。この制限は、特に安全クリティカルなシナリオにおいて、実際の産業環境におけるViTの展開に脅威をもたらす可能性がある。 PatchCensorを提案する。このPatchCensorは、徹底的なテストを適用することで、ViTのパッチ堅牢性を証明することを目的としている。
論文参考訳（メタデータ） (2021-11-19T23:45:23Z)
Checking Patch Behaviour against Test Specification [4.723400023753107]
パッチ動作とテスト仕様のフェールとの関連性について仮説を提案する。次に、パッチの正当性を予測するための教師なし学習ベースシステムBATSを提案する。
論文参考訳（メタデータ） (2021-07-28T11:39:06Z)
(De)Randomized Smoothing for Certifiable Defense against Patch Attacks [136.79415677706612]
我々は、所定の画像とパッチ攻撃サイズを保証する、パッチ攻撃に対する認証可能な防御を導入する。本手法はランダム化スムースなロバスト性スキームの幅広いクラスに関係している。その結果,CIFAR-10およびImageNetに対するパッチ攻撃に対する認証済みの防御技術が確立した。
論文参考訳（メタデータ） (2020-02-25T08:39:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。