論文の概要: SWE-ABS: Adversarial Benchmark Strengthening Exposes Inflated Success Rates on Test-based Benchmark
- arxiv url: http://arxiv.org/abs/2603.00520v1
- Date: Sat, 28 Feb 2026 07:36:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 12:47:34.866717
- Title: SWE-ABS: Adversarial Benchmark Strengthening Exposes Inflated Success Rates on Test-based Benchmark
- Title(参考訳): SWE-ABS: テストベースベンチマークでインフレーション成功率を示す逆ベンチマーク強化
- Authors: Boxi Yu, Yang Cao, Yuzhong Zhang, Liting Lin, Junjielong Xu, Zhiqing Zhong, Qinghua Xu, Guancheng Wang, Jialun Cao, Shing-Chi Cheung, Pinjia He, Lionel Briand,
- Abstract要約: SWE-ABSは2段階のパイプラインを通してテストスイートを強化する逆フレームワークである。
SWE-Bench Verified (500インスタンス)では、SWE-ABSは50.2%のインスタンスを強化し、以前の作業よりも25.1倍改善し、以前パスしたパッチの19.71%を拒否する。
その結果、トップエージェントのスコアは78.80%から62.20%に低下し、リーダーボードのリシャッフルに繋がった。
- 参考スコア(独自算出の注目度): 20.247309939288915
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The SWE-Bench Verified leaderboard is approaching saturation, with the top system achieving 78.80%. However, we show that this performance is inflated. Our re-evaluation reveals that one in five "solved" patches from the top-30 agents are semantically incorrect, passing only because weak test suites fail to expose their errors. We present SWE-ABS, an adversarial framework that strengthens test suites through a two-stage pipeline: (1) coverage-driven augmentation using program slicing to target untested code regions, and (2) mutation-driven adversarial testing that synthesizes plausible but incorrect patches to expose semantic blind spots. On SWE-Bench Verified (500 instances), SWE-ABS strengthens 50.2% of instances, a 25.1x improvement over prior work, and rejects 19.71% of previously passing patches. As a result, the top agent's score decreases from 78.80% to 62.20%, leading to significant leaderboard reshuffling, with the previous top-ranked agent dropping to fifth place.
- Abstract(参考訳): SWE-Bench Verifiedのリーダーボードは飽和状態に近づき、トップシステムは78.80%に達した。
しかし,この性能は膨張している。
私たちの再評価では、トップ30エージェントの5分の1の"解決"パッチが意味的に間違っていて、弱いテストスイートがエラーを露呈しないためだけに過ぎません。
SWE-ABSは,テストスイートを2段階のパイプラインで強化する敵対的フレームワークである。(1)テスト対象のプログラムスライシングによるカバレッジ駆動型拡張,(2)セマンティックな盲点を露呈するために,可塑性で不正確なパッチを合成する突然変異駆動型逆行テストである。
SWE-Bench Verified (500インスタンス)では、SWE-ABSは50.2%のインスタンスを強化し、以前の作業よりも25.1倍改善し、以前パスしたパッチの19.71%を拒否する。
その結果、トップエージェントのスコアは78.80%から62.20%に低下し、リーダーボードが大幅にリシャッフルされ、トップエージェントは5位に下がった。
関連論文リスト
- Agentic Test-Time Scaling for WebAgents [65.5178428849495]
CATTS(Confidence-Aware Test-Time Scaling)を提案する。
CATTSは、WebArena-LiteとGoBrowseのパフォーマンスをReact上で最大9.1%改善し、均一なスケーリングよりも最大2.3倍少ないトークンを使用する。
論文 参考訳(メタデータ) (2026-02-12T18:58:30Z) - Multi-Agent LLM Committees for Autonomous Software Beta Testing [0.0]
このフレームワークは、モデルの多様性、ペルソナ駆動の振る舞いの変化、視覚的ユーザインターフェイスの理解を組み合わせたものだ。
視覚対応エージェントは、ナビゲーションとレポートによってユーザインターフェース要素を100%成功させることに成功した。
このフレームワークは、CI/CDパイプラインにおけるLLMベースのソフトウェアテストの再現可能な研究と実践的な展開を可能にする。
論文 参考訳(メタデータ) (2025-12-21T02:06:53Z) - Fortytwo: Swarm Inference with Peer-Ranked Consensus [36.94429692322632]
我々は、AI推論において優れたパフォーマンスを達成するために、Swarmの知能原則と分散ペアのランキングコンセンサスを活用する新しいプロトコルFortytwoを提案する。
独自のBradley-Terry-styleアグリゲーションモデルを用いて、Swarm推論が多数決をかなり上回ることを示す。
論文 参考訳(メタデータ) (2025-10-27T23:19:48Z) - When Old Meets New: Evaluating the Impact of Regression Tests on SWE Issue Resolution [8.305144449617883]
TestPruneは,イシュートラッカレポートを活用して,バグ再現とパッチ検証の両面において,レグレッションテストを戦略的に再利用する,完全に自動化されたテクニックである。
TestPruneは任意のエージェントバグ修正パイプラインにプラグイン可能で、全体的なパフォーマンスが急速に向上する。
論文 参考訳(メタデータ) (2025-10-21T03:42:28Z) - Rethinking LLM Evaluation: Can We Evaluate LLMs with 200x Less Data? [82.09573568241724]
EssenceBenchは反復遺伝的アルゴリズム(GA)を利用した粗粒度フレームワーク
提案手法は, 再構成誤差が低く, 効率が著しく向上した, 優れた圧縮結果が得られる。
HellaSwagベンチマーク(10Kサンプル)では,25倍少ないサンプルを用いて,全モデルが5%以内の順位を保ち,わずか200倍少ないサンプルを用いて,95%未満のランキング保持シフトを達成している。
論文 参考訳(メタデータ) (2025-10-12T05:38:10Z) - CLUE: Non-parametric Verification from Experience via Hidden-State Clustering [64.50919789875233]
隠れアクティベーションの軌跡内の幾何的に分離可能なシグネチャとして解の正しさが符号化されていることを示す。
ClUE は LLM-as-a-judge ベースラインを一貫して上回り、候補者の再選において近代的な信頼に基づく手法に適合または超えている。
論文 参考訳(メタデータ) (2025-10-02T02:14:33Z) - VAULT: Vigilant Adversarial Updates via LLM-Driven Retrieval-Augmented Generation for NLI [15.320553375828045]
VAULTは、NLIモデルの弱点を発見し、改善する完全に自動化された対向的なRAGパイプラインである。
VAULTはデータセット間で、従来よりも最大で2.0%パフォーマンスが向上している。
論文 参考訳(メタデータ) (2025-08-01T14:22:54Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - Out-of-Distribution Detection with Prototypical Outlier Proxy [17.130831264648997]
よく訓練されたディープモデルは、目に見えないテストデータに対して過剰な自信を持つ傾向があります。
近年の研究では、実際のまたは合成された外れ値を利用して問題を緩和しようとしている。
POP(Prototypeal Outlier Proxy)を提案する。
論文 参考訳(メタデータ) (2024-12-22T06:32:20Z) - (Certified!!) Adversarial Robustness for Free! [116.6052628829344]
逆方向の摂動が0.5の2ノルム以内であることに制約された場合,ImageNetでは71%の精度が証明された。
これらの結果は,モデルパラメータの微調整や再学習を必要とせず,事前学習した拡散モデルと画像分類器のみを用いて得られる。
論文 参考訳(メタデータ) (2022-06-21T17:27:27Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。