論文の概要: Does SWE-Bench-Verified Test Agent Ability or Model Memory?
- arxiv url: http://arxiv.org/abs/2512.10218v1
- Date: Thu, 11 Dec 2025 02:11:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.161205
- Title: Does SWE-Bench-Verified Test Agent Ability or Model Memory?
- Title(参考訳): SWE-Bench認証テストエージェントの能力はモデル記憶か?
- Authors: Thanosan Prathifkumar, Noble Saji Mathews, Meiyappan Nagappan,
- Abstract要約: SWE-Bench-Verifiedは500の課題からなるデータセットである。
このベンチマークは、モデルのトレーニングデータと重複する可能性がある。
ベンチマークに提出されたトップパフォーマンスエージェントに頻繁に現れる2つのClaudeモデルをテストする。
- 参考スコア(独自算出の注目度): 2.937612609787308
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: SWE-Bench-Verified, a dataset comprising 500 issues, serves as a de facto benchmark for evaluating various large language models (LLMs) on their ability to resolve GitHub issues. But this benchmark may overlap with model training data. If that is true, scores may reflect training recall, not issue-solving skill. To study this, we test two Claude models that frequently appear in top-performing agents submitted to the benchmark. We ask them to find relevant files using only issue text, and then issue text plus file paths. We then run the same setup on BeetleBox and SWE-rebench. Despite both benchmarks involving popular open-source Python projects, models performed 3 times better on SWE-Bench-Verified. They were also 6 times better at finding edited files, without any additional context about the projects themselves. This gap suggests the models may have seen many SWE-Bench-Verified tasks during training. As a result, scores on this benchmark may not reflect an agent's ability to handle real software issues, yet it continues to be used in ways that can misrepresent progress and lead to choices that favour agents that use certain models over strong agent design. Our setup tests the localization step with minimal context to the extent that the task should be logically impossible to solve. Our results show the risk of relying on older popular benchmarks and support the shift toward newer datasets built with contamination in mind.
- Abstract(参考訳): 500のイシューからなるデータセットであるSWE-Bench-Verifiedは、GitHubの問題を解決するためのさまざまな大規模言語モデル(LLM)を評価するためのデファクトベンチマークとして機能する。
しかし、このベンチマークはモデルのトレーニングデータと重複する可能性がある。
もしそれが本当なら、スコアは課題解決スキルではなく、トレーニングリコールを反映するかもしれない。
そこで本研究では,ベンチマークに提出されたトップパフォーマンスエージェントによく現れる2つのClaudeモデルを検証した。
問題テキストのみを使用して関連するファイルを見つけて、テキストとファイルパスを発行するように求めます。
次にBeetleBoxとSWE-rebenchで同じセットアップを実行します。
人気のあるオープンソースのPythonプロジェクトを含む両方のベンチマークにもかかわらず、モデルはSWE-Bench-Verifiedの3倍パフォーマンスが向上した。
また、プロジェクト自体に関する追加のコンテキストなしで、編集されたファイルを見つけるのに6倍優れていた。
このギャップは、トレーニング中に多くのSWE-Bench-Verifiedタスクが見られたことを示唆している。
結果として、このベンチマークのスコアは、エージェントが実際のソフトウェア問題に対処する能力を反映していないかもしれないが、進捗を誤って表現し、強力なエージェント設計よりも特定のモデルを使用するエージェントを選択する方法として、引き続き使用されている。
私たちのセットアップは、タスクが論理的に解決できない程度に最小限のコンテキストでローカライズステップをテストする。
我々の結果は、古い人気のあるベンチマークに依存するリスクを示し、汚染を念頭に構築された新しいデータセットへのシフトをサポートする。
関連論文リスト
- ImpossibleBench: Measuring LLMs' Propensity of Exploiting Test Cases [58.411135609139855]
タスク完了のための「ショートカット」は、大規模言語モデルの信頼性評価と展開に重大なリスクをもたらす。
我々は,LLMエージェントがテストケースを利用するための正当性を測定するベンチマークフレームワークであるImpossibleBenchを紹介する。
実践的なフレームワークとして、ImpossibleBenchは単なる評価ではなく、汎用的なツールである。
論文 参考訳(メタデータ) (2025-10-23T06:58:32Z) - The SWE-Bench Illusion: When State-of-the-Art LLMs Remember Instead of Reason [1.6249398255272318]
本稿では,SWE-Bench-Verifiedの性能向上は,真の問題解決よりも記憶によってもたらされる可能性があることを示す。
現状のモデルでは,リポジトリ構造にアクセスすることなく,問題記述のみを用いて,バグのあるファイルパスを識別する精度を最大76%向上することを示す。
これらの結果は、既存の結果の有効性に関する懸念を提起し、より堅牢で汚染に強いベンチマークの必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-06-14T00:25:26Z) - Automated Benchmark Generation for Repository-Level Coding Tasks [7.305342793164905]
SetUpAgentは、歴史的に正確な依存性の設定、テスト実行、結果解析が可能な完全に自動化されたシステムである。
i)SWEE-Benchは数百のリポジトリを含むSWE-Benchの拡張バージョンで、ii)SWA-Benchはライブラリではなくアプリケーションに焦点を当てたベンチマークです。
論文 参考訳(メタデータ) (2025-03-10T17:42:49Z) - Do Large Language Model Benchmarks Test Reliability? [66.1783478365998]
モデル信頼性の定量化について検討する。
信頼性評価におけるこのギャップにより、我々はいわゆるプラチナベンチマークの概念を提案する。
我々は、これらのプラチナベンチマークにおいて、幅広いモデルを評価し、実際、フロンティアLSMは、単純なタスクで失敗を示す。
論文 参考訳(メタデータ) (2025-02-05T18:58:19Z) - PyBench: Evaluating LLM Agent on various real-world coding tasks [13.347173063163138]
PyBenchは、現実世界のタスクの5つの主要なカテゴリをカバーするベンチマークで、10種類以上のファイルをカバーする。
我々の評価は、現在のオープンソースLLMがこれらのタスクに苦戦していることを示している。
微調整された8Bサイズモデル: textbfPyLlama3はPyBench上でエキサイティングなパフォーマンスを実現します。
論文 参考訳(メタデータ) (2024-07-23T15:23:14Z) - LiveBench: A Challenging, Contamination-Limited LLM Benchmark [93.57775429120488]
最近の情報ソースから頻繁に更新された質問を含む最初のベンチマークであるLiveBenchをリリースする。
我々は、多くの著名なクローズドソースモデルと、0.5Bから405Bまでの数十のオープンソースモデルを評価した。
質問は毎月追加され、更新され、時間とともに新しいタスクとより難しいタスクをリリースします。
論文 参考訳(メタデータ) (2024-06-27T16:47:42Z) - CommitBench: A Benchmark for Commit Message Generation [22.03783968903916]
既存のデータセットはコミット選択の品質など,さまざまな問題を示す。
新しい大規模データセットであるCommitBenchをコンパイルし、データセット作成のベストプラクティスを採用しています。
私たちはCommitBenchを使って既存のモデルを比較し、他のアプローチがソースコードで事前訓練されたTransformerモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-08T09:56:45Z) - SWE-bench: Can Language Models Resolve Real-World GitHub Issues? [80.52201658231895]
SWE-benchは、実際のGitHub問題から引き出された2,294ドルのソフトウェアエンジニアリング問題と、人気のあるPythonリポジトリ12ドルのプルリクエストで構成される評価フレームワークである。
我々は、最先端のプロプライエタリモデルと微調整モデルSWE-Llamaの両方が、最も単純な問題だけを解決できることを示します。
論文 参考訳(メタデータ) (2023-10-10T16:47:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。