論文の概要: What's in a Benchmark? The Case of SWE-Bench in Automated Program Repair
- arxiv url: http://arxiv.org/abs/2602.04449v1
- Date: Wed, 04 Feb 2026 11:19:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.504485
- Title: What's in a Benchmark? The Case of SWE-Bench in Automated Program Repair
- Title(参考訳): ベンチマークとは何か? 自動プログラム修復におけるSWE-Benchの事例
- Authors: Matias Martinez, Xavier Franch,
- Abstract要約: SWE-Benchは、人気のあるPythonリポジトリから抽出された実際の問題を使用して、修復システムを評価するために設計されたベンチマークである。
公開のリーダーボードであるSWE-Bench LiteとVerified-は、進捗を追跡し、ソリューションを比較するための中心的なプラットフォームになっている。
本稿では, 提案するソリューション, 提案の背後にある製品, 採用するLCM, アプローチのオープン性について検討する。
- 参考スコア(独自算出の注目度): 7.115334191361395
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid progress in Automated Program Repair (APR) has been fueled by advances in AI, particularly large language models (LLMs) and agent-based systems. SWE-Bench is a benchmark designed to evaluate repair systems using real issues mined from popular open-source Python repositories. Its public leaderboards-SWE-Bench Lite and Verified-have become central platforms for tracking progress and comparing solutions. In this paper, we present the first comprehensive study of these two leaderboards, examining who is submitting solutions, the products behind the submissions, the LLMs employed, and the openness of the approaches. We analyze 79 entries submitted to Lite leaderboard and 133 to Verified. Our results show that most entries on both leaderboards originate from industry, particularly small companies and large publicly traded companies. These submissions often achieve top results, although academic contributions-typically open source-also remain competitive. We also find a clear dominance of proprietary LLMs, especially Claude family, with state-of-the-art results on both leaderboards currently achieved by Claude 4 Sonnet. These findings offer insights into the SWE-Bench ecosystem that can guide greater transparency and diversity in future benchmark-driven research.
- Abstract(参考訳): 自動プログラム修復(APR)の急速な進歩は、AIの進歩、特に大規模言語モデル(LLM)とエージェントベースのシステムによって加速されている。
SWE-Benchは、人気のあるPythonリポジトリから抽出された実際の問題を使用して、修復システムを評価するために設計されたベンチマークである。
公開のリーダーボードであるSWE-Bench LiteとVerified-は、進捗を追跡し、ソリューションを比較するための中心的なプラットフォームになっている。
本稿では,この2つのリーダボードについて,ソリューションの提出者,提案の背景にある製品,LLMの採用状況,アプローチのオープン性などについて,総合的研究を行った。
79のエントリをLiteのリーダーボードに、133のエントリをVerifiedに分析します。
以上の結果から,両リーダーボードのほとんどのエントリは産業,特に中小企業や大規模上場企業に由来することが示唆された。
学術的なコントリビューションは典型的にはオープンソースであり、競争力も維持されている。
また、Claude 4 Sonnetが現在達成している両リーダーボードの最先端の成果により、プロプライエタリなLLM、特にClaude familyの明確な優位性も確認できます。
これらの発見はSWE-Benchエコシステムに対する洞察を与え、将来のベンチマーク駆動リサーチにおける透明性と多様性を導くことができる。
関連論文リスト
- OKBench: Democratizing LLM Evaluation with Fully Automated, On-Demand, Open Knowledge Benchmarking [47.579237867766686]
OKBenchは、ベンチマークのソーシング、作成、検証、配布を自動化するエージェントフレームワークである。
これらの結果から,新たな情報に直面する場合のモデル行動が明らかになり,小型モデルと大規模モデルのパフォーマンスギャップがいかに狭まるかが明らかになった。
論文 参考訳(メタデータ) (2025-10-31T16:44:34Z) - LLM-based Multi-Agent Blackboard System for Information Discovery in Data Science [69.1690891731311]
従来のAIモデルのためのブラックボードアーキテクチャに着想を得た,新しいマルチエージェント通信パラダイムを提案する。
このフレームワークでは、中央エージェントが共有ブラックボードにリクエストをポストし、自律的な従属エージェントがその能力に基づいて応答する。
明示的なデータ発見を必要とする3つのベンチマークに対して,本手法の評価を行った。
論文 参考訳(メタデータ) (2025-09-30T22:34:23Z) - Dissecting the SWE-Bench Leaderboards: Profiling Submitters and Architectures of LLM- and Agent-Based Repair Systems [9.512602357957633]
本稿では,SWE-Bench のリーダーボードへの提出に関する総合的研究について述べる。
タイプ、製品可用性、LLMの使用状況、システムアーキテクチャなど、80のユニークなアプローチを分析します。
この結果から, 独自LLMの優位性, エージェント設計と非エージェント設計の両方の存在, 個々の開発者から大企業へのコントリビュータ基盤が明らかとなった。
論文 参考訳(メタデータ) (2025-06-20T17:57:08Z) - League: Leaderboard Generation on Demand [67.69633959139523]
Leaderboard Auto Generation(LAG)は、特定の研究トピックに関するリーダボードの自動生成のためのフレームワークである。
毎日更新される多数のAI論文に直面すると、研究者が提案されているすべての論文の方法、実験結果、設定を追跡することは難しくなる。
コントリビューションには,リーダボード構築問題に対する包括的ソリューション,信頼性評価方法,リーダボードの高品質性を示す実験結果などが含まれている。
論文 参考訳(メタデータ) (2025-02-25T13:54:03Z) - Efficient Performance Tracking: Leveraging Large Language Models for Automated Construction of Scientific Leaderboards [67.65408769829524]
科学的リーダーボードは、競争方法の評価と比較を容易にする標準化されたランキングシステムである。
出版物の増加により、これらのリーダーボードを手動で構築し維持することは不可能になった。
手作業の削減の解決策として リーダーボードの 自動構築が登場しました
論文 参考訳(メタデータ) (2024-09-19T11:12:27Z) - Prompting Large Language Models to Tackle the Full Software Development Lifecycle: A Case Study [72.24266814625685]
DevEvalでソフトウェア開発ライフサイクル全体にわたって、大きな言語モデル(LLM)のパフォーマンスを調査します。
DevEvalは4つのプログラミング言語、複数のドメイン、高品質なデータ収集、各タスクに対して慎重に設計および検証されたメトリクスを備えている。
GPT-4を含む現在のLLMは、DevEvalで提示される課題を解決できないことが実証研究によって示されている。
論文 参考訳(メタデータ) (2024-03-13T15:13:44Z) - BenchMARL: Benchmarking Multi-Agent Reinforcement Learning [8.130948896195878]
BenchMARLは、さまざまなアルゴリズム、モデル、環境をまたいで標準化されたベンチマークを可能にする最初のトレーニングライブラリである。
BenchMARLはTorchRLをバックエンドとして使用し、高いパフォーマンスと最先端の実装を維持できる。
論文 参考訳(メタデータ) (2023-12-03T18:15:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。