論文の概要: Dissecting the SWE-Bench Leaderboards: Profiling Submitters and Architectures of LLM- and Agent-Based Repair Systems
- arxiv url: http://arxiv.org/abs/2506.17208v1
- Date: Fri, 20 Jun 2025 17:57:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.585375
- Title: Dissecting the SWE-Bench Leaderboards: Profiling Submitters and Architectures of LLM- and Agent-Based Repair Systems
- Title(参考訳): SWE-Bench リーダーボードの分離: LLM およびエージェントベース修復システムのサブミッタとアーキテクチャのプロファイリング
- Authors: Matias Martinez, Xavier Franch,
- Abstract要約: 我々は、SWE-Benchのリーダーボードへの全ての提出について、タイプ、製品可用性、LCMの使用状況、システムアーキテクチャなど、67のユニークなアプローチを解析し、初めて包括的な研究を行った。
以上の結果から,プロプライエタリなLCM(特にClaude 3.5/3.7)の優位性,エージェントデザインと非エージェントデザインの両方の存在,そして個々の開発者から大企業にまたがるコントリビュータベースの存在が明らかになった。
- 参考スコア(独自算出の注目度): 9.512602357957633
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid progress in Automated Program Repair (APR) has been driven by advances in AI, particularly large language models (LLMs) and agent-based systems. SWE-Bench is a recent benchmark designed to evaluate LLM-based repair systems using real issues and pull requests mined from 12 popular open-source Python repositories. Its public leaderboards, SWE-Bench Lite and SWE-Bench Verified, have become central platforms for tracking progress and comparing solutions. However, because the submission process does not require detailed documentation, the architectural design and origin of many solutions remain unclear. In this paper, we present the first comprehensive study of all submissions to the SWE-Bench Lite (68 entries) and Verified (79 entries) leaderboards, analyzing 67 unique approaches across dimensions such as submitter type, product availability, LLM usage, and system architecture. Our findings reveal the dominance of proprietary LLMs (especially Claude 3.5/3.7), the presence of both agentic and non-agentic designs, and a contributor base spanning from individual developers to large tech companies.
- Abstract(参考訳): 自動プログラム修復(APR)の急速な進歩は、AIの進歩、特に大規模言語モデル(LLM)とエージェントベースのシステムによって推進されている。
SWE-Benchは、12の人気のあるPythonリポジトリから抽出された実際の問題とプルリクエストを使用して、LLMベースの修復システムを評価するために設計された最近のベンチマークである。
公開のリーダーボードであるSWE-Bench LiteとSWE-Bench Verifiedは、進捗を追跡し、ソリューションを比較するための中心的なプラットフォームになっている。
しかし、提出プロセスは詳細な資料を必要としないため、多くのソリューションのアーキテクチャ設計と起源は不明のままである。
本稿では、SWE-Bench Lite(68エントリ)とVerified(79エントリ)のリーダーボードに対する全ての提案を総合的に分析し、サブミッタタイプ、製品可用性、LCM使用率、システムアーキテクチャなど、67のユニークなアプローチを解析する。
以上の結果から,プロプライエタリなLCM(特にClaude 3.5/3.7)の優位性,エージェントデザインと非エージェントデザインの両方の存在,そして個々の開発者から大企業にまたがるコントリビュータベースの存在が明らかになった。
関連論文リスト
- The SWE-Bench Illusion: When State-of-the-Art LLMs Remember Instead of Reason [1.6249398255272318]
本稿では,問題記述のみからのファイルパス識別という診断タスクを導入し,モデルの基礎となる知識を探索する。
現状のモデルでは,リポジトリ構造にアクセスすることなく,問題記述のみを用いて,バグのあるファイルパスを識別する精度を最大76%向上することを示す。
このパフォーマンスは、SWE-Benchに含まれていないリポジトリのタスクで最大53%向上し、データ汚染やメモリ化の可能性を示している。
論文 参考訳(メタデータ) (2025-06-14T00:25:26Z) - A Self-Improving Coding Agent [23.44829720834145]
LLM(Large Language Models)は、LLMエージェントを世界に向けて展開することへの関心を喚起している。
本稿では,基本的なコーディングツールを備えたエージェントシステムが,自らを自律的に編集し,ベンチマークタスクの性能を向上させることを実証する。
論文 参考訳(メタデータ) (2025-04-21T16:58:18Z) - SWE-Fixer: Training Open-Source LLMs for Effective and Efficient GitHub Issue Resolution [56.9361004704428]
大規模言語モデル(LLM)は、様々な複雑なタスクにまたがる顕著な習熟度を示している。
SWE-Fixerは、GitHubの問題を効果的かつ効率的に解決するために設計された、新しいオープンソースフレームワークである。
我々は,SWE-Bench LiteとVerifiedベンチマークに対するアプローチを評価し,オープンソースモデル間の競合性能を実現する。
論文 参考訳(メタデータ) (2025-01-09T07:54:24Z) - Agentless: Demystifying LLM-based Software Engineering Agents [12.19683999553113]
Agentless - ソフトウェア開発の問題を自動解決するためのエージェントレスアプローチです。
Agentlessはエージェントベースのアプローチの冗長で複雑な設定と比較すると、ローカライゼーション、修復、パッチ検証の3フェーズプロセスをシンプルに採用している。
人気の高いSWE-bench Liteベンチマークの結果から、Agentlessは驚くほど高いパフォーマンスと低コストを達成できることがわかった。
論文 参考訳(メタデータ) (2024-07-01T17:24:45Z) - AgentLite: A Lightweight Library for Building and Advancing
Task-Oriented LLM Agent System [91.41155892086252]
LLMエージェントの研究を簡略化する新しいAIエージェントライブラリであるAgentLiteをオープンソースとして公開する。
AgentLiteは、タスクを分解するエージェントの機能を強化するために設計されたタスク指向フレームワークである。
我々は,その利便性と柔軟性を示すために,AgentLiteで開発された実用アプリケーションを紹介した。
論文 参考訳(メタデータ) (2024-02-23T06:25:20Z) - AgentBench: Evaluating LLMs as Agents [88.45506148281379]
大規模言語モデル(LLM)は、従来のNLPタスクを超えた現実的な実用的ミッションをターゲットとして、ますます賢く自律的になってきています。
我々は,現在8つの異なる環境からなるベンチマークであるAgentBenchを紹介し,LLM-as-Agentの推論と意思決定能力を評価する。
論文 参考訳(メタデータ) (2023-08-07T16:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。