Fugu-MT 論文翻訳(概要): Dissecting the SWE-Bench Leaderboards: Profiling Submitters and Architectures of LLM- and Agent-Based Repair Systems

論文の概要: Dissecting the SWE-Bench Leaderboards: Profiling Submitters and Architectures of LLM- and Agent-Based Repair Systems

arxiv url: http://arxiv.org/abs/2506.17208v1
Date: Fri, 20 Jun 2025 17:57:08 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-23 19:00:05.585375
Title: Dissecting the SWE-Bench Leaderboards: Profiling Submitters and Architectures of LLM- and Agent-Based Repair Systems
Title（参考訳）: SWE-Bench リーダーボードの分離: LLM およびエージェントベース修復システムのサブミッタとアーキテクチャのプロファイリング
Authors: Matias Martinez, Xavier Franch,
Abstract要約: 我々は、SWE-Benchのリーダーボードへの全ての提出について、タイプ、製品可用性、LCMの使用状況、システムアーキテクチャなど、67のユニークなアプローチを解析し、初めて包括的な研究を行った。以上の結果から,プロプライエタリなLCM(特にClaude 3.5/3.7)の優位性,エージェントデザインと非エージェントデザインの両方の存在,そして個々の開発者から大企業にまたがるコントリビュータベースの存在が明らかになった。
参考スコア（独自算出の注目度）: 9.512602357957633
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The rapid progress in Automated Program Repair (APR) has been driven by advances in AI, particularly large language models (LLMs) and agent-based systems. SWE-Bench is a recent benchmark designed to evaluate LLM-based repair systems using real issues and pull requests mined from 12 popular open-source Python repositories. Its public leaderboards, SWE-Bench Lite and SWE-Bench Verified, have become central platforms for tracking progress and comparing solutions. However, because the submission process does not require detailed documentation, the architectural design and origin of many solutions remain unclear. In this paper, we present the first comprehensive study of all submissions to the SWE-Bench Lite (68 entries) and Verified (79 entries) leaderboards, analyzing 67 unique approaches across dimensions such as submitter type, product availability, LLM usage, and system architecture. Our findings reveal the dominance of proprietary LLMs (especially Claude 3.5/3.7), the presence of both agentic and non-agentic designs, and a contributor base spanning from individual developers to large tech companies.
Abstract（参考訳）: 自動プログラム修復(APR)の急速な進歩は、AIの進歩、特に大規模言語モデル(LLM)とエージェントベースのシステムによって推進されている。 SWE-Benchは、12の人気のあるPythonリポジトリから抽出された実際の問題とプルリクエストを使用して、LLMベースの修復システムを評価するために設計された最近のベンチマークである。公開のリーダーボードであるSWE-Bench LiteとSWE-Bench Verifiedは、進捗を追跡し、ソリューションを比較するための中心的なプラットフォームになっている。しかし、提出プロセスは詳細な資料を必要としないため、多くのソリューションのアーキテクチャ設計と起源は不明のままである。本稿では、SWE-Bench Lite(68エントリ)とVerified(79エントリ)のリーダーボードに対する全ての提案を総合的に分析し、サブミッタタイプ、製品可用性、LCM使用率、システムアーキテクチャなど、67のユニークなアプローチを解析する。以上の結果から,プロプライエタリなLCM(特にClaude 3.5/3.7)の優位性,エージェントデザインと非エージェントデザインの両方の存在,そして個々の開発者から大企業にまたがるコントリビュータベースの存在が明らかになった。

関連論文リスト

OS Agents: A Survey on MLLM-based Agents for General Computing Devices Use [101.57043903478257]
アイアンマンの架空のJ.A.R.V.I.Sほど有能で多用途なAIアシスタントを作る夢は、長い間想像力に恵まれてきた。マルチモーダル(multi-modal)な大きな言語モデル((M)LLMs)の進化により、この夢は現実に近づいている。本調査は,OSエージェント研究の現状を整理し,学術調査と産業開発の両方の指針を提供する。
論文参考訳（メタデータ） (2025-08-06T14:33:45Z)
Trae Agent: An LLM-based Agent for Software Engineering with Test-time Scaling [18.390443362388623]
Trae Agentは、リポジトリレベルのイシュー解決のための、最初のエージェントベースのアンサンブル推論アプローチである。広範に評価されたSWEベンチマークにおいて,3つの主要な大規模言語モデル(LLM)を用いて実験を行った。 Trae Agentは、Pass@1の観点で、すべてのベースラインに対して平均10.22%の改善で、一貫して優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-07-31T09:37:22Z)
The SWE-Bench Illusion: When State-of-the-Art LLMs Remember Instead of Reason [1.6249398255272318]
本稿では,問題記述のみからのファイルパス識別という診断タスクを導入し,モデルの基礎となる知識を探索する。現状のモデルでは,リポジトリ構造にアクセスすることなく,問題記述のみを用いて,バグのあるファイルパスを識別する精度を最大76%向上することを示す。このパフォーマンスは、SWE-Benchに含まれていないリポジトリのタスクで最大53%向上し、データ汚染やメモリ化の可能性を示している。
論文参考訳（メタデータ） (2025-06-14T00:25:26Z)
Agent-UniRAG: A Trainable Open-Source LLM Agent Framework for Unified Retrieval-Augmented Generation Systems [4.683612295430957]
本稿では,最近の大規模言語モデル (LLM) エージェントの概念を用いたRAGシステムに対する新しいアプローチを提案する。本稿では,統合検索拡張LLMシステムのためのエージェントUniRAGと呼ばれるトレーニング可能なエージェントフレームワークを提案する。主なアイデアは、入力の複雑さに基づいてRAGタスクを段階的に解決するLLMエージェントフレームワークを設計することである。
論文参考訳（メタデータ） (2025-05-28T16:46:31Z)
SweRank: Software Issue Localization with Code Ranking [109.3289316191729]
SweRankは、ソフトウェア問題ローカライゼーションのための効率的な検索と参照のためのフレームワークである。パブリックなGitHubリポジトリからキュレートされた大規模なデータセットであるSweLocを構築します。 SweRankは最先端の性能を達成し、従来のランキングモデルとコストの高いエージェントベースシステムの両方より優れていることを示す。
論文参考訳（メタデータ） (2025-05-07T19:44:09Z)
A Self-Improving Coding Agent [23.44829720834145]
LLM(Large Language Models)は、LLMエージェントを世界に向けて展開することへの関心を喚起している。本稿では,基本的なコーディングツールを備えたエージェントシステムが,自らを自律的に編集し,ベンチマークタスクの性能を向上させることを実証する。
論文参考訳（メタデータ） (2025-04-21T16:58:18Z)
SWE-Fixer: Training Open-Source LLMs for Effective and Efficient GitHub Issue Resolution [56.9361004704428]
大規模言語モデル(LLM)は、様々な複雑なタスクにまたがる顕著な習熟度を示している。 SWE-Fixerは、GitHubの問題を効果的かつ効率的に解決するために設計された、新しいオープンソースフレームワークである。我々は,SWE-Bench LiteとVerifiedベンチマークに対するアプローチを評価し,オープンソースモデル間の競合性能を実現する。
論文参考訳（メタデータ） (2025-01-09T07:54:24Z)
Agentless: Demystifying LLM-based Software Engineering Agents [12.19683999553113]
Agentless - ソフトウェア開発の問題を自動解決するためのエージェントレスアプローチです。 Agentlessはエージェントベースのアプローチの冗長で複雑な設定と比較すると、ローカライゼーション、修復、パッチ検証の3フェーズプロセスをシンプルに採用している。人気の高いSWE-bench Liteベンチマークの結果から、Agentlessは驚くほど高いパフォーマンスと低コストを達成できることがわかった。
論文参考訳（メタデータ） (2024-07-01T17:24:45Z)
AgentLite: A Lightweight Library for Building and Advancing Task-Oriented LLM Agent System [91.41155892086252]
LLMエージェントの研究を簡略化する新しいAIエージェントライブラリであるAgentLiteをオープンソースとして公開する。 AgentLiteは、タスクを分解するエージェントの機能を強化するために設計されたタスク指向フレームワークである。我々は,その利便性と柔軟性を示すために,AgentLiteで開発された実用アプリケーションを紹介した。
論文参考訳（メタデータ） (2024-02-23T06:25:20Z)
Recommender AI Agent: Integrating Large Language Models for Interactive Recommendations [53.76682562935373]
我々は,LLMを脳として,レコメンダモデルをツールとして使用する,textbfInteRecAgentという効率的なフレームワークを紹介した。 InteRecAgentは会話レコメンデーションシステムとして満足度を達成し、汎用LLMよりも優れる。
論文参考訳（メタデータ） (2023-08-31T07:36:44Z)
AgentBench: Evaluating LLMs as Agents [88.45506148281379]
大規模言語モデル(LLM)は、従来のNLPタスクを超えた現実的な実用的ミッションをターゲットとして、ますます賢く自律的になってきています。我々は,現在8つの異なる環境からなるベンチマークであるAgentBenchを紹介し,LLM-as-Agentの推論と意思決定能力を評価する。
論文参考訳（メタデータ） (2023-08-07T16:08:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。