論文の概要: SWE-MERA: A Dynamic Benchmark for Agenticly Evaluating Large Language Models on Software Engineering Tasks
- arxiv url: http://arxiv.org/abs/2507.11059v2
- Date: Thu, 17 Jul 2025 14:04:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 13:45:37.446057
- Title: SWE-MERA: A Dynamic Benchmark for Agenticly Evaluating Large Language Models on Software Engineering Tasks
- Title(参考訳): SWE-MERA: ソフトウェアエンジニアリングタスクにおける大規模言語モデル評価のための動的ベンチマーク
- Authors: Pavel Adamenko, Mikhail Ivanov, Aidar Valeev, Rodion Levichev, Pavel Zadorozhny, Ivan Lopatin, Dmitry Babayev, Alena Fenogenova, Valentin Malykh,
- Abstract要約: ソフトウェア工学における大規模言語モデル(LLM)は、既存のベンチマークにおいて重要な制限を明らかにしている。
例えば、SWE-benchのレポートでは、パッチの32.67%は直接の溶液漏れを含んでいる。
SWE-MERA(SWE-MERA)は、これらの基本的な課題に対処するために設計された、動的で継続的に更新されたベンチマークである。
- 参考スコア(独自算出の注目度): 3.3037205426689433
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement of Large Language Models (LLMs) in software engineering has revealed critical limitations in existing benchmarks, particularly the widely used SWE-bench dataset. Recent studies have uncovered severe data contamination issues, e.g. SWE-bench reports 32.67% of successful patches involve direct solution leakage and 31.08% pass due to inadequate test cases. We introduce SWE-MERA, a dynamic, continuously updated benchmark designed to address these fundamental challenges through an automated collection of real-world GitHub issues and rigorous quality validation. Our approach implements a reliable pipeline that ensures quality while minimizing contamination risks, resulting in approximately 10,000 potential tasks with 300 samples currently available. Evaluation using the Aider coding agent demonstrates strong discriminative power in state-of-the-art models. We report performance across a dozen recent LLMs evaluated on tasks collected between September 2024 and June 2025.
- Abstract(参考訳): ソフトウェア工学におけるLarge Language Models(LLM)の急速な進歩は、既存のベンチマーク、特に広く使用されているSWE-benchデータセットにおいて重要な制限を明らかにしている。
最近の研究では、深刻なデータ汚染の問題が発見されており、例えばSWE-benchのレポートでは、パッチの32.67%は、不適切なテストケースによる直接のソリューションリークと31.08%のパスを含んでいる。
SWE-MERAは、現実のGitHub問題の自動収集と厳格な品質検証を通じて、これらの基本的な課題に対処するために設計された、動的に継続的に更新されたベンチマークである。
当社のアプローチでは,汚染リスクを最小限に抑えつつ品質を確保する信頼性の高いパイプラインを実装しており,現在利用可能な300個のサンプルに対して約10,000の潜在的なタスクが実現されている。
Aider 符号化エージェントを用いた評価は,最先端モデルにおいて強い識別力を示す。
我々は,2024年9月から2025年6月までに収集したタスクに基づいて,最近10件のLCMの性能を報告した。
関連論文リスト
- LLMEval-3: A Large-Scale Longitudinal Study on Robust and Fair Evaluation of Large Language Models [51.55869466207234]
静的ベンチマークにおけるLLM(Large Language Models)の既存の評価は、データの汚染やリーダーボードのオーバーフィッティングに弱い。
LLMの動的評価のためのフレームワークであるLLMEval-3を紹介する。
LLEval-3は、220kの卒業生レベルの質問からなるプロプライエタリなバンク上に構築されており、評価実行毎に未確認のテストセットを動的にサンプリングする。
論文 参考訳(メタデータ) (2025-08-07T14:46:30Z) - Skywork-SWE: Unveiling Data Scaling Laws for Software Engineering in LLMs [19.766885088032932]
ソフトウェアエンジニアリング(SWE)は、次世代のLLMエージェントにとって重要なテストベッドとして登場した。
既存のデータセットのほとんどは、わずか数千のGitHubソースインスタンスに制限されている。
SWEデータセットのボリュームと多様性の両方を体系的にスケールするインクリメンタルな自動データキュレーションパイプラインを提案する。
論文 参考訳(メタデータ) (2025-06-24T03:53:36Z) - SWE-Dev: Building Software Engineering Agents with Training and Inference Scaling [39.53265893083118]
大規模言語モデル(LLM)は、会話による問題解決から、ツール使用に関わる現実的なタスクへの対処まで、急速に進歩している。
この問題に対処するために、オープンソースのLLM上に構築されたSWEエージェントであるSWE-Devを提案する。
SWE-bench-Verifiedベンチマークの実験は、SWE-Devモデルが全てのオープンなSWEエージェントの中で最高のパフォーマンスを達成できることを示している。
論文 参考訳(メタデータ) (2025-06-09T11:03:16Z) - SWE-bench Goes Live! [39.295587503671015]
大規模言語モデル(LLM)のためのライブ更新可能なベンチマークであるSWE-bench-Liveを提案する。
最初のリリースは、2024年以降に作成された実際のGitHubイシューから派生した1,319のタスクで構成されています。
私たちのベンチマークの中心は、インスタンス生成から環境設定までのプロセス全体を合理化する自動キュレーションパイプラインであるメソッドです。
論文 参考訳(メタデータ) (2025-05-29T13:09:44Z) - SWE-rebench: An Automated Pipeline for Task Collection and Decontaminated Evaluation of Software Engineering Agents [34.16732444158405]
LLMベースのエージェントは、SWE(Software Engineering)タスクの増加に期待できる能力を示している。
高品質なトレーニングデータは、特に現実世界のSWEシナリオを反映したデータが少ない。
既存のデータセットはワンショットのコード生成に限られるか、小さな手作業による対話的なタスクのコレクションで構成されている。
論文 参考訳(メタデータ) (2025-05-26T18:01:00Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - Unveiling Pitfalls: Understanding Why AI-driven Code Agents Fail at GitHub Issue Resolution [22.03052751722933]
問題解決フェーズにおけるPythonの実行エラーは、低解像度率と推論オーバーヘッドの増加と相関している。
私たちは、ModuleNotFoundErrorやTypeErrorのような最も一般的なエラーを特定し、OSErrorやデータベース関連の問題のような特に困難なエラーを強調しました。
論文 参考訳(メタデータ) (2025-03-16T06:24:51Z) - Lingma SWE-GPT: An Open Development-Process-Centric Language Model for Automated Software Improvement [62.94719119451089]
Lingma SWE-GPTシリーズは、現実世界のコード提出活動から学び、シミュレーションする。
Lingma SWE-GPT 72BはGitHubの30.20%の問題を解決する。
論文 参考訳(メタデータ) (2024-11-01T14:27:16Z) - Maverick: Efficient and Accurate Coreference Resolution Defying Recent Trends [49.68011233558541]
大規模な自己回帰生成モデルは、いくつかの自然言語処理タスクで最高のパフォーマンスを達成するための基盤として現れてきた。
学術予算の制約の中で最先端のCoreference Resolutionシステムを実行可能にするパイプラインであるMaverickを紹介します。
MaverickはCoNLL-2012ベンチマークで最先端のパフォーマンスを達成し、最大0.006倍のメモリリソースをトレーニングし、従来の最先端システムと比較して170倍高速な推論が得られる。
論文 参考訳(メタデータ) (2024-07-31T09:58:48Z) - LiveBench: A Challenging, Contamination-Limited LLM Benchmark [93.57775429120488]
最近の情報ソースから頻繁に更新された質問を含む最初のベンチマークであるLiveBenchをリリースする。
我々は、多くの著名なクローズドソースモデルと、0.5Bから405Bまでの数十のオープンソースモデルを評価した。
質問は毎月追加され、更新され、時間とともに新しいタスクとより難しいタスクをリリースします。
論文 参考訳(メタデータ) (2024-06-27T16:47:42Z) - OR-Bench: An Over-Refusal Benchmark for Large Language Models [65.34666117785179]
大きな言語モデル(LLM)は、悪意のある出力を防ぐために慎重に安全アライメントを必要とする。
本研究では,大規模なオーバーリファレンスデータセットの自動生成手法を提案する。
OR-Benchは,最初の大規模オーバーリファレンスベンチマークである。
論文 参考訳(メタデータ) (2024-05-31T15:44:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。