論文の概要: Saving SWE-Bench: A Benchmark Mutation Approach for Realistic Agent Evaluation
- arxiv url: http://arxiv.org/abs/2510.08996v1
- Date: Fri, 10 Oct 2025 04:42:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:48.112429
- Title: Saving SWE-Bench: A Benchmark Mutation Approach for Realistic Agent Evaluation
- Title(参考訳): SWE-Bench:リアルエージェント評価のためのベンチマーク変異アプローチ
- Authors: Spandan Garg, Ben Steenhoek, Yufan Huang,
- Abstract要約: SWE-Bench Verifiedのようなソフトウェアエンジニアリングエージェントを評価するための現在のベンチマークは、主にGitHubの問題に由来する。
既存のベンチマークを現実的なユーザクエリに変換する,新たなベンチマークフレームワークを導入する。
- 参考スコア(独自算出の注目度): 3.2097144717773287
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Current benchmarks for evaluating software engineering agents, such as SWE-Bench Verified, are predominantly derived from GitHub issues and fail to accurately reflect how developers interact with chat-based coding assistants in integrated development environments (IDEs). We posit that this mismatch leads to a systematic overestimation of agent's capabilities in real-world scenarios, especially bug fixing. We introduce a novel benchmarking framework that transforms existing formal benchmarks into realistic user queries through systematic analysis of developer interaction patterns with chat-based agents. Our methodology is flexible and can be easily extended to existing benchmarks. In this paper, we apply our testing framework to SWE-Bench Verified, the TypeScript subset of Multi-SWE-Bench and a private benchmark, SWE-Bench C# and transform formal GitHub issue descriptions into realistic user-style queries based on telemetry analysis of a popular chat-based agent interactions. Our findings reveal that existing benchmarks significantly overestimate agent capabilities for some models by >50% over baseline performance for public benchmarks and ~10-16% for our internal benchmark. This work establishes a new paradigm for evaluating interactive chat-based software engineering agents through benchmark mutation techniques.
- Abstract(参考訳): SWE-Bench Verifiedのようなソフトウェアエンジニアリングエージェントを評価するための現在のベンチマークは、主にGitHubの問題に由来するもので、開発者が統合開発環境(IDE)でチャットベースのコーディングアシスタントとどのようにやりとりするかを正確に反映することができない。
このミスマッチは、現実世界のシナリオ、特にバグ修正におけるエージェントの能力の体系的な過大評価につながると仮定する。
本稿では,チャットベースのエージェントを用いた開発者インタラクションパターンの体系的解析を通じて,既存のベンチマークを現実的なユーザクエリに変換する,新たなベンチマークフレームワークを提案する。
私たちの方法論は柔軟で、既存のベンチマークに簡単に拡張できます。
本稿では、Multi-SWE-BenchのTypeScriptサブセットであるSWE-Bench VerifiedとプライベートベンチマークであるSWE-Bench C#にテストフレームワークを適用し、一般的なチャットベースのエージェントインタラクションのテレメトリ分析に基づいて、フォーマルなGitHubイシュー記述を現実的なユーザスタイルのクエリに変換する。
その結果,既存のベンチマークでは,内部ベンチマークではベースライン性能が50%以上,内部ベンチマークでは10-16%以上であった。
この研究は、ベンチマーク突然変異法による対話型チャットベースのソフトウェアエンジニアリングエージェントを評価するための新しいパラダイムを確立する。
関連論文リスト
- ArtifactsBench: Bridging the Visual-Interactive Gap in LLM Code Generation Evaluation [51.297873393639456]
ArtifactsBenchは自動ビジュアルコード生成評価のためのフレームワークである。
我々のフレームワークは、生成した各アーティファクトをレンダリングし、時間的スクリーンショットを通してその動的な振る舞いをキャプチャする。
我々は1,825の多様なタスクの新しいベンチマークを構築し、30以上の主要な大規模言語モデルを評価する。
論文 参考訳(メタデータ) (2025-07-07T12:53:00Z) - FrontendBench: A Benchmark for Evaluating LLMs on Front-End Development via Automatic Evaluation [17.64876163735292]
FrontendBenchは、人間と大規模言語モデル(LLM)が共同開発したベンチマークである。
このベンチマークは、5つのレベルのWebコンポーネントにまたがる、148の厳密なプロンプト-テストケースペアで構成されている。
自動評価フレームワークはサンドボックス環境内で生成されたコードを実行し、事前に定義されたテストスクリプトを使用して結果を評価する。
論文 参考訳(メタデータ) (2025-06-16T03:20:31Z) - Dynamic benchmarking framework for LLM-based conversational data capture [0.0]
本稿では,大規模言語モデル(LLM)を評価するためのベンチマークフレームワークを提案する。
生成エージェントシミュレーションを統合して、情報抽出、コンテキスト認識、適応エンゲージメントといった重要次元のパフォーマンスを評価する。
その結果,不明瞭な応答を扱う場合,適応戦略によりデータの抽出精度が向上することが示唆された。
論文 参考訳(メタデータ) (2025-02-04T15:47:47Z) - The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。
本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。
大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文 参考訳(メタデータ) (2024-12-06T23:43:59Z) - BenchAgents: Multi-Agent Systems for Structured Benchmark Creation [23.653678381444276]
BenchAgentsは評価ベンチマークの作成を自動化するフレームワークである。
BenchAgentsを使って、計画、制約満足度、因果推論に関連する機能を評価するベンチマークを作成します。
次に、これらのベンチマークを使用して、最先端のモデルを研究し、共通の障害モードとモデルの違いに関する新たな洞察を抽出します。
論文 参考訳(メタデータ) (2024-10-29T22:56:18Z) - Benchmark Self-Evolving: A Multi-Agent Framework for Dynamic LLM
Evaluation [51.99752147380505]
本稿では,大規模言語モデル(LLM)を動的に評価するベンチマーク自己進化フレームワークを提案する。
マルチエージェントシステムを用いて、元のインスタンスのコンテキストや質問を操作し、信頼性の高い新しいインスタンスをフレーミングする。
我々のフレームワークは、異なるモデル間の性能の相違を拡大し、様々なタスクで同じモデル内で性能の相違を拡大します。
論文 参考訳(メタデータ) (2024-02-18T03:40:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。