論文の概要: SWE-Sharp-Bench: A Reproducible Benchmark for C# Software Engineering Tasks
- arxiv url: http://arxiv.org/abs/2511.02352v2
- Date: Wed, 05 Nov 2025 06:31:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 13:56:26.188493
- Title: SWE-Sharp-Bench: A Reproducible Benchmark for C# Software Engineering Tasks
- Title(参考訳): SWE-Sharp-Bench: C#ソフトウェアエンジニアリングタスクの再現可能なベンチマーク
- Authors: Sanket Mhatre, Yasharth Bajpai, Sumit Gulwani, Emerson Murphy-Hill, Gustavo Soares,
- Abstract要約: SWE-Sharp-Benchは、C#のソフトウェアエンジニアリングベンチマークで、17のリポジトリから150のインスタンスが提供されている。
SWE-Bench VerifiedのPythonタスクの70%は解決されているが、我々のC#タスクの40%だけが解決されている。
私たちはSWE-Sharp-Benchとキュレーションパイプライン全体をオープンソースにしています。
- 参考スコア(独自算出の注目度): 7.04771396439844
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: AI coding agents have shown great progress on Python software engineering benchmarks like SWE-Bench, and for other languages like Java and C in benchmarks like Multi-SWE-Bench. However, C# -- a prominent enterprise language ranking #5 in the TIOBE index -- remains absent from such benchmarks. We introduce SWE-Sharp-Bench, a reproducible software engineering benchmark for C# featuring 150 instances from 17 repositories. Evaluating identical model-agent configurations across languages reveals a significant performance gap: while 70% of Python tasks in SWE-Bench Verified are solved, only 40% of our C# tasks are resolved. We open-source SWE-Sharp-Bench and our entire curation pipeline.
- Abstract(参考訳): AIコーディングエージェントは、SWE-BenchのようなPythonのソフトウェアエンジニアリングベンチマークや、Multi-SWE-BenchのようなベンチマークでJavaやCのような他の言語に大きな進歩を見せています。
しかし、TIOBEインデックスの上位5位のエンタープライズ言語であるC#は、そのようなベンチマークには含まれていない。
SWE-Sharp-Benchは、C#の再現可能なソフトウェアエンジニアリングベンチマークで、17のリポジトリから150のインスタンスが提供されている。
SWE-Bench VerifiedのPythonタスクの70%は解決されているが、我々のC#タスクの40%だけが解決されている。
私たちはSWE-Sharp-Benchとキュレーションパイプライン全体をオープンソースにしています。
関連論文リスト
- GitGoodBench: A Novel Benchmark For Evaluating Agentic Performance On Git [0.8397730500554048]
GitGoodBenchは、バージョン管理システム(VCS)タスク上でAIエージェントのパフォーマンスを評価するための新しいベンチマークである。
私たちのベンチマークでは、オープンソースのPython、Java、Kotlinリポジトリから抽出された3つのコアGitシナリオについて取り上げています。
我々は、カスタムツールを備えたGPT-4oを用いて、ベンチマークのプロトタイプバージョン上でベースライン性能を確立し、全体的な21.1%の解決率を達成する。
論文 参考訳(メタデータ) (2025-05-28T16:56:11Z) - SWE-PolyBench: A multi-language benchmark for repository level evaluation of coding agents [49.73885480071402]
我々はSWE-PolyBenchを紹介した。SWE-PolyBenchは、コードエージェントのリポジトリレベル、実行ベース評価のための新しいベンチマークである。
SWE-PolyBenchには21のリポジトリから2110のインスタンスが含まれており、Java(165)、JavaScript(1017)、TypeScript(729)、Python(199)のタスクが含まれており、バグ修正、機能追加、コードを含んでいる。
実験の結果,現在のエージェントは言語間で不均一なパフォーマンスを示し,複雑な問題に対処しつつ,単純なタスクで高いパフォーマンスを示すことがわかった。
論文 参考訳(メタデータ) (2025-04-11T17:08:02Z) - EnvBench: A Benchmark for Automated Environment Setup [76.02998475135824]
大規模言語モデルにより、研究者はソフトウェア工学領域における実用的なリポジトリレベルのタスクに集中できるようになった。
環境設定に関する既存の研究は革新的なエージェント戦略を導入しているが、その評価は小さなデータセットに基づいていることが多い。
このギャップに対処するため、包括的環境設定ベンチマークEnvBenchを紹介します。
論文 参考訳(メタデータ) (2025-03-18T17:19:12Z) - EquiBench: Benchmarking Large Language Models' Reasoning about Program Semantics via Equivalence Checking [58.15568681219339]
大規模言語モデル(LLM)を評価するための新しいベンチマークであるEquiBenchを紹介する。
このタスクは、プログラムのセマンティクスについて推論するモデルの能力を直接テストする。
19の最先端LCMを評価し、最も難しいカテゴリでは、最高の精度は63.8%と76.2%であり、50%のランダムベースラインよりわずかに高い。
論文 参考訳(メタデータ) (2025-02-18T02:54:25Z) - SWE-bench Multimodal: Do AI Systems Generalize to Visual Software Domains? [64.34184587727334]
視覚的ユーザ向けJavaScriptソフトウェアにおけるバグ修正機能に基づいて,システム評価を行うSWE-bench Multimodalを提案する。
SWE-bench Mは、Webインターフェース設計、ダイアグラム、データ視覚化、シンタックスハイライト、インタラクティブマッピングに使用される17のJavaScriptライブラリから収集された617のタスクインスタンスを特徴とする。
分析の結果,SWE-benchシステムはSWE-bench Mと競合し,視覚的問題解決や言語間の一般化に限界があることが判明した。
論文 参考訳(メタデータ) (2024-10-04T18:48:58Z) - SWE-bench-java: A GitHub Issue Resolving Benchmark for Java [27.226354754864783]
大規模言語モデル(LLM)の問題解決能力を評価するため、SWE-benchがリリースされた。
マルチ言語サポートへの第一歩として、SWE-bench-javaと呼ばれるSWE-benchのJavaバージョンを開発しました。
SWE-bench-javaの信頼性を検証するために、従来のSWE-agentを実装し、その上で複数の強力なLCMをテストする。
論文 参考訳(メタデータ) (2024-08-26T15:30:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。