Fugu-MT 論文翻訳(概要): UTBoost: Rigorous Evaluation of Coding Agents on SWE-Bench

論文の概要: UTBoost: Rigorous Evaluation of Coding Agents on SWE-Bench

arxiv url: http://arxiv.org/abs/2506.09289v1
Date: Tue, 10 Jun 2025 22:56:49 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-13 06:35:02.145441
Title: UTBoost: Rigorous Evaluation of Coding Agents on SWE-Bench
Title（参考訳）: UTBoost: SWE-Bench上のコーディングエージェントの厳密な評価
Authors: Boxi Yu, Yuxuan Zhu, Pinjia He, Daniel Kang,
Abstract要約: LLM駆動のテストケースジェネレータであるUTGeneratorを導入し、実世界のPythonプロジェクトのテストケースを生成する。 UTGenerator上に構築されたUTBoostは、テストケース拡張のための包括的なフレームワークである。評価では,テストケースが不十分な36のタスクインスタンスを同定し,元のSWE Benchに渡された345の誤ったパッチを誤ってラベル付けした。
参考スコア（独自算出の注目度）: 8.00058513405915
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The advent of Large Language Models (LLMs) has spurred the development of coding agents for real-world code generation. As a widely used benchmark for evaluating the code generation capabilities of these agents, SWE-Bench uses real-world problems based on GitHub issues and their corresponding pull requests. However, the manually written test cases included in these pull requests are often insufficient, allowing generated patches to pass the tests without resolving the underlying issue. To address this challenge, we introduce UTGenerator, an LLM-driven test case generator that automatically analyzes codebases and dependencies to generate test cases for real-world Python projects. Building on UTGenerator, we propose UTBoost, a comprehensive framework for test case augmentation. In our evaluation, we identified 36 task instances with insufficient test cases and uncovered 345 erroneous patches incorrectly labeled as passed in the original SWE Bench. These corrections, impacting 40.9% of SWE-Bench Lite and 24.4% of SWE-Bench Verified leaderboard entries, yield 18 and 11 ranking changes, respectively.
Abstract（参考訳）: LLM(Large Language Models)の出現により、現実のコード生成のためのコーディングエージェントの開発が加速した。これらのエージェントのコード生成能力を評価するために広く使用されているベンチマークとして、SWE-BenchはGitHubの問題とそれに対応するプルリクエストに基づいて現実世界の問題を使用する。しかしながら、これらのプルリクエストに含まれる手動で記述されたテストケースは、多くの場合、不十分である。この課題に対処するため,実世界のPythonプロジェクトのテストケースを生成するために,コードベースと依存関係を自動的に解析するLLM駆動のテストケースジェネレータUTGeneratorを紹介した。 UTGenerator上に構築されたUTBoostは、テストケース拡張のための包括的なフレームワークである。評価では,テストケースが不十分な36のタスクインスタンスを同定し,元のSWE Benchに渡された345の誤ったパッチを誤ってラベル付けした。これらの修正は、SWE-Bench Liteの40.9%、SWE-Bench Verified Leaderboardの24.4%に影響を及ぼし、それぞれ18と11のランキング変更が加えられた。

関連論文リスト

Pull Requests as a Training Signal for Repo-Level Code Editing [49.82435173554125]
Clean Pull Request(Clean-PR)は、現実のGitHubプルリクエストをリポジトリレベルの編集のトレーニングシグナルとして活用する、トレーニング中のパラダイムである。ノイズの多いプルリクエストの差分を,再構築と検証を通じて検索/リプレース編集ブロックに変換する,スケーラブルなパイプラインを導入する。 SWE-benchでは,SWE-bench Liteが13.6%,SWE-bench Verifiedが12.3%,命令調整ベースラインが大幅に向上した。
論文参考訳（メタデータ） (2026-02-07T09:22:25Z)
ImpossibleBench: Measuring LLMs' Propensity of Exploiting Test Cases [58.411135609139855]
タスク完了のための「ショートカット」は、大規模言語モデルの信頼性評価と展開に重大なリスクをもたらす。我々は,LLMエージェントがテストケースを利用するための正当性を測定するベンチマークフレームワークであるImpossibleBenchを紹介する。実践的なフレームワークとして、ImpossibleBenchは単なる評価ではなく、汎用的なツールである。
論文参考訳（メタデータ） (2025-10-23T06:58:32Z)
BugPilot: Complex Bug Generation for Efficient Learning of SWE Skills [59.003563837981886]
高品質なバグは、次世代の言語モデルベースソフトウェアエンジニアリング(SWE)エージェントをトレーニングする鍵となる。難易度および多種多様なバグを合成する新しい方法を提案する。
論文参考訳（メタデータ） (2025-10-22T17:58:56Z)
How Many Code and Test Cases Are Enough? Evaluating Test Cases Generation from a Binary-Matrix Perspective [51.30005925128432]
LLM(Large Language Models)が自動生成するテストケースの評価は、非常に難しい作業です。既存のベンチマークは高い計算コスト、インフレーションのスコア、稀でクリティカルな欠陥に対する自明なバグに対するバイアスに悩まされている。本稿では,ベンチマーク構築をバイナリコードテスト行列の最適な診断基準として定式化するフレームワークを提案する。
論文参考訳（メタデータ） (2025-10-09T18:29:24Z)
Automated Generation of Issue-Reproducing Tests by Combining LLMs and Search-Based Testing [5.008597638379228]
問題再現テストはバグの多いコードで失敗し、パッチが適用されるとパスします。過去の研究によると、開発者はこのようなテストなしでパッチをコミットすることが多い。問題パッチペアから問題再現テストを自動的に生成するツールを提案する。
論文参考訳（メタデータ） (2025-09-01T16:54:24Z)
Satori-SWE: Evolutionary Test-Time Scaling for Sample-Efficient Software Engineering [51.7496756448709]
言語モデル(LM)は、コーディングベンチマークではうまく機能するが、現実のソフトウェア工学のタスクでは苦労する。既存のアプローチは、高品質なデータによる教師付き微調整に依存している。本研究では, 生成を進化過程として扱うサンプル効率の高い手法であるテスト時間スケーリング(EvoScale)を提案する。
論文参考訳（メタデータ） (2025-05-29T16:15:36Z)
Issue2Test: Generating Reproducing Test Cases from Issue Reports [17.854783249394913]
問題を解決するための重要なステップは、問題を正確に再現するテストケースを作成することです。本稿では,所与の課題報告に対する再生テストケースを自動生成するLLMベースの手法である Issue2Test を提案する。 SWT-bench-lite データセット上での Issue2Test の評価を行い,32.9% の問題を再現した。
論文参考訳（メタデータ） (2025-03-20T16:44:00Z)
Unveiling Pitfalls: Understanding Why AI-driven Code Agents Fail at GitHub Issue Resolution [22.03052751722933]
問題解決フェーズにおけるPythonの実行エラーは、低解像度率と推論オーバーヘッドの増加と相関している。私たちは、ModuleNotFoundErrorやTypeErrorのような最も一般的なエラーを特定し、OSErrorやデータベース関連の問題のような特に困難なエラーを強調しました。
論文参考訳（メタデータ） (2025-03-16T06:24:51Z)
Automated Benchmark Generation for Repository-Level Coding Tasks [7.305342793164905]
SetUpAgentは、歴史的に正確な依存性の設定、テスト実行、結果解析が可能な完全に自動化されたシステムである。 i)SWEE-Benchは数百のリポジトリを含むSWE-Benchの拡張バージョンで、ii)SWA-Benchはライブラリではなくアプリケーションに焦点を当てたベンチマークです。
論文参考訳（メタデータ） (2025-03-10T17:42:49Z)
Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文参考訳（メタデータ） (2025-02-20T18:32:19Z)
CLOVER: A Test Case Generation Benchmark with Coverage, Long-Context, and Verification [71.34070740261072]
本稿では,テストケースの生成と完成におけるモデルの能力を評価するためのベンチマークCLOVERを提案する。ベンチマークはタスク間でのコード実行のためにコンテナ化されています。
論文参考訳（メタデータ） (2025-02-12T21:42:56Z)
Learning to Generate Unit Tests for Automated Debugging [52.63217175637201]
ユニットテスト(UT)は、コードの正確性を評価するだけでなく、大きな言語モデル(LLM)にフィードバックを提供する上でも重要な役割を果たします。提案するUTGenは,LLMに対して,予測出力とともにエラーを示す単体テスト入力を生成することを教える。 UTGen は他の LLM ベースラインを7.59% 上回っていることを示す。
論文参考訳（メタデータ） (2025-02-03T18:51:43Z)
Leveraging Large Language Models for Enhancing the Understandability of Generated Unit Tests [4.574205608859157]
我々は,検索ベースのソフトウェアテストと大規模言語モデルを組み合わせたUTGenを導入し,自動生成テストケースの理解性を向上する。 UTGenテストケースで課題に取り組む参加者は、最大33%のバグを修正し、ベースラインテストケースと比較して最大20%の時間を使用できます。
論文参考訳（メタデータ） (2024-08-21T15:35:34Z)
SWT-Bench: Testing and Validating Real-World Bug-Fixes with Code Agents [10.730852617039451]
ユーザ問題をテストケースに形式化するLLMベースのコードエージェントについて検討する。我々は人気のあるGitHubリポジトリに基づいた新しいベンチマークを提案し、現実世界の問題、地味なバグフィックス、ゴールデンテストを含む。コード修復用に設計されたコードエージェントは,テスト生成用に設計されたシステムの性能を上回っている。
論文参考訳（メタデータ） (2024-06-18T14:54:37Z)
Large Language Models as Test Case Generators: Performance Evaluation and Enhancement [3.5398126682962587]
大規模言語モデルが高品質なテストケースをいかに生み出すかを検討する。本稿では,テストインプットとテストアウトプットの生成を分離するemphTestChainというマルチエージェントフレームワークを提案する。以上の結果から,TestChainはベースラインのマージンを大きく上回っていることが示唆された。
論文参考訳（メタデータ） (2024-04-20T10:27:01Z)
CodeT: Code Generation with Generated Tests [49.622590050797236]
テストケースを自動的に生成するための事前学習言語モデルについて検討する。 CodeTは生成されたテストケースを使ってコードソリューションを実行し、次に最良のソリューションを選択します。我々は,HumanEvalとMBPPのベンチマークを用いて,5種類の事前学習モデル上でCodeTを評価する。
論文参考訳（メタデータ） (2022-07-21T10:18:37Z)
Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。私たちのベンチマークには1万の問題が含まれています。 GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文参考訳（メタデータ） (2021-05-20T17:58:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。