Fugu-MT 論文翻訳(概要): ScarfBench: A Benchmark for Cross-Framework Application Migration in Enterprise Java

論文の概要: ScarfBench: A Benchmark for Cross-Framework Application Migration in Enterprise Java

arxiv url: http://arxiv.org/abs/2605.06754v1
Date: Thu, 07 May 2026 16:05:35 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-11 19:43:38.512929
Title: ScarfBench: A Benchmark for Cross-Framework Application Migration in Enterprise Java
Title（参考訳）: ScarfBench: エンタープライズJavaにおけるクロスフレームワークアプリケーションのマイグレーションベンチマーク
Authors: Advait Pavuluri, Bridget McGinn, Ashita Saxena, George Safta, Srikanth Tamilselvam, Raju Pavuluri, Michele Merler, Baishakhi Ray, Rahul Krishna,
Abstract要約: ScarfBenchは、エンタープライズJavaアプリケーションの振る舞いを保存するクロスフレームワークマイグレーションのためのベンチマークである。 Spring、Jakarta EE、Quarkusにまたがる、専門家による実装トリプルから構築されている。ベンチマーク、ハーネス、エージェントトレースはhttps://scarfbench.info.comで公開しています。
参考スコア（独自算出の注目度）: 11.354549034103075
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Java remains central to enterprise software, and many applications outlive their original architecture. Migrating them across frameworks is a behavior-preserving refactoring spanning build configuration, dependency injection, persistence, request handling, and deployment. Existing software-engineering benchmarks cover bug fixing, feature implementation, and language or version modernization, but leave cross-framework refactoring largely unmeasured. We introduce ScarfBench, a benchmark for behavior-preserving cross-framework refactoring of enterprise Java applications. It is built from expert-written implementation triples across Spring, Jakarta EE, and Quarkus: 34 applications (29 focused single-layer, 5 whole) yielding 102 variants (~151K lines across 1946 source and test files) and 204 directed refactoring tasks. Each task gives an agent a working source application and a target framework; the agent must synthesize a target implementation preserving the source behavior. Correctness is evaluated by an application-specific executable oracle: the candidate must compile, deploy in a containerized target runtime, and pass behavioral tests over the application's observable interface. We evaluate five state-of-the-art coding agents on ScarfBench. The strongest achieves only 15.3% aggregate test pass on focused-layer migrations and 12.2% on whole applications, and only one of the 204 tasks yields a fully behaviorally equivalent target. Difficulty is asymmetric across framework directions and architectural layers: Spring<->Quarkus is the most tractable pair, and Jakarta-targeted migrations are hardest. From LLM-as-a-judge and expert adjudication of failed-task traces, we derive a taxonomy of recurring failure categories spanning build, deploy, and test stages. We release the benchmark, harness, and agent traces at https://scarfbench.info.
Abstract（参考訳）: Javaは依然としてエンタープライズソフトウェアの中心であり、多くのアプリケーションは元のアーキテクチャより優れています。フレームワーク間でのマイグレーションは、ビルド設定、依存性注入、永続化、リクエストハンドリング、デプロイメントにまたがる振る舞い保存リファクタリングである。既存のソフトウェアエンジニアリングベンチマークでは、バグ修正、機能実装、言語またはバージョンの最新化がカバーされているが、クロスフレームワークのリファクタリングはほとんど検討されていない。 ScarfBenchは、エンタープライズJavaアプリケーションの振る舞いを保存するクロスフレームワークリファクタリングのためのベンチマークです。 Spring、Jakarta EE、Quarkusにまたがる専門家による実装トリプルから構築されている。34のアプリケーション(29の集中したシングルレイヤ、5の全体)が102の変種(1946年のソースファイルとテストファイルで約151K行)と204の直接リファクタリングタスクを生成する。各タスクはエージェントにワーキングソースアプリケーションとターゲットフレームワークを与え、エージェントはソースの動作を保存するターゲット実装を合成しなければならない。候補はコンパイルし、コンテナ化されたターゲットランタイムにデプロイし、アプリケーションの可観測インターフェースに振る舞いテストを渡す必要がある。我々はScarfBench上で5つの最先端のコーディングエージェントを評価する。最強は集中層移行で15.3%、全アプリケーションで12.2%の総合的なテストパスを達成し、204タスクのうち1つだけが完全な行動等価な目標を達成している。 Spring<->Quarkusは最も魅力的なペアであり、Jakartaがターゲットとするマイグレーションは最も難しい。 LLM-as-a-judgeとフェールタスクトレースの専門的な判断から、ビルド、デプロイ、テストステージにまたがる繰り返し失敗カテゴリの分類を導出します。ベンチマーク、ハーネス、エージェントトレースはhttps://scarfbench.info.comで公開しています。

関連論文リスト

SmellBench: Evaluating LLM Agents on Architectural Code Smell Repair [1.6922906233636834]
アーキテクチャコードはソフトウェアの保守性を損なうため、手作業で修理するのにコストがかかる。本稿では,大規模言語モデルエージェントによる建築コードの臭いの修復に関する経験的評価について述べる。 SmellBenchは、嗅覚タイプ固有の最適化プロンプトを組み込んだタスクオーケストレーションフレームワークです。
論文参考訳（メタデータ） (2026-05-07T22:33:32Z)
ProgramBench: Can Language Models Rebuild Programs From Scratch? [59.40748183470308]
ProgramBenchは、ソフトウェアエンジニアリングエージェントがソフトウェアをホリシックに開発する能力を測定する。エンドツーエンドの動作テストはエージェント駆動ファジィによって生成される。モデルは、人間が書いたコードと大きく異なるモノリシックでシングルファイルの実装を好む。
論文参考訳（メタデータ） (2026-05-05T09:17:02Z)
Theory of Code Space: Do Code Agents Understand Software Architecture? [0.0]
コードエージェントは、分離されたタスクで優れているが、アーキテクチャの理解を必要とするマルチファイルソフトウェアエンジニアリングと苦労する。エージェントがAI探索中に一貫性のあるアーキテクチャの信念を構築し、維持し、更新できるかどうかを評価するベンチマークである、コード空間の理論(ToCS)を紹介する。
論文参考訳（メタデータ） (2026-02-28T11:40:17Z)
RepoMod-Bench: A Benchmark for Code Repository Modernization via Implementation-Agnostic Testing [1.4069797812477614]
本稿では,実装に依存しない評価パラダイムに基づく,リポジトリレベルのコードモダナイゼーションのためのベンチマークフレームワークを紹介する。 RepoMod-Benchは8つの言語にまたがる、標準化されたインターフェースを備えた21の現実世界リポジトリのベンチマークである。ベンチマークには1.6万行のコード(LOC)と11,616のテストが含まれており、リポジトリのサイズは14～211KLOCである。
論文参考訳（メタデータ） (2026-02-26T01:25:00Z)
RepoGenesis: Benchmarking End-to-End Microservice Generation from Readme to Repository [52.98970048197381]
RepoGenesisは、リポジトリレベルのエンドツーエンドWebマイクロサービス生成のための、最初の多言語ベンチマークである。 18のドメインと11のフレームワークに106のリポジトリ(60のPython、46のJava)があり、1,258のAPIエンドポイントと2,335のテストケースが検証されている。その結果、高いAC(最大73.91%)とDSR(最大100%)にもかかわらず、最高のパフォーマンスのシステムはPythonで23.67%のPass@1、Javaで21.45%しか達成していないことが明らかになった。
論文参考訳（メタデータ） (2026-01-20T13:19:20Z)
ABC-Bench: Benchmarking Agentic Backend Coding in Real-World Development [72.4729759618632]
本稿では,現実的かつ実行可能なワークフロー内でエージェントバックエンドコーディングを評価するベンチマークであるABC-Benchを紹介する。オープンソースリポジトリから8つの言語と19のフレームワークにまたがる224の実践的なタスクをキュレートしました。我々の評価は、最先端モデルでさえ、これらの総合的なタスクに対して信頼性の高いパフォーマンスを提供するのに苦労していることを示している。
論文参考訳（メタデータ） (2026-01-16T08:23:52Z)
CLOVER: A Test Case Generation Benchmark with Coverage, Long-Context, and Verification [71.34070740261072]
本稿では,テストケースの生成と完成におけるモデルの能力を評価するためのベンチマークCLOVERを提案する。ベンチマークはタスク間でのコード実行のためにコンテナ化されています。
論文参考訳（メタデータ） (2025-02-12T21:42:56Z)
Towards Exception Safety Code Generation with Intermediate Representation Agents Framework [54.03528377384397]
大規模言語モデル(LLM)は、しばしば生成されたコードの堅牢な例外処理に苦しむ。中間表現(IR)アプローチにより,LLM生成コードの例外安全性を実現する新しいマルチエージェントフレームワークであるSeekerを提案する。 Seekerは例外処理をScanner, Detector, Predator, Ranker, Handlerの5つの特殊エージェントに分解する。
論文参考訳（メタデータ） (2024-10-09T14:45:45Z)
A Unified Debugging Approach via LLM-Based Multi-Agent Synergy [39.11825182386288]
FixAgentはマルチエージェントのシナジーによる統合デバッグのためのエンドツーエンドフレームワークである。 1.25$times$ 2.56$times$レポレベルのベンチマークであるDefects4Jのバグを修正した。
論文参考訳（メタデータ） (2024-04-26T04:55:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。