論文の概要: FreshBrew: A Benchmark for Evaluating AI Agents on Java Code Migration
- arxiv url: http://arxiv.org/abs/2510.04852v1
- Date: Mon, 06 Oct 2025 14:39:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.905223
- Title: FreshBrew: A Benchmark for Evaluating AI Agents on Java Code Migration
- Title(参考訳): FreshBrew: JavaコードマイグレーションにおけるAIエージェントの評価ベンチマーク
- Authors: Victor May, Diganta Misra, Yanqi Luo, Anjali Sridhar, Justine Gehring, Silvio Soares Ribeiro Junior,
- Abstract要約: 我々は、プロジェクトレベルのJavaマイグレーションでAIエージェントを評価するための新しいベンチマークであるFreshBrewを紹介する。
我々は、いくつかの最先端のLCMをベンチマークし、それらの性能を既存のルールベースのツールと比較する。
228リポジトリのこのベンチマークにおけるAIエージェントの評価は、最高のパフォーマンスモデルである2.5 Gemini Flashがプロジェクトの52.3%を17.5%に移行できることを示している。
- 参考スコア(独自算出の注目度): 2.981397088242044
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI coding assistants are rapidly becoming integral to modern software development. A key challenge in this space is the continual need to migrate and modernize codebases in response to evolving software ecosystems. Traditionally, such migrations have relied on rule-based systems and human intervention. With the advent of powerful large language models (LLMs), AI-driven agentic frameworks offer a promising alternative-but their effectiveness has not been systematically evaluated. In this paper, we introduce FreshBrew, a novel benchmark for evaluating AI agents on project-level Java migrations, with a specific focus on measuring an agent's ability to preserve program semantics and avoid reward hacking, which we argue requires projects with high test coverage for a rigorous and reliable evaluation. We benchmark several state-of-the-art LLMs, and compare their performance against established rule-based tools. Our evaluation of AI agents on this benchmark of 228 repositories shows that the top-performing model, Gemini 2.5 Flash, can successfully migrate 52.3 percent of projects to JDK 17. Our empirical analysis reveals novel insights into the critical strengths and limitations of current agentic approaches, offering actionable insights into their real-world applicability. Our empirical study reveals failure modes of current AI agents in realistic Java modernization tasks, providing a foundation for evaluating trustworthy code-migration systems. By releasing FreshBrew, we aim to facilitate rigorous, reproducible evaluation and catalyze progress in AI-driven codebase modernization.
- Abstract(参考訳): AIコーディングアシスタントは、現代のソフトウェア開発に急速に不可欠なものになりつつある。
この領域における重要な課題は、進化するソフトウェアエコシステムに対応するためにコードベースの移行と近代化を継続する必要性である。
伝統的に、このような移住はルールベースのシステムと人間の介入に依存してきた。
強力な大規模言語モデル(LLM)の出現に伴い、AI駆動のエージェントフレームワークは有望な代替手段を提供するが、その効果は体系的に評価されていない。
本稿では、プロジェクトレベルのJavaマイグレーションにおいてAIエージェントを評価するための新しいベンチマークであるFreshBrewを紹介し、プログラムのセマンティクスを保ち、報酬のハッキングを避けるためにエージェントの能力を測定することに重点を置いている。
我々は、いくつかの最先端のLCMをベンチマークし、それらの性能を既存のルールベースのツールと比較する。
228リポジトリのこのベンチマークにおけるAIエージェントの評価は、最高のパフォーマンスモデルであるGemini 2.5 Flashが、プロジェクトの52.3%をJDK 17に移行することに成功したことを示している。
私たちの経験的分析は、現在のエージェント的アプローチの強みと限界に対する新たな洞察を明らかにし、現実の応用性に関する実用的な洞察を提供します。
私たちの実証的研究は、現実的なJava近代化タスクにおける現在のAIエージェントの障害モードを明らかにし、信頼できるコード移行システムを評価する基盤を提供します。
FreshBrewのリリースにより、厳密で再現可能な評価を容易にし、AI駆動のコードベースの近代化の進展を促進することを目指している。
関連論文リスト
- Shell or Nothing: Real-World Benchmarks and Memory-Activated Agents for Automated Penetration Testing [23.554239007767276]
本稿では,世界初の実世界のエージェント指向ペンテストベンチマークTermiBenchを紹介する。
本稿では,多エージェント浸透試験フレームワークTermiAgentを提案する。
評価において,本研究は最先端のエージェントより優れ,より強力な浸透試験能力を示す。
論文 参考訳(メタデータ) (2025-09-11T07:30:44Z) - A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code [49.009041488527544]
A.S.Eは、AI生成コードのセキュリティを評価するためのリポジトリレベルの評価ベンチマークである。
現在の大規模言語モデル(LLM)は、セキュアなコーディングに苦戦している。
大きな推論予算は、必ずしもより良いコード生成につながるとは限らない。
論文 参考訳(メタデータ) (2025-08-25T15:11:11Z) - MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers [86.00932417210477]
MCP-Universeは,実世界のMPPサーバとのインタラクションを通じて,現実的かつ困難なタスクにおいてLLMを評価するために設計された,初めての総合ベンチマークである。
私たちのベンチマークでは、ロケーションナビゲーション、リポジトリ管理、財務分析、3Dデザイン、ブラウザ自動化、Web検索という、11の異なるMSPサーバにまたがる6つのコアドメインを網羅しています。
GPT-5 (43.72%) やGrok-4 (33.33%) やClaude-4.0-Sonnet (29.44%) のようなSOTAモデルでさえ、大幅な性能制限がある。
論文 参考訳(メタデータ) (2025-08-20T13:28:58Z) - When AIs Judge AIs: The Rise of Agent-as-a-Judge Evaluation for LLMs [8.575522204707958]
大規模言語モデル(LLM)は能力と自律性が向上し、特にオープンで複雑なタスクにおいて、アウトプットの評価が重要なボトルネックとなっている。
新たなパラダイムが生まれつつある。AIエージェントを評価対象として使用することだ。
本稿では,エージェント・アズ・ア・ジャッジの概念を定義し,単一モデル審査員から動的マルチエージェント・ディスカッション・フレームワークへの進化を辿り,その強みと欠点を批判的に検証する。
論文 参考訳(メタデータ) (2025-08-05T01:42:25Z) - MERA Code: A Unified Framework for Evaluating Code Generation Across Tasks [56.34018316319873]
我々は,最新のLLMをロシア語で評価するためのベンチマークであるMERA Codeを提案する。
このベンチマークには、8つのプログラミング言語にまたがる11の評価タスクが含まれている。
我々はオープンなLLMとフロンティアAPIモデルを評価し、非英語言語における実用的なコーディングタスクの観点からそれらの制限を分析した。
論文 参考訳(メタデータ) (2025-07-16T14:31:33Z) - Evolutionary Perspectives on the Evaluation of LLM-Based AI Agents: A Comprehensive Survey [45.485318955120924]
従来の大規模言語モデル(LLM)からより高度なAIエージェントへの移行は、重要な進化のステップである。
既存の評価フレームワークは、LLMチャットボットとAIエージェントの区別を曖昧にし、適切なベンチマークを選択する研究者の間で混乱を招くことが多い。
本稿では,進化的観点からの現在の評価手法の体系的分析を紹介する。
論文 参考訳(メタデータ) (2025-06-06T17:52:18Z) - Agent-as-a-Judge: Evaluate Agents with Agents [61.33974108405561]
本稿ではエージェント・アズ・ア・ジャッジ(Agent-as-a-Judge)フレームワークを紹介し,エージェント・システムを用いてエージェント・システムの評価を行う。
これはLLM-as-a-Judgeフレームワークの有機的拡張であり、タスク解決プロセス全体の中間フィードバックを可能にするエージェント的特徴を取り入れている。
55のリアルな自動化AI開発タスクのベンチマークであるDevAIを紹介します。
論文 参考訳(メタデータ) (2024-10-14T17:57:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。