論文の概要: RepoMod-Bench: A Benchmark for Code Repository Modernization via Implementation-Agnostic Testing
- arxiv url: http://arxiv.org/abs/2602.22518v1
- Date: Thu, 26 Feb 2026 01:25:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.465731
- Title: RepoMod-Bench: A Benchmark for Code Repository Modernization via Implementation-Agnostic Testing
- Title(参考訳): RepoMod-Bench: 実装に依存しないテストによるコードリポジトリの近代化ベンチマーク
- Authors: Xuefeng Li, Nir Ben-Israel, Yotam Raz, Belal Ahmed, Doron Serebro, Antoine Raux,
- Abstract要約: 本稿では,実装に依存しない評価パラダイムに基づく,リポジトリレベルのコードモダナイゼーションのためのベンチマークフレームワークを紹介する。
RepoMod-Benchは8つの言語にまたがる、標準化されたインターフェースを備えた21の現実世界リポジトリのベンチマークである。
ベンチマークには1.6万行のコード(LOC)と11,616のテストが含まれており、リポジトリのサイズは14~211KLOCである。
- 参考スコア(独自算出の注目度): 1.4069797812477614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The evolution of AI coding agents has shifted the frontier from simple snippet completion to autonomous repository-level engineering. However, evaluating these agents remains ill-posed in general code repository generation, where the lack of deterministic ground truth leads to ambiguous metrics. Code modernization via automated translation offers a more rigorous alternative by providing a fixed ground truth -- the source repository; yet existing benchmarks are limited to small-scale repositories and rely on language-specific unit tests visible to the agent, allowing test-driven overfitting. We address these limitations by introducing a benchmarking framework for repository-level code modernization built on an implementation-agnostic evaluation paradigm. This framework is instantiated through RepoMod-Bench: a benchmark of 21 real-world repositories with standardized interfaces, spanning 8 programming languages. The benchmark contains 1.6M lines of code (LOC) and 11,616 tests, with repository sizes ranging from 14 to 211K LOC. By targeting repositories with standardized interfaces, we utilize an implementation-agnostic test suite to verify functional equivalence between source and target implementations. This black-box approach ensures verification remains consistent across languages, and our environment hides all test suites from agents to prevent test-driven shortcuts. Evaluating four state-of-the-art agent configurations reveals a sharp scaling collapse: average pass rates drop from 91.3% on projects under 10K LOC to 15.3% on projects exceeding 50K LOC. These results demonstrate that autonomous modernization at scale remains a significant open challenge. Our benchmark and code are available at https://github.com/Modelcode-ai/mcode-benchmark.
- Abstract(参考訳): AIコーディングエージェントの進化は、フロンティアを単純なスニペット補完から自律リポジトリレベルのエンジニアリングに移行した。
しかし、これらのエージェントを評価することは一般的なコードリポジトリ生成では不適切であり、決定論的基盤の真理が欠如していることは、あいまいなメトリクスにつながる。
しかし、既存のベンチマークは小規模のリポジトリに限られており、エージェントで見える言語固有のユニットテストに依存しており、テスト駆動のオーバーフィッティングを可能にしている。
実装に依存しない評価パラダイムに基づいて構築されたリポジトリレベルのコードモダナイゼーションのためのベンチマークフレームワークを導入することで、これらの制限に対処する。
このフレームワークはRepoMod-Benchを通じてインスタンス化されている。RepoMod-Benchは8つのプログラミング言語にまたがる、標準化されたインターフェースを備えた21の現実世界のリポジトリのベンチマークである。
ベンチマークには1.6万行のコード(LOC)と11,616のテストが含まれており、リポジトリのサイズは14~211KLOCである。
標準化されたインタフェースでリポジトリをターゲットとすることで、実装に依存しないテストスイートを使用して、ソースとターゲットの実装間の機能的等価性を検証する。
このブラックボックスアプローチは、言語間で検証が一貫していることを保証すると同時に、テスト駆動のショートカットを防ぐために、環境がすべてのテストスイートをエージェントから隠蔽する。
平均パスレートは10KLOC以下のプロジェクトでは91.3%から50KLOCを超えるプロジェクトでは15.3%に低下する。
これらの結果は、大規模な自律的近代化が依然として重要なオープンチャレンジであることを示している。
ベンチマークとコードはhttps://github.com/Modelcode-ai/mcode-benchmark.comで公開しています。
関連論文リスト
- SPARC: Scenario Planning and Reasoning for Automated C Unit Test Generation [1.0010193170880752]
本稿では,高レベルのプログラム意図とポインタ演算と手動メモリ管理の厳密な構文制約とのギャップを埋める,ニューロシンボリックなシナリオベースのフレームワークを提案する。
我々は、59の現実世界およびアルゴリズムの被験者で評価し、バニラプロンプト生成ベースラインを31.36%、分岐カバレッジ26.01%、突然変異スコア20.78%で上回り、シンボリック実行ツールKLEEに適合または超えている。
論文 参考訳(メタデータ) (2026-02-18T18:09:03Z) - FeatureBench: Benchmarking Agentic Coding for Complex Feature Development [42.26354337364403]
FeatureBenchは、エンドツーエンドのフィーチャ指向ソフトウェア開発におけるエージェントコーディングのパフォーマンスを評価するために設計されたベンチマークである。
実行ベースの評価プロトコルと、人間の最小限の労力でコードリポジトリからタスクを自動的に引き出す、スケーラブルなテスト駆動メソッドが組み込まれている。
実証的な評価により、クロード4.5オプスのような最先端のエージェントモデルがSWEベンチで74.4%の解決率を達成することが明らかになった。
論文 参考訳(メタデータ) (2026-02-11T16:06:32Z) - RealSec-bench: A Benchmark for Evaluating Secure Code Generation in Real-World Repositories [58.32028251925354]
LLM(Large Language Models)は、コード生成において顕著な能力を示しているが、セキュアなコードを生成する能力は依然として重要で、未調査の領域である。
我々はRealSec-benchを紹介します。RealSec-benchは、現実世界の高リスクなJavaリポジトリから慎重に構築されたセキュアなコード生成のための新しいベンチマークです。
論文 参考訳(メタデータ) (2026-01-30T08:29:01Z) - TestForge: Feedback-Driven, Agentic Test Suite Generation [7.288137795439405]
TestForgeは、現実世界のコードのための高品質なテストスイートをコスト効率よく生成するように設計されたエージェントユニットテスティングフレームワークである。
TestForgeは、最先端の検索ベースの技術と比較して、より自然で理解しやすいテストを生成する。
論文 参考訳(メタデータ) (2025-03-18T20:21:44Z) - CLOVER: A Test Case Generation Benchmark with Coverage, Long-Context, and Verification [71.34070740261072]
本稿では,テストケースの生成と完成におけるモデルの能力を評価するためのベンチマークCLOVERを提案する。
ベンチマークはタスク間でのコード実行のためにコンテナ化されています。
論文 参考訳(メタデータ) (2025-02-12T21:42:56Z) - Skeleton-Guided-Translation: A Benchmarking Framework for Code Repository Translation with Fine-Grained Quality Evaluation [37.25839260805938]
Skeleton-Guided-Translationは、リポジトリレベルのJavaからC#へのコード変換のためのフレームワークで、きめ細かい品質評価がある。
本稿では,高品質なオープンソースJavaレポジトリとその対応するC#スケルトンベンチマークであるTransREPO-BENCHを紹介する。
論文 参考訳(メタデータ) (2025-01-27T13:44:51Z) - Commit0: Library Generation from Scratch [77.38414688148006]
Commit0は、AIエージェントにスクラッチからライブラリを書くよう促すベンチマークである。
エージェントには、ライブラリのAPIを概説する仕様文書と、インタラクティブなユニットテストスイートが提供されている。
Commit0はまた、モデルが生成したコードに対して静的解析と実行フィードバックを受け取る、インタラクティブな環境も提供する。
論文 参考訳(メタデータ) (2024-12-02T18:11:30Z) - Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。
Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文 参考訳(メタデータ) (2024-10-02T09:11:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。